Projekt per år
Organisationsprofil
Organisationsprofil
Language technology is a multidisciplinary field. It often comes with the label computational linguistics, natural language processing (NLP) or natural language engineering (NLE). In language technology we study methods and develop models and tools for processing human language. This includes models for natural language understanding and human language generation also across languages. In Helsinki we focus on
- Cross-lingual NLP including machine translation
- NLP for languages with a rich morphology
- NLP for low-resource languages and in the humanities
Activities and news from our research group are available at our website.
Vetenskapsgrenar
- 113 Data- och informationsvetenskap
- 6121 Språkvetenskaper
Internationellt och inhemskt samarbete
Personer
-
Mikko Aulamo
Person: U1 Undervisnings- och forskningspersonal, Doktorand
-
Mathias Creutz
- Avdelningen för digital humaniora - äldre universitetslektor, Titeln docent
- Språkteknologi
Person: U3 Undervisnings- och forskningspersonal
-
Ona De Gibert Bonet, PhD Student
Person: U1 Undervisnings- och forskningspersonal, Doktorand
Utrustning
-
HTB Helsinki Term Bank for the Arts and Sciences
Onikki-Rantajääskö, T. (Chef), Kanner, A. O. (Operatör), Laxström, N. M. (Operatör), Enqvist, E. J. (Annat) & Kettunen, H. (Annat)
Finskugriska och nordiska avdelningenUtrustning/facilitet: Database
-
-
nVidia RTX 2080Ti GPU for a Workstation
Yli-Jyrä, A. (Chef)
SpråkteknologiUtrustning/facilitet: Utrustning
-
Easy Language for accessible workplace
Onikki-Rantajääskö, T. (Projektledare), Katinskaia, A. (deltagare), Vanhatalo, U. (deltagare), Vu Anh, D. (deltagare) & Yangarber, R. (deltagare)
Innovaatiorahoituskeskus Business Finland
01/10/2024 → 31/03/2025
Projekt: Business Finland
-
Automatic Classification and Analysis of Texts from Egyptian Antiquity
Jauhiainen, T. (Projektledare), Henriksson, E. (deltagare), Jauhiainen, H. (deltagare) & Vierros, M. (deltagare)
01/01/2024 → 30/11/2029
Projekt: Stiftelser och fonder
-
GreenNLP: Green NLP - controlling the carbon footprint in sustainable language technology
Tiedemann, J. (Projektledare), Attieh, J. (deltagare) & Nieminen, T. J. (deltagare)
Suomen Akatemia Projektilaskutus
01/01/2023 → 31/12/2025
Projekt: Finlands Akademi: Akademiprojekt med särskild inriktning
-
High Performance Language Technologies
Tiedemann, J. (Projektledare), Aulamo, M. (deltagare), De Gibert Bonet, O. (deltagare), Grönroos, S.-A. (deltagare), Ji, S. (deltagare), Mickus, T. (deltagare), Vahtola, T. (deltagare), Vazquez , R. (deltagare) & Virpioja, S. P. (deltagare)
Charles University in Prague Faculty of Science Department of Teaching and Didactics of Biology
01/09/2022 → 31/08/2025
Projekt: EU Horizon Europe: Innovation actions (HORIZON-IA)
-
Uncertainty-aware neural language models
Tiedemann, J. (Projektledare), Celikkanat, H. (Deltagare), Virpioja, S. P. (Deltagare) & Vazquez , R. (Deltagare)
Academy of Finland, Suomen Akatemia Projektilaskutus
01/01/2022 → 01/10/2025
Projekt: Forskningsprojekt
-
A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives
Li, Z., Ji, S., Mickus, T., Segonne, V. & Tiedemann, J., 1 nov. 2024, Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. Al-Onaizan, Y., Bansal, M. & Chen, Y.-N. (red.). Kerrville: The Association for Computational Linguistics, s. 15882-15894 13 s.Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil -
Adding soft terminology constraints to pre-trained generic MT models by means of continued training
Nieminen, T. J., 27 juni 2024, Proceedings of the First International Workshop on Knowledge-Enhanced Machine Translation. Tezcan, A., Sánchez-Cartagena, V. & Esplà-Gomis, M. (red.). Geneva: European Association for Machine Translation (EAMT), s. 21-33 13 s.Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil -
A Gold Standard with Silver Linings: Scaling Up Annotation for Distinguishing Bosnian, Croatian, Montenegrin and Serbian
Miletić, A. & Miletić, F., 2024, Proceedings of the Fourth Workshop on Human Evaluation of NLP Systems (HumEval) @ LREC-COLING 2024. Balloccu, S., Belz, A., Huidrom, R., Reiter, E., Sedoc, J. & Thomson, C. (red.). Paris: European Language Resources Association (ELRA), s. 36-46 11 s. (International conference on computational linguistics)(LREC proceedings).Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil -
A New Massive Multilingual Dataset for High-Performance Language Technologies
de Gibert, O., Nail, G., Arefyev, N., Bañón, M., van der Linde, J., Ji, S., Zaragoza-Bernabeu, J., Aulamo, M., Ramírez-Sánchez, G., Kutuzov, A., Pyysalo, S., Oepen, S. & Tiedemann, J., 2024, Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). Calzolari, N., Kan, M.-Y., Hoste, V., Lenci, A., Sakti, S. & Xue, N. (red.). Paris: European Language Resources Association (ELRA), s. 1116-1128 13 s. (International conference on computational linguistics )(LREC proceedings ).Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil -
Anticipating Follow-Up Questions in Exploratory Information Search
Wilcock, G., 18 sep. 2024, (!!Accepted/In press) 25th Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL 2024). 7 s.Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil
Aktiviteter
-
Learning from dialect classifiers: Detecting dialect features across different data sources
Roemling, D. (!!Invited speaker) & Scherrer, Y. (!!Speaker)
13 jan. 2025Aktivitet: Typer för tal eller presentation › !!Invited talk
Fil -
Lexical Semantics
Sahala, A. (!!Speaker)
22 maj 2024Aktivitet: Typer för tal eller presentation › !!Invited talk
-
Improving Language Coverage on HeLI-OTS
Jauhiainen, T. (!!Speaker)
20 maj 2024Aktivitet: Typer för tal eller presentation › !!Oral presentation
Fil -
Data and Information Management (Tidskrift)
Jauhiainen, T. (Referentgranskare)
2024Aktivitet: Typer för peer review av output och redaktionsarbete › Referentgranskning av manuskript
-
Data Availability and Evaluation Reproducibility for Automatic Date Detection in Texts, a Survey
Jauhiainen, T. (!!Speaker)
31 maj 2024Aktivitet: Typer för tal eller presentation › !!Oral presentation
Priser
-
August Ahlqvistin, Yrjö Wichmannin, Kai Donnerin ja Artturi Kanniston rahastojen väitöskirjapalkinto
Kuparinen, O. V. (!!Recipient), 14 mars 2022
Pris: Pris och hedersbetygelser
-
Best paper award at DHN 2020
Mäkelä, E. (!!Recipient), Lagus, K. (!!Recipient), Lahti, L. (!!Recipient), Säily, T. (!!Recipient), Tolonen, M. (!!Recipient), Hämäläinen, M. (!!Recipient), Kaislaniemi, S. (!!Recipient) & Nevalainen, T. (!!Recipient), 23 okt. 2020
Pris: Pris och hedersbetygelser
-
-
-
Forskningsdatauppsättningar
-
Murreviikko: an Annotated and Normalized Corpus of Dialectal Finnish Tweets
Kuparinen, O. V. (Skapad av), Zenodo, 2023
Datauppsättning
-
OcWikiAnnot: Annotated Wikipedia Corpus of Occitan
Miletic Haddad, A. (Skapad av), Zenodo, 20 apr. 2023
DOI: 10.5281/zenodo.7777340, https://doi.org/10.5281/zenodo.7777340
Datauppsättning
-
OcWikiDisc: a Corpus of Wikipedia Talk Pages in Occitan
Miletic Haddad, A. (Skapad av) & Scherrer, Y. (Skapad av), Zenodo, 14 sep. 2022
DOI: 10.5281/zenodo.7079580, https://doi.org/10.5281/zenodo.7079580
Datauppsättning
-
Machine-readable Northern Karelian Proper-Livvi bilingual translation dictionary
Rantakaulio, T. (Skapad av), Alnajjar, K. (Skapad av), Hämäläinen, M. (Skapad av), Rueter, J. (Skapad av) & Pirinen, F. (Skapad av), Zenodo, 3 jan. 2022
Datauppsättning
-
Machine-readable Finnish-Karelian bilingual translation dictionary
Rantakaulio, T. (Skapad av), Alnajjar, K. (Skapad av), Hämäläinen, M. (Skapad av), Pirinen, F. (Skapad av) & Rueter, J. (Skapad av), Zenodo, 3 jan. 2022
Datauppsättning
Tidningsurklipp
-
-
Språk(teknologi) är nyckeln till intelligens och rättvisa
20/01/2022
1 Mediabidrag
Press/media: !!Press / Media
-
芬兰研究人员正在教人工智能讲流利的芬兰语方言
Hämäläinen, M., Alnajjar, K., Rueter, J. & Partanen, N.
10/01/2022
1 objekt av Mediabevakning
Press/media: !!Press / Media
-
Inteligência artificial identifica 23 dialetos em finlandês
Hämäläinen, M., Alnajjar, K., Rueter, J. & Partanen, N.
17/12/2021
1 objekt av Mediabevakning
Press/media: !!Press / Media
-
Researchers teach artificial intelligence to be fluent in Finnish dialects
Hämäläinen, M., Alnajjar, K., Partanen, N. & Rueter, J.
16/12/2021
1 Mediabidrag
Press/media: !!Press / Media