Projekt per år
Organisationsprofil
Organisationsprofil
Language technology is a multidisciplinary field. It often comes with the label computational linguistics, natural language processing (NLP) or natural language engineering (NLE). In language technology we study methods and develop models and tools for processing human language. This includes models for natural language understanding and human language generation also across languages. In Helsinki we focus on
- Cross-lingual NLP including machine translation
- NLP for languages with a rich morphology
- NLP for low-resource languages and in the humanities
Activities and news from our research group are available at our website.
Vetenskapsgrenar
- 113 Data- och informationsvetenskap
- 6121 Språkvetenskaper
Samarbeten och ledande forskningsområden under de senaste fem åren
Profiler
-
Mathias Creutz
- Avdelningen för digital humaniora - äldre universitetslektor, Titeln docent
- Doktorandprogrammet i språkforskning - Handledare för doktorandprogram
- Språkteknologi
Person: U3 Undervisnings- och forskningspersonal
Utrustning
-
HTB Helsinki Term Bank for the Arts and Sciences
Onikki-Rantajääskö, T. (Chef), Kanner, A. O. (Operatör), Laxström, N. M. (Operatör), Enqvist, E. J. (Annat) & Kettunen, H. (Annat)
Finskugriska och nordiska avdelningenUtrustning/facilitet: Database
-
-
nVidia RTX 2080Ti GPU for a Workstation
Yli-Jyrä, A. (Chef)
SpråkteknologiUtrustning/facilitet: Utrustning
-
Automatic Classification and Analysis of Texts from Egyptian Antiquity
Jauhiainen, T. (Projektledare), Henriksson, E. (deltagare), Jauhiainen, H. (deltagare) & Vierros, M. (deltagare)
01/01/2024 → 30/11/2029
Projekt: Stiftelser och fonder
-
GreenNLP: Green NLP - controlling the carbon footprint in sustainable language technology
Tiedemann, J. (Projektledare), Attieh, J. (deltagare), Mickus, T. (deltagare), Nieminen, T. J. (deltagare), Virpioja, S. P. (deltagare), Wang, C. (deltagare), Yli-Jyrä, A. (deltagare) & Štefánik, M. (deltagare)
Suomen Akatemia Projektilaskutus
01/01/2023 → 31/12/2025
Projekt: Finlands Akademi: Akademiprojekt med särskild inriktning
-
High Performance Language Technologies
Tiedemann, J. (Projektledare), Aulamo, M. (deltagare), De Gibert Bonet, O. (deltagare), Grönroos, S.-A. (deltagare), Ji, S. (deltagare), Mickus, T. (deltagare), Siewert, J. (deltagare), Vahtola, T. (deltagare), Vazquez , R. (deltagare) & Virpioja, S. P. (deltagare)
Charles University in Prague Faculty of Science Department of Teaching and Didactics of Biology
01/09/2022 → 31/12/2025
Projekt: EU Horizon Europe: Innovation actions (IA)
-
MaReTE: Machine Readable Texts for Egyptologists
Jauhiainen, H. (Projektledare)
01/01/2021 → …
Projekt: Forskningsprojekt
-
Experimental Treebanking for the Minority Skolt Sámi Language and Finite-State Descriptions
Rueter, J. (Projektledare), Juutinen, M. (Deltagare), Pirinen, T. (Projektledare) & Tyers, F. (Deltagare)
01/06/2020 → …
Projekt: Forskningsprojekt
-
A Bayesian Approach to Inferring Prerequisite Structures and Topic Difficulty in Language Learning
Vu Anh, D., Hou, J., Katinskaya, A., Sheu, C.-F. & Yangarber, R., 2025, Proceedings of the 20th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2025). The Association for Computational Linguistics, s. 737 15 s.Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil -
Adapting Definition Modeling for New Languages: A Case Study on Belarusian
Kazakouskaya, D., Mickus, T. & Siewert, J., 1 juli 2025, Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025). Piskorski, J., Přibáň, P., Nakov, P., Yangarber, R. & Marcinczuk, M. (red.). Vienna: The Association for Computational Linguistics, s. 69-75 7 s.Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil -
Aligning Encoded Hieroglyphic and Transliterated Words with Needleman-Wunsch Algorithm
Jauhiainen, H., 2025, (!!Accepted/In press) Proceedings of the Conference "Ancient Egypt-New Technologies" 2. (Serie Egittologica).Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
-
Analyzing the Effect of Linguistic Instructions on Paraphrase Generation
Vahtola, T., Hu, S., Creutz, M., Vulić, I., Korhonen, A. & Tiedemann, J., mars 2025, Proceedings of the Joint 25th Nordic Conference on Computational Linguistics and 11th Baltic Conference on Human Language Technologies (NoDaLiDa/Baltic-HLT 2025). Johansson, R. & Stymme, S. (red.). Tartu: University of Tartu Library, s. 755-766 12 s. (NEALT proceedings series; nr. 57).Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil -
An Expanded Massive Multilingual Dataset for High-Performance Language Technologies (HPLT)
Burchell, L., de Gibert, O., Arefyev, N., Aulamo, M., Bañón, M., Chen, P., Fedorova, M., Guillou, L., Haddow, B., Hajič, J., Helcl, J., Henriksson, E., Klimaszewski, M., Komulainen, V., Kutuzov, A., Kytöniemi, J., Laippala, V., Mæhlum, P., Malik, B. & Mehryary, F. & 15 andra, , 2025, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Che, W., Nabende, J., Shutova, E. & Pilehvar, M. T. (red.). Kerrville: Association for Computational Linguistics (ACL), s. 17452-17485 34 s. (Proceedings of the Annual Meeting of the Association for Computational Linguistics).Forskningsoutput: Kapitel i bok/rapport/konferenshandling › Konferensbidrag › Vetenskaplig › Peer review
Öppen tillgångFil
Aktiviteter
-
Neural Models for Lemmatization and POS-Tagging of Earlier and Late Egyptian (Supporting Hieroglyphic Input) and Demotic
Sahala, A. (!!Speaker)
4 maj 2025Aktivitet: Typer för tal eller presentation › !!Oral presentation
-
Computational Approaches to Sumerian Unorthographic Texts
Sahala, A. (!!Speaker)
10 apr. 2025Aktivitet: Typer för tal eller presentation › !!Oral presentation
-
HPLT Winter School 2025
Vazquez , R. (Närvarande)
3 feb. 2025 → 5 feb. 2025Aktivitet: Typer för deltagande i eller organisering av evenemang › Arrangemang av och deltagande i konferens/workshop/kurs/seminarium
-
Gothenburg Workshop on Visualisation and Annotation of Multimodal Data ViAM 2025
Vazquez , R. (Närvarande)
22 maj 2025Aktivitet: Typer för deltagande i eller organisering av evenemang › Arrangemang av och deltagande i konferens/workshop/kurs/seminarium
-
MT Marathon 2025
Tiedemann, J. (Ordförande i organisationskommitté), Vazquez , R. (Medlem i organisationskommitté), Mickus, T. (Medlem i organisationskommitté), Attieh, J. (Medlem i organisationskommitté), Aulamo, M. (Medlem i organisationskommitté) & De Gibert Bonet, O. (Medlem i organisationskommitté)
25 aug. 2025 → 29 aug. 2025Aktivitet: Typer för deltagande i eller organisering av evenemang › Arrangemang av och deltagande i konferens/workshop/kurs/seminarium
Priser
-
August Ahlqvistin, Yrjö Wichmannin, Kai Donnerin ja Artturi Kanniston rahastojen väitöskirjapalkinto
Kuparinen, O. V. (!!Recipient), 14 mars 2022
Pris: Pris och hedersbetygelser
-
Best paper award at DHN 2020
Mäkelä, E. (!!Recipient), Lagus, K. (!!Recipient), Lahti, L. (!!Recipient), Säily, T. (!!Recipient), Tolonen, M. (!!Recipient), Hämäläinen, M. (!!Recipient), Kaislaniemi, S. (!!Recipient) & Nevalainen, T. (!!Recipient), 23 okt. 2020
Pris: Pris och hedersbetygelser
-
-
-
Forskningsdatauppsättningar
-
Mu-SHROOM: Multilingual Shared-task on Hallucinations and Related Observable Overgeneration Mistakes and Related Observable Overgeneration Mistakes
Vazquez , R. (Skapad av) & Mickus, T. (Skapad av), ACL, juli 2025
https://huggingface.co/datasets/Helsinki-NLP/mu-shroom och 2 fler länkar, https://github.com/Helsinki-NLP/mu-shroom, https://helsinki-nlp.github.io/shroom/2025.html (visa färre)
Datauppsättning
-
The SHROOM dataset for Multilingual Hallucination and Overgeneration detection.
Mickus, T. (Skapad av) & Vazquez , R. (Skapad av), ACL, 2024
https://github.com/Helsinki-NLP/shroom/blob/main/2024.md
Datauppsättning
-
Murreviikko: an Annotated and Normalized Corpus of Dialectal Finnish Tweets
Kuparinen, O. V. (Skapad av), Zenodo, 2023
Datauppsättning
-
OcWikiAnnot: Annotated Wikipedia Corpus of Occitan
Miletic Haddad, A. (Skapad av), Zenodo, 20 apr. 2023
DOI: 10.5281/zenodo.7777340, https://doi.org/10.5281/zenodo.7777340
Datauppsättning
-
OcWikiDisc: a Corpus of Wikipedia Talk Pages in Occitan
Miletic Haddad, A. (Skapad av) & Scherrer, Y. (Skapad av), Zenodo, 14 sep. 2022
DOI: 10.5281/zenodo.7079580, https://doi.org/10.5281/zenodo.7079580
Datauppsättning
Tidningsurklipp
-
-
Språk(teknologi) är nyckeln till intelligens och rättvisa
20/01/2022
1 Mediabidrag
Press/media: !!Press / Media
-
芬兰研究人员正在教人工智能讲流利的芬兰语方言
Hämäläinen, M., Alnajjar, K., Rueter, J. & Partanen, N.
10/01/2022
1 objekt av Mediabevakning
Press/media: !!Press / Media
-
Inteligência artificial identifica 23 dialetos em finlandês
Hämäläinen, M., Alnajjar, K., Rueter, J. & Partanen, N.
17/12/2021
1 objekt av Mediabevakning
Press/media: !!Press / Media
-
Researchers teach artificial intelligence to be fluent in Finnish dialects
Hämäläinen, M., Alnajjar, K., Partanen, N. & Rueter, J.
16/12/2021
1 Mediabidrag
Press/media: !!Press / Media