Henkilökohtainen profiili
Tutkimuksen ja opetuksen kuvaus
Ansioluettelo
I work as professor of language technology at the Department of Digital Humanities at the University of Helsinki. My main research interest is in cross-lingual NLP and machine translation.
- Since August 2015: Professor of Language Technology at the Department of Digital Humanities / HELDIG (formerly at the Department of Modern Languages), University of Helsinki
- September 2014 – July 2015: Senior Researcher at the Department of Linguistics and Philology, Uppsala University
- September 2009 – August 2014: Visiting Professor at the Department of Linguistics and Philology, Uppsala University
- September 2004 – August 2009: PostDoc researcher at the Department of Information Science/Humanities Computing (Informatiekunde), University of Groningen
- January 2004 – August 2004: Lecturer in computational linguistics and coordinator for the language technology programme, Department of Linguistics and Philology, Uppsala University
- 2000 – 2003: Ph.D. research at the Department of Linguistics, Uppsala University
- 2001 – 2002: Visiting Ph.D. student, Division of Informatics, Edinburgh University, UK
- 1997 – 1999: Research assistent, Department of Linguistics, Uppsala University
- 1991 – 1997: Masters in Computer Science (Diplom für Informatik), “Otto-von-Guericke” University, Magdeburg, Germany
Recent Projects
- Found in Translation: Natural Language Understanding with Cross-lingual Grounding (ERC)
- MeMAD: Methods for Managing Audiovisual Data (EU H2020)
- NLUxG – NLU with Cross-Lingual Grounding (AoF)
- Nordic Language Processing Laboratory (nordforsk, NeIC)
- fiskmö: Parallel corpora and machine translation for Finnish and Swedish (SKF)
- Cross-lingual NLP for low-resource languages (UH)
- Discourse Oriented Statistical Machine Translation (VR)
- Efficient Algorithms for Natural Language Processing Beyond Sentence Boundaries – a project within the e-science collaboration eSSENCE
- LetsMT! – Building a Platform for Online Sharing of Training Data and Building User Tailored MT (EU ICT)
Resources and Tools
- OPUS – a collection of freely available parallel corpora and tools
- fiskmö translator – a translation demo for the Nordic languages
- efmaral and eflomal – tools for efficient word alignment
- WMT en-fi 2016, 2017: official MT test sets for Finnish-English
- HNMT – the Helsinki Neural Machine Translation system
- Lingua::Align – a toolbox for tree-to-tree alignment
- Uplug – a toolbox for processing parallel corpora
- Lingua::Ident::Blacklists – language identifier for related languages
- Docent – a document-level SMT decoder
- pdf2xml – a converter for PDF documents
- subalign – tools for converting and aligning movie subtitles
- Helsinki-NLP at github and bitbucket
Active PhD Students
Former PhD Students
Koulutus / tieteellinen pätevyys
Computational Linguistics, PhD, Recycling Translations - Extraction of Lexical Data from Parallel Corpora and their Application in Natural Language Processing, Uppsala University
2000 → 2003
Myöntöpäivä: 12 jouluk. 2003
Computer Science, M.Sc., Automatical Lexicon Extraction from Aligned Bilingual Corpora, Otto Von Guericke University, Magdeburg
1991 → 1997
Myöntöpäivä: 11 syysk. 1997
Tieteenalat
- 6121 Kielitieteet
- 113 Tietojenkäsittely- ja informaatiotieteet
Yhteistyöt ja huippututkimusalueet viimeisiltä viideltä vuodelta
Tutkimustuotos
-
The MeMAD Submission to the WMT18 Multimodal Translation Task
Grönroos, S.-A., Huet, B., Kurimo, M., Laaksonen, J., Merialdo, B., Pham, P., Sjöberg, M., Sulubacak, U., Tiedemann, J., Troncy, R. & Vázquez Carrillo, J. R., 1 marrask. 2018, Proceedings of the Third Conference on Machine Translation (WMT): Shared Task Papers. Bojar, O., Chatterjee, R., Federmann, C., Fishel, M., Graham, Y., Haddow, B., Huck, M., Yepes, A. J., Koehn, P., Monz, C., Negri, M., Névéol, A., Neves, M., Post, M., Specia, L., Turchi, M. & Verspoor, K. (toim.). Stroudsburg: The Association for Computational Linguistics, s. 603-611 9 SivumääräTutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussa › Konferenssiartikkeli › Tieteellinen › vertaisarvioitu
Open accessTiedosto -
Emerging Language Spaces Learned From Massively Multilingual Corpora
Tiedemann, J., 2018, Proceedings of the Digital Humanities in the Nordic Countries 3rd Conference (DHN 2018). Mäkelä, E., Tolonen, M. & Tuominen, J. (toim.). Helsinki: CEUR Workshop Proceedings, Vuosikerta 2084. s. 188-197 (CEUR Workshop Proceedings).Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussa › Konferenssiartikkeli › Tieteellinen › vertaisarvioitu
Open accessTiedosto -
Findings of the VarDial Evaluation Campaign 2017
Zampieri, M., Malmasi, S., Ljubešić, N., Nakov, P., Ali, A., Tiedemann, J., Scherrer, Y. & Aepli, N., 1 huhtik. 2017, Proceedings of the Fourth Workshop on NLP for Similar Languages, Varieties and Dialects. Stroudsburg: The Association for Computational Linguistics, s. 1-15 15 SivumääräTutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussa › Konferenssiartikkeli › Tieteellinen
Open access -
Synthetic Treebanking for Cross-Lingual Dependency Parsing
Tiedemann, J. & Agi, Z., tammik. 2016, julkaisussa: Journal of Artificial Intelligence Research. 55, s. 209-248 40 SivumääräTutkimustuotos: Artikkelijulkaisu › Artikkeli › Tieteellinen › vertaisarvioitu
Open accessTiedosto -
Parallel Data, Tools and Interfaces in OPUS
Tiedemann, J., 1 toukok. 2012, Unknown host publication. Calzolari, N., Choukri, K., Declerck, T., Dogan, M. U., Maegaard, B., Mariani, J., Odijk, J. & Piperidis, S. (toim.). s. 2214-2218 5 SivumääräTutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussa › Konferenssiartikkeli › Tieteellinen › vertaisarvioitu
-
FoTran: Found in Translation - Natural Language Understanding with Cross-Lingual Grounding
Tiedemann, J. (Projektinjohtaja), Attieh, J. (osallistuja), Aulamo, M. (osallistuja), Celikkanat, H. (osallistuja), De Gibert Bonet, O. (osallistuja), Grönroos, S.-A. (osallistuja), Mickus, T. (osallistuja), Scherrer, Y. (osallistuja), Silfverberg, M. (osallistuja), Sjöblom, E. I. (osallistuja), Talman, A. (osallistuja), Vazquez , R. (osallistuja), Virpioja, S. P. (osallistuja), Yli-Jyrä, A. (osallistuja), Celikkanat, H. (Osallistuja), Raganato, A. (Osallistuja), Silfverberg, M. (Osallistuja), Sulubacak, U. (Osallistuja) & Vazquez , R. (Osallistuja)
01/09/2018 → 31/03/2024
Projekti: The European Research Council: Consolidator Grant (H2020-ERC-COG)
-
MeMAD: Methods for Managing Audiovisual Data: Combining Automatic Efficiency with Human Accuracy
Hirvonen, M. (Principal Investigator), Tiedemann, J. (Osallistuja), Tiittula, L. (Osallistuja), Sulubacak, U. (Osallistuja), Vazquez , R. (Osallistuja) & Koponen, M. (Osallistuja)
European Commission / Horizon 2020
01/01/2018 → 31/03/2021
Projekti: Tutkimusprojekti
-
fiskmö: Creation of a parallel corpus of translated documents and machine translation for Finnish and Swedish
Tiedemann, J. (Projektinjohtaja), Ginter, F. (Projektinjohtaja), Papula, N. (Projektinjohtaja), Aulamo, M. (Osallistuja), Nieminen, T. (Osallistuja), Kanerva, J. (Osallistuja) & Eskola, K. (Osallistuja)
01/05/2018 → 31/03/2021
Projekti: Tutkimusprojekti
-
NLPL: Nordic Language Processing Laboratory
Tiedemann, J. (Osallistuja) & Scherrer, Y. (Osallistuja)
01/01/2017 → 31/12/2019
Projekti: Muu projekti
-
OPUS MT Factory - effektiv och öppen maskinöversättning av hög kvalitet
Tiedemann, J. (Projektinjohtaja), Aulamo, M. (osallistuja), De Gibert Bonet, O. (osallistuja) & Virpioja, S. P. (osallistuja)
01/01/2026 → 31/12/2027
Projekti: Suomen Akatemia: : Suunnattu akatemiahanke
Tietoaineistot
-
-
WMT17 test set Finnish-English
Tiedemann, J. (Luoja), Zenodo, 21 tammik. 2018
DOI - pysyväislinkki: 10.5281/zenodo.1156326, https://github.com/Helsinki-NLP/WMT16-test-enfi/tree/v1.0
Tietoaineisto
-
WMT16 test set Finnish-English
Tiedemann, J. (Luoja), Zenodo, 21 tammik. 2018
DOI - pysyväislinkki: 10.5281/zenodo.1156325, https://github.com/Helsinki-NLP/WMT16-test-enfi/tree/v1.0
Tietoaineisto
-
Shared Task in Cross-Lingual Parsing
Tiedemann, J. (Tietojen hallinnoija), Atlassian, 2017
https://bitbucket.org/hy-crossNLP/vardial2017
Tietoaineisto
-
DiscoMT 2015 Shared Task on Pronoun Translation
Tiedemann, J. (Luoja), LINDAT/CLARIN, 31 tammik. 2016
DOI - pysyväislinkki: http://hdl.handle.net/11372/LRT-1611, http://hdl.handle.net/11372/LRT-1611
Tietoaineisto
Aktiviteetit
-
What is the meaning of life? I found it in translation ...
Tiedemann, J. (Puhuja)
12 jouluk. 2018Aktiviteetti: Puhe- tai esitystyypit › Suullinen esitys
-
FoTran 2018: Found in translation
Tiedemann, J. (Tieteellisen komitean puheenjohtaja), Celikkanat, H. (Järjestäjätoimikunnan jäsen) & Vazquez Carrillo, J. R. (Järjestäjätoimikunnan jäsen)
28 syysk. 2018Aktiviteetti: Tapahtumaan osallistumisen ja tapahtuman järjestämisen tyypit › Konferensseihin, kursseille ja seminaareihin osallistuminen ja näiden järjestäminen
-
The Thirteenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial) 2026
Jauhiainen, T. (Järjestäjätoimikunnan jäsen), Scherrer, Y. (Järjestäjätoimikunnan puheenjohtaja) & Tiedemann, J. (Järjestäjätoimikunnan jäsen)
2025 → 2026Aktiviteetti: Tapahtumaan osallistumisen ja tapahtuman järjestämisen tyypit › Konferensseihin, kursseille ja seminaareihin osallistuminen ja näiden järjestäminen
-
MT Marathon 2025
Tiedemann, J. (Järjestäjätoimikunnan puheenjohtaja), Vazquez , R. (Järjestäjätoimikunnan jäsen), Mickus, T. (Järjestäjätoimikunnan jäsen), Attieh, J. (Järjestäjätoimikunnan jäsen), Aulamo, M. (Järjestäjätoimikunnan jäsen) & De Gibert Bonet, O. (Järjestäjätoimikunnan jäsen)
25 elok. 2025 → 29 elok. 2025Aktiviteetti: Tapahtumaan osallistumisen ja tapahtuman järjestämisen tyypit › Konferensseihin, kursseille ja seminaareihin osallistuminen ja näiden järjestäminen
-
Workshop on NLP for Similar Languages, Varieties and Dialects
Jauhiainen, T. (Järjestäjätoimikunnan jäsen), Scherrer, Y. (Järjestäjätoimikunnan puheenjohtaja) & Tiedemann, J. (Järjestäjätoimikunnan jäsen)
2024 → 2025Aktiviteetti: Tapahtumaan osallistumisen ja tapahtuman järjestämisen tyypit › Konferensseihin, kursseille ja seminaareihin osallistuminen ja näiden järjestäminen
Lehtileikkeet
-
Språk(teknologi) är nyckeln till intelligens och rättvisa
20/01/2022
1 Median myötävaikutus
Lehdistö/media
-
500-Million-Sentence Dataset Can Boost Machine Translation for Low-Resource Languages
08/03/2021
1 kohde/ Medianäkyvyys
Lehdistö/media
-
-
-