Document-level Machine Translation Benchmark

Tietoaineisto

Kuvaus

This release contains data sets for experiments with document-level machine translation. The data sets have been used in previous studies and provided here for replicability and comparison with other systems. The data sets are taken from the English-German news translation task at WMT 2019 and the English-German bitext in the OpenSubtitles collection v2016 from OPUS. All data sets are sentence aligned with corresponding lines being aligned to each other. Document boundaries are marked with empty lines (on both sides of the parallel corpus).
Koska saatavilla1 marraskuuta 2019
JulkaisijaUniversity of Helsinki
Tietojen luontipäivämäärä1 tammikuuta 2017 - 1 marraskuuta 2019

Tutkimustuotos

  • 1 Konferenssiartikkeli

Analysing concatenation approaches to document-level NMT in two different domains

Scherrer, Y., Tiedemann, J. & Loáiciga, S., 1 marraskuuta 2019, The Fourth Workshop on Discourse in Machine Translation: Proceedings of the Workshop. Stroudsburg: The Association for Computational Linguistics, s. 51-61 11 Sivumäärä

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Open access
Tiedosto

Siteeraa tätä

Scherrer, Y. (Luoja), Tiedemann, J. (Luoja), Loáiciga, S. (Luoja) (1 marraskuuta 2019). Document-level Machine Translation Benchmark. University of Helsinki. 10.5281/zenodo.3525366