Analysing concatenation approaches to document-level NMT in two different domains

Yves Scherrer, Jörg Tiedemann, Sharid Loáiciga

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

In this paper, we investigate how different aspects of discourse context affect the performance of recent neural MT systems. We describe two popular datasets covering news and movie subtitles and we provide a thorough analysis of the distribution of various document-level features in their domains. Furthermore, we train a set of context-aware MT models on both datasets and propose a comparative evaluation scheme that contrasts coherent context with artificially scrambled documents and absent context, arguing that the impact of discourse-aware MT models will become visible in this way. Our results show that the models are indeed affected by the manipulation of the test data, providing a different view on document-level translation quality than absolute sentence-level scores.
Alkuperäiskielienglanti
OtsikkoThe Fourth Workshop on Discourse in Machine Translation : Proceedings of the Workshop
Sivumäärä11
JulkaisupaikkaStroudsburg
KustantajaThe Association for Computational Linguistics
Julkaisupäivä1 marraskuuta 2019
Sivut51-61
ISBN (elektroninen)978-1-950737-74-1
DOI - pysyväislinkit
TilaJulkaistu - 1 marraskuuta 2019
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaWorkshop on Discourse in Machine Translation - Hong Kong, Kiina
Kesto: 3 marraskuuta 20193 marraskuuta 2019
Konferenssinumero: 4

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet
  • 6121 Kielitieteet

Siteeraa tätä

Scherrer, Y., Tiedemann, J., & Loáiciga, S. (2019). Analysing concatenation approaches to document-level NMT in two different domains. teoksessa The Fourth Workshop on Discourse in Machine Translation: Proceedings of the Workshop (Sivut 51-61). Stroudsburg: The Association for Computational Linguistics. https://doi.org/10.18653/v1/D19-6506