The Development of a Comprehensive Data Set for Systematic Studies of Machine Translation

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKirjan luku tai artikkeliTieteellinenvertaisarvioitu

Abstrakti

This paper presents our on-going efforts to develop a com-
prehensive data set and benchmark for machine translation beyond high-
resource languages. The current release includes 500GB of compressed
parallel data for almost 3,000 language pairs covering over 500 languages
and language variants. We present the structure of the data set and
demonstrate its use for systematic studies based on baseline experiments
with multilingual neural machine translation between Uralic languages
and other language groups. Our initial results show the capabilities of
training effective multilingual translation models with skewed training
data but also stress the shortcomings with low-resource settings and
the difficulties to obtain sufficient information through straightforward
transfer from related languages.
Alkuperäiskielienglanti
OtsikkoMultilingual Facilitation
ToimittajatMika Hämäläinen, Niko Partanen, Khalid Alnajjar
Sivumäärä15
JulkaisupaikkaHelsinki
KustantajaUniversity of Helsinki
Julkaisupäivä2021
Sivut248-262
ISBN (painettu)979-8-7133-6227-0
ISBN (elektroninen)978-951-51-5025-7
DOI - pysyväislinkit
TilaJulkaistu - 2021
OKM-julkaisutyyppiA3 Kirjan tai muun kokoomateoksen osa

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet
  • 6121 Kielitieteet

Siteeraa tätä