LSDC - A comprehensive dataset for Low Saxon Dialect Classification

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

We present a new comprehensive dataset for the unstandardised West-Germanic language Low Saxon covering the last two centuries, the majority of modern dialects and various genres, which will be made openly available in connection with the final version of this paper. Since so far no such comprehensive dataset of contemporary Low Saxon exists, this provides a great contribution to NLP research on this language. We also test the use of this dataset for dialect classification by training a few baseline models comparing statistical and neural approaches. The performance of these models shows that in spite of an imbalance in the amount of data per dialect, enough features can be learned for a relatively high classification accuracy.
Alkuperäiskielienglanti
OtsikkoProceedings of the 7th Workshop on NLP for Similar Languages, Varieties and Dialects
ToimittajatMarcos Zampieri, Preslav Nakov, Nikola Ljubešić, Jörg Tiedemann, Yves Scherrer
Sivumäärä11
JulkaisupaikkaBarcelona
KustantajaInternational Committee on Computational Linguistics (ICCL)
Julkaisupäivä1 joulukuuta 2020
Sivut25-35
ISBN (elektroninen)978-1-952148-47-7
TilaJulkaistu - 1 joulukuuta 2020
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaWorkshop on NLP for similar languages, varieties and dialects (VarDial 2020) - [Virtual workshop]
Kesto: 13 joulukuuta 202013 joulukuuta 2020
Konferenssinumero: 7
https://sites.google.com/view/vardial2020/home

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet
  • 6121 Kielitieteet

Siteeraa tätä