Working Towards Digital Documentation of Uralic Languages With Open-Source Tools and Modern NLP Methods

Mika Hämäläinen, Jack Rueter, Khalid Alnajjar, Niko Partanen

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

We present our work towards building an infrastructure for documenting endangered languages with the focus on Uralic languages in particular. Our infrastructure consists of tools to write dictionaries so that entries are structured in XML format. These dictionaries are the foundation for rule-based NLP tools such as FSTs. We also work actively towards enhancing these dictionaries and tools by using the latest state-of-the-art neural models by generating training data through rules and lexica.
Alkuperäiskielienglanti
OtsikkoProceedings of the Big Picture Workshop
ToimittajatYanai Elazar, Allyson Ettinger, Norea Kassner, Sebastian Ruder, Noah A. Smith
Sivumäärä10
JulkaisupaikkaStroudsburg
KustantajaThe Association for Computational Linguistics
Julkaisupäivä2023
Sivut18-27
ISBN (elektroninen)979-8-89176-051-6
TilaJulkaistu - 2023
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaThe Big Picture Workshop
- , Singapore
Kesto: 7 jouluk. 20237 jouluk. 2023

Tieteenalat

  • 6121 Kielitieteet
  • 113 Tietojenkäsittely- ja informaatiotieteet
  • Language facilitator

    Trond Trosterud (Konsultti), Sjur Moshagen (Konsultti), Jack Rueter (Konsultti), Lene Antonsen (Konsultti), Heli Uibo (Konsultti), Ciprian Gerstenberger (Konsultti), Marina Fedina (Konsultti), Heiki-Jaan Kaalep (Konsultti) & Valts Ernstreits (Konsultti)

    elok. 2004 → …

    Aktiviteetti: KonsultointityypitKonsultointi

Siteeraa tätä