Instant annotations in ELAN corpora of spoken and written Komi, an endangered language of the Barents Sea region

Ciprian Gerstenberger, Niko Partanen, Michael Rießler

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

The paper describes work-in-progress by the Izhva Komi language documentation project, which records new spoken language data, digitizes available recordings and annotate these multimedia data in order to provide a comprehensive language corpus as a databases for future research on and for this endangered – and under-described – Uralic speech community. While working with a spoken variety and in the framework of documentary linguistics, we apply language technology methods and tools, which have been applied so far only to normalized written languages. Specifically, we describe a script providing interactivity between ELAN, a Graphical User Interface tool for annotating and presenting multimodal corpora, and different morphosyntactic analysis modules implemented as Finite-State Transducers and Constraint Grammar for rule-based morphosyntactic tagging and disambiguation. Our aim is to challenge current manual approaches in the annotation of language documentation corpora.
Alkuperäiskielienglanti
OtsikkoProceedings of the 2nd Workshop on the Use of Computational Methods in the Study of Endangered Languages
Sivumäärä10
KustantajaThe Association for Computational Linguistics
Julkaisupäivämaaliskuuta 2017
Sivut57-66
DOI - pysyväislinkit
TilaJulkaistu - maaliskuuta 2017
Julkaistu ulkoisestiKyllä
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaWorkshop on Computational Methods for Endangered Languages - Honolulu, Yhdysvallat (USA)
Kesto: 26 helmikuuta 201927 helmikuuta 2019
Konferenssinumero: 3

Julkaisusarja

NimiACL Anthology

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet
  • 6121 Kielitieteet

Siteeraa tätä