Finite-State Spell-Checking with Weighted Language and Error Models: Building and Evaluating Spell-Checkers with Wikipedia as Corpus

Tommi Pirinen, Krister Linden

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

In this paper we present simple methods for construction and evaluation of finite-state spell-checking tools using an existing finite-state lexical automaton, freely available finite-state tools and Internet corpora acquired from projects such as Wikipedia. As an example, we use a freely available open-source implementation of Finnish morphology, made with traditional finite-state morphology tools, and demonstrate rapid building of Northern Sámi and English spell checkers from tools and resources available from the Internet.
Alkuperäiskielienglanti
OtsikkoProceedings of LREC 2010 : Workshop on Creation and use of basic lexical resources for less-resourced languages
Julkaisupäivätoukokuuta 2010
ISBN (painettu)2-9517408-6-7
TilaJulkaistu - toukokuuta 2010
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaLREC 2010 - Malta, Malta
Kesto: 17 toukokuuta 201023 toukokuuta 2010

Tieteenalat

  • 612 Kielitieteet, kirjallisuus

Projektit

Siteeraa tätä

Pirinen, T., & Linden, K. (2010). Finite-State Spell-Checking with Weighted Language and Error Models: Building and Evaluating Spell-Checkers with Wikipedia as Corpus. teoksessa Proceedings of LREC 2010: Workshop on Creation and use of basic lexical resources for less-resourced languages