An OCR system for the Unified Northern Alphabet

Niko Partanen, Michael Rießler

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKirjan luku tai artikkeliTieteellinenvertaisarvioitu

Abstrakti

This paper presents experiments done in order to build a functional OCR model for the Unified Northern Alphabet. This writing system was used between 1931 and 1937 for 16 (Uralic and non-Uralic) minority languages spoken in the Soviet Union. The character accuracy of the developed model reaches more than 98% and clearly shows cross-linguistic applicability. The tests described here therefore also include general guidelines for the amount of training data needed to boot-strap an OCR system under similar conditions.
Alkuperäiskielienglanti
OtsikkoProceedings of the fifth Workshop on Computational Linguistics for Uralic Languages
Sivumäärä13
KustantajaThe Association for Computational Linguistics
Julkaisupäivä2019
Sivut77-89
ISBN (elektroninen) 978-1-948087-92-6
TilaJulkaistu - 2019
Julkaistu ulkoisestiKyllä
OKM-julkaisutyyppiA3 Kirjan tai muun kokoomateoksen osa
TapahtumaInternational Workshop on Computational Linguistics for Uralic Languages
- Tartu, Viro
Kesto: 7 tammikuuta 20199 tammikuuta 2019
Konferenssinumero: 5

Tieteenalat

  • 6121 Kielitieteet

Siteeraa tätä