Learning Morphology of Natural Language as a Finite-state Grammar

Javad Nouri, Roman Yangarber

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

We present algorithms that learn to segment words in morphologically
rich languages, in an unsupervised fashion. Morphology of many languages can
be modeled by finite state machines (FSMs). We start with a baseline MDL-
based learning algorithm. We then formulate well-motivated and general linguistic
principles about morphology, and incorporate them into the algorithm as heuristics,
to constrain the search space. We evaluate the algorithm on three highly-inflecting
languages. Evaluation of segmentation shows gains in performance compared to
the state of the art. We conclude with a discussion about how the learned model
relates to a morphological FSM, which is the ultimate goal.
Alkuperäiskielienglanti
OtsikkoStatistical Language and Speech Processing : 5th International Conference, SLSP 2017, Le Mans, France, October 23-25, 2017, Proceedings
ToimittajatNathalie Camelin, Yannick Estève, Carlos Martín-Vide
JulkaisupaikkaCham
KustantajaSpringer International Publishing AG
Julkaisupäivä27 syysk. 2017
Sivut44-57
ISBN (painettu)978-3-319-68455-0
ISBN (elektroninen)978-3-319-68456-7
DOI - pysyväislinkit
TilaJulkaistu - 27 syysk. 2017
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaInternational Conference on Statistical Language and Speech Processing - Le Mans, Ranska
Kesto: 23 lokak. 201725 lokak. 2017
Konferenssinumero: 5

Julkaisusarja

NimiLecture Notes in Artificial Intelligence
KustantajaSpringer International Publishing AG
Vuosikerta10583
ISSN (painettu)0302-9743
ISSN (elektroninen)1611-3349

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet

Siteeraa tätä