Testing and enhancement of language models (transducers) from GiellaLT (Scientific blog)

Forskningsoutput: TidskriftsbidragAndra artiklarAllmänheten

Sammanfattning


GiellaLT 1 provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. The web site of GiellaLT offers language models (transducers) 2 for a wide range of languages. Writing documentation for each language repository is an ongoing effort, and part of the development process. The author has actively participated in the development of open-source, rule-based for a majority of these Uralic target languages.
Analyzer enhancement

The GiellaLT infrastructure, with its implementation of finite-state tools, allows people working with different languages to make use of technological solutions that, otherwise, might require several years of individual development. It is here that descriptions for many of the Uralic languages have been initialized and developed as both financed projects and the work of language technology enthusiasts. The GiellaLT infrastructure makes it possible to reuse finite-state descriptions and even encourages it. Thus, contributing to the enhancement of the finite-state tools at GiellaLT, when extending the annotation of corpora on the Language Bank of Finland's Korp server, is beneficial to the search engine users as well.

On this page, we will evaluate the state of development of analyzers for individual languages in relation to text data being annotated for the Korp search engine. This evaluation will therefore be aligned with the annotation of upcoming corpora, such as a new extended version of Parallel Bible Verses for Uralic Studies (PaBiVUS) version 2 3 . The objective is to increase the lemmatization, morphological and syntactic annotation coverage not previously offered for non-majority languages in the parallel corpus. So, here we will provide an illustrative depiction of each, individual finitestate description. In the more developed descriptions, we will also show steps have been made for improvement. This might be seen as enhanced but not complete coverage of various genre as we go.

The evaluations will tend to illustrate the capacities of the analyzers, which do have equivalent generators, but the possible over-productivity of these generators is presently not the focus of these evaluations. In time, attention will be also drawn towards the description of the disambiguation of morphological analyses, which is made possible in the open-source GiellaLT infrastructure. The enhanced descriptions, housed in GiellaLT, will serve as a contribution by the Language Bank of Finland in the shared responsibilities towards improved coverage of lesser described languages and NLP addressing them. Thus, the resulting analysers will be available for building within the GiellaLT infrastructure or the UralicNLP python 4 , java 5 and .net libraries available through Github or the Language Bank of Finland.
Originalspråkengelska
Artikelnummerhal-04828974
TidskriftHAL open science
DOI
StatusPublicerad - 10 dec. 2024
MoE-publikationstypEj behörig

Vetenskapsgrenar

  • 6121 Språkvetenskaper
  • Facilitating Multilingually

    Rueter, J. (!!Keynote speaker)

    29 nov. 2024

    Aktivitet: Typer för tal eller presentation!!Invited talk

    Fil
  • ERME-PSLA 1950s, New corpora

    Rueter, J. (!!Speaker), Erina, O. (!!Speaker) & Kabaeva, N. (!!Speaker)

    29 nov. 2024

    Aktivitet: Typer för tal eller presentation!!Oral presentation

    Fil
  • International Conference on Natural Language Processing for Digital Humanities

    Hämäläinen, M. (Medlem av vetenskaplig kommitté), Öhman, E. (Medlem av vetenskaplig kommitté), Miyagawa, S. (Närvarande), Alnajjar, K. (Närvarande), Bizzoni, Y. (Medlem av vetenskaplig kommitté), Wilbur, J. (Medlem av vetenskaplig kommitté), Degaetano-Ortlieb, S. (Närvarande), Gessler, L. (Medlem av vetenskaplig kommitté), Leppänen, L. (Närvarande), Duong, Q. Q. (Närvarande), Atanassova, I. (Medlem av vetenskaplig kommitté), Tuominen, J. (Närvarande), Martinc, M. (Närvarande), Janicki, M. M. (Närvarande), Zhang, S. (Närvarande), Pivovarova, L. (Närvarande), Dmitrieva, A. (Närvarande), Kanner, A. (Närvarande), Hjortnæs , N. (Närvarande), Cho, W. I. (Medlem av vetenskaplig kommitté), Shoemaker, T. (Medlem av vetenskaplig kommitté), Manjavacas, E. (Medlem av vetenskaplig kommitté), Iwatsuki, K. (Medlem av vetenskaplig kommitté), Rubinstein, A. (Medlem av vetenskaplig kommitté), Arnold, F. (Medlem av vetenskaplig kommitté), Clerice, T. (Medlem av vetenskaplig kommitté), Gutehrlé, N. (Närvarande), Alqazlan, L. (Medlem av vetenskaplig kommitté), Balázs, I. (Medlem av vetenskaplig kommitté), Magistry, P. (Medlem av vetenskaplig kommitté), Kawasaki, Y. (Medlem av vetenskaplig kommitté), Antoniak, M. (Medlem av vetenskaplig kommitté), Korre, K. (Medlem av vetenskaplig kommitté), Teodorescu, D. (Medlem av vetenskaplig kommitté), Dongqi, P. (Medlem av vetenskaplig kommitté), Ligeti-Nagy, N. (Medlem av vetenskaplig kommitté), Lahnala, A. (Medlem av vetenskaplig kommitté), Simmons, G. (Medlem av vetenskaplig kommitté), Hulden, V. (Medlem av vetenskaplig kommitté), Park, J. (Medlem av vetenskaplig kommitté), Sälevä, J. (Medlem av vetenskaplig kommitté), Ruskov, M. (Medlem av vetenskaplig kommitté), Song, Y. (Medlem av vetenskaplig kommitté), Moreira, P. (Medlem av vetenskaplig kommitté), Kurzynski, M. (Medlem av vetenskaplig kommitté), Liimatta, A. (Närvarande), Das, S. (Medlem av vetenskaplig kommitté), Eck, S. O. (Medlem av vetenskaplig kommitté), Nakajima, E. (Medlem av vetenskaplig kommitté), Takagi, N. M. (Medlem av vetenskaplig kommitté), Kawamura, K. (Medlem av vetenskaplig kommitté), Dang, B. (Medlem av vetenskaplig kommitté) & Rueter, J. (Medlem av vetenskaplig kommitté)

    16 nov. 2024

    Aktivitet: Typer för deltagande i eller organisering av evenemangArrangemang av och deltagande i konferens/workshop/kurs/seminarium

Citera det här