Suomalais-ugrilaiset kielet ja internet -projekti 2013-2019

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKirjan luku tai artikkeliTieteellinenvertaisarvioitu

Abstrakti

Tässä artikkelissa esittelemme vuonna 2013 aloittaneen ja 2019 päättyneen Koneen säätiön rahoittaman Suomalais-ugrilaiset kielet ja internet projektin suunnittelua sekä toteutusta ja kokoamme yhteen saavutettuja tuloksia. Aikaisemmin julkaistujen valmiiden tulosten lisäksi esittelemme myös joitakin keskeneräisiksi jääneitä tuotoksia. Projektissa kerättiin verkkoharavoinnin ja automaattisen kielentunnistuksen avulla harvinaisilla uralilaisilla kielillä kirjoitettujen sivujen tekstiä avoimilta verkkosivuilta. Projektissa kehitetty Wanca-portaalisivusto toimii kokoelmana linkkejä haravoinnin yhteydessä löydetyille näitä kieliä käyttäen kirjoitetuille sivuille. Projektissa kehitettiin prosessi, jota käyttäen verkkoharavan avulla löydetyistä teksteistä muodostetaan virkekorpuksia halutuille kielille. Muodostetut virkekorpukset ovat avoimesti saatavilla FIN-CLARIN konsortion ylläpitämän Kielipankin Korp-palvelussa. Verkkoharavoinnin ja korpusten kokoamisen ohella projekti keskittyi erityisesti kielentunnistuksen menetelmien kehittämiseen, jossa saavutettiin kansainvälisesti erittäin merkittäviä tuloksia. Projektin tutkijat ovat osallistuneet kansainvälisiin tekstin kielentunnistukseen keskittyneisiin kilpailuihin ja voittaneet niistä useita.
Alkuperäiskielisuomi
OtsikkoMultilingual Facilitation
ToimittajatMika Hämäläinen, Niko Partanen, Khalid Alnajjar
JulkaisupaikkaHelsinki
KustantajaUniversity of Helsinki
Julkaisupäivä2021
ISBN (elektroninen)978-951-51-5025-7
DOI - pysyväislinkit
TilaJulkaistu - 2021
OKM-julkaisutyyppiA3 Kirjan tai muun kokoomateoksen osa

Tieteenalat

  • 6121 Kielitieteet
  • 113 Tietojenkäsittely- ja informaatiotieteet

Siteeraa tätä