Abstrakti
Tässä artikkelissa esittelemme vuonna 2013 aloittaneen ja 2019 päättyneen Koneen säätiön rahoittaman Suomalais-ugrilaiset kielet ja internet projektin suunnittelua sekä toteutusta ja kokoamme yhteen saavutettuja tuloksia. Aikaisemmin julkaistujen valmiiden tulosten lisäksi esittelemme myös joitakin keskeneräisiksi jääneitä tuotoksia. Projektissa kerättiin verkkoharavoinnin ja automaattisen kielentunnistuksen avulla harvinaisilla uralilaisilla kielillä kirjoitettujen sivujen tekstiä avoimilta verkkosivuilta. Projektissa kehitetty Wanca-portaalisivusto toimii kokoelmana linkkejä haravoinnin yhteydessä löydetyille näitä kieliä käyttäen kirjoitetuille sivuille. Projektissa kehitettiin prosessi, jota käyttäen verkkoharavan avulla löydetyistä teksteistä muodostetaan virkekorpuksia halutuille kielille. Muodostetut virkekorpukset ovat avoimesti saatavilla FIN-CLARIN konsortion ylläpitämän Kielipankin Korp-palvelussa. Verkkoharavoinnin ja korpusten kokoamisen ohella projekti keskittyi erityisesti kielentunnistuksen menetelmien kehittämiseen, jossa saavutettiin kansainvälisesti erittäin merkittäviä tuloksia. Projektin tutkijat ovat osallistuneet kansainvälisiin tekstin kielentunnistukseen keskittyneisiin kilpailuihin ja voittaneet niistä useita.
Alkuperäiskieli | suomi |
---|---|
Otsikko | Multilingual Facilitation |
Toimittajat | Mika Hämäläinen, Niko Partanen, Khalid Alnajjar |
Julkaisupaikka | Helsinki |
Kustantaja | University of Helsinki |
Julkaisupäivä | 2021 |
ISBN (elektroninen) | 978-951-51-5025-7 |
DOI - pysyväislinkit | |
Tila | Julkaistu - 2021 |
OKM-julkaisutyyppi | A3 Kirjan tai muun kokoomateoksen osa |
Tieteenalat
- 6121 Kielitieteet
- 113 Tietojenkäsittely- ja informaatiotieteet