Building a Finnish SOM-based ontology concept tagger and harvester

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliAmmatillinen

Abstrakti

Kehitän luonnollisessa kielessä ilmenevien sanojen merkitysten eroteluun
sopivaa automaatista koneoppivaa työkalua. Laskennallinen malli perustuu itseoppivaan kartaan (SOM, Self-Organizing Map) ja annetuun suomenkieliseen
semantisen webin ontologiaan. Malli oppii tunnistamaan käsiteiden ilmenemistä mallitekstistä, johon on annotoitu (tagatu) malliksi aiemmin laaditun ongologian käsiteitä. Koe liityy aiemmin englanninkielisten käsiteiden taggaamiseen liityvään OntoR-koejärjestelyyn joka tutki tekstisyöteessä ilmenevien termien liitämistä SOM-kartan soluihin malliksi annetun annotoidun tekstiesimerkin avulla. Tällainen malli oppii annetun käsitemallin huomatavan niukalla esimerkkiaineistolla ja sopii käytökohteisiin joissa ei ole tarjolla riitävän suurta
datamäärää syvän oppimisen neuroverkkomallin opetamiseksi. Suomenkielisen
kokeen morfologisen analyysin pohjalla on OMORFI- ja HFST-työkalut. Koneoppimisen toteutava SOM-karta lasketaan SOM-PAK-ohjelmistopaketin avulla. Kehitetyä laskennallista mallia käytetään käsiteiden tunnistamisen lisäksi myös
uusien ontologiakäsiteiden ehdokkaiden löytämiseksi.
Alkuperäiskielienglanti
OtsikkoThe 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages : Proceedings of the Workshop
ToimittajatTommi Pirinen
Sivumäärä8
JulkaisupaikkaStroudsburg
KustantajaThe Association for Computational Linguistics
Julkaisupäivätammik. 2018
Sivut18-25
TilaJulkaistu - tammik. 2018
OKM-julkaisutyyppiD3 Artikkeli ammatillisessa konferenssijulkaisussa
TapahtumaInternational Workshop on Computational Linguistics for Uralic Languages - Helsinki, Suomi
Kesto: 8 tammik. 20189 tammik. 2018
Konferenssinumero: 4

Tieteenalat

  • 6121 Kielitieteet
  • 113 Tietojenkäsittely- ja informaatiotieteet

Siteeraa tätä