Abstrakti
Kehitän luonnollisessa kielessä ilmenevien sanojen merkitysten eroteluun
sopivaa automaatista koneoppivaa työkalua. Laskennallinen malli perustuu itseoppivaan kartaan (SOM, Self-Organizing Map) ja annetuun suomenkieliseen
semantisen webin ontologiaan. Malli oppii tunnistamaan käsiteiden ilmenemistä mallitekstistä, johon on annotoitu (tagatu) malliksi aiemmin laaditun ongologian käsiteitä. Koe liityy aiemmin englanninkielisten käsiteiden taggaamiseen liityvään OntoR-koejärjestelyyn joka tutki tekstisyöteessä ilmenevien termien liitämistä SOM-kartan soluihin malliksi annetun annotoidun tekstiesimerkin avulla. Tällainen malli oppii annetun käsitemallin huomatavan niukalla esimerkkiaineistolla ja sopii käytökohteisiin joissa ei ole tarjolla riitävän suurta
datamäärää syvän oppimisen neuroverkkomallin opetamiseksi. Suomenkielisen
kokeen morfologisen analyysin pohjalla on OMORFI- ja HFST-työkalut. Koneoppimisen toteutava SOM-karta lasketaan SOM-PAK-ohjelmistopaketin avulla. Kehitetyä laskennallista mallia käytetään käsiteiden tunnistamisen lisäksi myös
uusien ontologiakäsiteiden ehdokkaiden löytämiseksi.
sopivaa automaatista koneoppivaa työkalua. Laskennallinen malli perustuu itseoppivaan kartaan (SOM, Self-Organizing Map) ja annetuun suomenkieliseen
semantisen webin ontologiaan. Malli oppii tunnistamaan käsiteiden ilmenemistä mallitekstistä, johon on annotoitu (tagatu) malliksi aiemmin laaditun ongologian käsiteitä. Koe liityy aiemmin englanninkielisten käsiteiden taggaamiseen liityvään OntoR-koejärjestelyyn joka tutki tekstisyöteessä ilmenevien termien liitämistä SOM-kartan soluihin malliksi annetun annotoidun tekstiesimerkin avulla. Tällainen malli oppii annetun käsitemallin huomatavan niukalla esimerkkiaineistolla ja sopii käytökohteisiin joissa ei ole tarjolla riitävän suurta
datamäärää syvän oppimisen neuroverkkomallin opetamiseksi. Suomenkielisen
kokeen morfologisen analyysin pohjalla on OMORFI- ja HFST-työkalut. Koneoppimisen toteutava SOM-karta lasketaan SOM-PAK-ohjelmistopaketin avulla. Kehitetyä laskennallista mallia käytetään käsiteiden tunnistamisen lisäksi myös
uusien ontologiakäsiteiden ehdokkaiden löytämiseksi.
Alkuperäiskieli | englanti |
---|---|
Otsikko | The 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages : Proceedings of the Workshop |
Toimittajat | Tommi Pirinen |
Sivumäärä | 8 |
Julkaisupaikka | Stroudsburg |
Kustantaja | The Association for Computational Linguistics |
Julkaisupäivä | tammik. 2018 |
Sivut | 18-25 |
Tila | Julkaistu - tammik. 2018 |
OKM-julkaisutyyppi | D3 Artikkeli ammatillisessa konferenssijulkaisussa |
Tapahtuma | International Workshop on Computational Linguistics for Uralic Languages - Helsinki, Suomi Kesto: 8 tammik. 2018 → 9 tammik. 2018 Konferenssinumero: 4 |
Tieteenalat
- 6121 Kielitieteet
- 113 Tietojenkäsittely- ja informaatiotieteet