Building a Finnish SOM-based ontology concept tagger and harvester

Research output: Chapter in Book/Report/Conference proceedingConference contributionProfessional

Abstract

Kehitän luonnollisessa kielessä ilmenevien sanojen merkitysten eroteluun
sopivaa automaatista koneoppivaa työkalua. Laskennallinen malli perustuu itseoppivaan kartaan (SOM, Self-Organizing Map) ja annetuun suomenkieliseen
semantisen webin ontologiaan. Malli oppii tunnistamaan käsiteiden ilmenemistä mallitekstistä, johon on annotoitu (tagatu) malliksi aiemmin laaditun ongologian käsiteitä. Koe liityy aiemmin englanninkielisten käsiteiden taggaamiseen liityvään OntoR-koejärjestelyyn joka tutki tekstisyöteessä ilmenevien termien liitämistä SOM-kartan soluihin malliksi annetun annotoidun tekstiesimerkin avulla. Tällainen malli oppii annetun käsitemallin huomatavan niukalla esimerkkiaineistolla ja sopii käytökohteisiin joissa ei ole tarjolla riitävän suurta
datamäärää syvän oppimisen neuroverkkomallin opetamiseksi. Suomenkielisen
kokeen morfologisen analyysin pohjalla on OMORFI- ja HFST-työkalut. Koneoppimisen toteutava SOM-karta lasketaan SOM-PAK-ohjelmistopaketin avulla. Kehitetyä laskennallista mallia käytetään käsiteiden tunnistamisen lisäksi myös
uusien ontologiakäsiteiden ehdokkaiden löytämiseksi.
Original languageEnglish
Title of host publicationThe 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages : Proceedings of the Workshop
EditorsTommi Pirinen
Number of pages8
Place of PublicationStroudsburg
PublisherAssociation for Computational Linguistics
Publication dateJan 2018
Pages18-25
Publication statusPublished - Jan 2018
MoE publication typeD3 Professional conference proceedings
EventInternational Workshop on Computational Linguistics for Uralic Languages - Helsinki, Finland
Duration: 8 Jan 20189 Jan 2018
Conference number: 4

Fields of Science

  • 6121 Languages
  • 113 Computer and information sciences

Cite this

Nyrkkö, A. S. A. (2018). Building a Finnish SOM-based ontology concept tagger and harvester. In T. Pirinen (Ed.), The 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages: Proceedings of the Workshop (pp. 18-25). Stroudsburg: Association for Computational Linguistics.
Nyrkkö, Alpo Seppo Antero. / Building a Finnish SOM-based ontology concept tagger and harvester. The 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages: Proceedings of the Workshop . editor / Tommi Pirinen. Stroudsburg : Association for Computational Linguistics, 2018. pp. 18-25
@inproceedings{92fffd4f5fc7416fa4146f79a0ede681,
title = "Building a Finnish SOM-based ontology concept tagger and harvester",
abstract = "Kehit{\"a}n luonnollisessa kieless{\"a} ilmenevien sanojen merkitysten eroteluunsopivaa automaatista koneoppivaa ty{\"o}kalua. Laskennallinen malli perustuu itseoppivaan kartaan (SOM, Self-Organizing Map) ja annetuun suomenkieliseensemantisen webin ontologiaan. Malli oppii tunnistamaan k{\"a}siteiden ilmenemist{\"a} mallitekstist{\"a}, johon on annotoitu (tagatu) malliksi aiemmin laaditun ongologian k{\"a}siteit{\"a}. Koe liityy aiemmin englanninkielisten k{\"a}siteiden taggaamiseen liityv{\"a}{\"a}n OntoR-koej{\"a}rjestelyyn joka tutki tekstisy{\"o}teess{\"a} ilmenevien termien liit{\"a}mist{\"a} SOM-kartan soluihin malliksi annetun annotoidun tekstiesimerkin avulla. T{\"a}llainen malli oppii annetun k{\"a}sitemallin huomatavan niukalla esimerkkiaineistolla ja sopii k{\"a}yt{\"o}kohteisiin joissa ei ole tarjolla riit{\"a}v{\"a}n suurtadatam{\"a}{\"a}r{\"a}{\"a} syv{\"a}n oppimisen neuroverkkomallin opetamiseksi. Suomenkielisenkokeen morfologisen analyysin pohjalla on OMORFI- ja HFST-ty{\"o}kalut. Koneoppimisen toteutava SOM-karta lasketaan SOM-PAK-ohjelmistopaketin avulla. Kehitety{\"a} laskennallista mallia k{\"a}ytet{\"a}{\"a}n k{\"a}siteiden tunnistamisen lis{\"a}ksi my{\"o}suusien ontologiak{\"a}siteiden ehdokkaiden l{\"o}yt{\"a}miseksi.",
keywords = "6121 Languages, 113 Computer and information sciences",
author = "Nyrkk{\"o}, {Alpo Seppo Antero}",
year = "2018",
month = "1",
language = "English",
pages = "18--25",
editor = "Tommi Pirinen",
booktitle = "The 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages",
publisher = "Association for Computational Linguistics",
address = "United States",

}

Nyrkkö, ASA 2018, Building a Finnish SOM-based ontology concept tagger and harvester. in T Pirinen (ed.), The 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages: Proceedings of the Workshop . Association for Computational Linguistics, Stroudsburg, pp. 18-25, International Workshop on Computational Linguistics for Uralic Languages, Helsinki, Finland, 08/01/2018.

Building a Finnish SOM-based ontology concept tagger and harvester. / Nyrkkö, Alpo Seppo Antero.

The 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages: Proceedings of the Workshop . ed. / Tommi Pirinen. Stroudsburg : Association for Computational Linguistics, 2018. p. 18-25.

Research output: Chapter in Book/Report/Conference proceedingConference contributionProfessional

TY - GEN

T1 - Building a Finnish SOM-based ontology concept tagger and harvester

AU - Nyrkkö, Alpo Seppo Antero

PY - 2018/1

Y1 - 2018/1

N2 - Kehitän luonnollisessa kielessä ilmenevien sanojen merkitysten eroteluunsopivaa automaatista koneoppivaa työkalua. Laskennallinen malli perustuu itseoppivaan kartaan (SOM, Self-Organizing Map) ja annetuun suomenkieliseensemantisen webin ontologiaan. Malli oppii tunnistamaan käsiteiden ilmenemistä mallitekstistä, johon on annotoitu (tagatu) malliksi aiemmin laaditun ongologian käsiteitä. Koe liityy aiemmin englanninkielisten käsiteiden taggaamiseen liityvään OntoR-koejärjestelyyn joka tutki tekstisyöteessä ilmenevien termien liitämistä SOM-kartan soluihin malliksi annetun annotoidun tekstiesimerkin avulla. Tällainen malli oppii annetun käsitemallin huomatavan niukalla esimerkkiaineistolla ja sopii käytökohteisiin joissa ei ole tarjolla riitävän suurtadatamäärää syvän oppimisen neuroverkkomallin opetamiseksi. Suomenkielisenkokeen morfologisen analyysin pohjalla on OMORFI- ja HFST-työkalut. Koneoppimisen toteutava SOM-karta lasketaan SOM-PAK-ohjelmistopaketin avulla. Kehitetyä laskennallista mallia käytetään käsiteiden tunnistamisen lisäksi myösuusien ontologiakäsiteiden ehdokkaiden löytämiseksi.

AB - Kehitän luonnollisessa kielessä ilmenevien sanojen merkitysten eroteluunsopivaa automaatista koneoppivaa työkalua. Laskennallinen malli perustuu itseoppivaan kartaan (SOM, Self-Organizing Map) ja annetuun suomenkieliseensemantisen webin ontologiaan. Malli oppii tunnistamaan käsiteiden ilmenemistä mallitekstistä, johon on annotoitu (tagatu) malliksi aiemmin laaditun ongologian käsiteitä. Koe liityy aiemmin englanninkielisten käsiteiden taggaamiseen liityvään OntoR-koejärjestelyyn joka tutki tekstisyöteessä ilmenevien termien liitämistä SOM-kartan soluihin malliksi annetun annotoidun tekstiesimerkin avulla. Tällainen malli oppii annetun käsitemallin huomatavan niukalla esimerkkiaineistolla ja sopii käytökohteisiin joissa ei ole tarjolla riitävän suurtadatamäärää syvän oppimisen neuroverkkomallin opetamiseksi. Suomenkielisenkokeen morfologisen analyysin pohjalla on OMORFI- ja HFST-työkalut. Koneoppimisen toteutava SOM-karta lasketaan SOM-PAK-ohjelmistopaketin avulla. Kehitetyä laskennallista mallia käytetään käsiteiden tunnistamisen lisäksi myösuusien ontologiakäsiteiden ehdokkaiden löytämiseksi.

KW - 6121 Languages

KW - 113 Computer and information sciences

UR - http://aclweb.org/anthology/W18-02

M3 - Conference contribution

SP - 18

EP - 25

BT - The 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages

A2 - Pirinen, Tommi

PB - Association for Computational Linguistics

CY - Stroudsburg

ER -

Nyrkkö ASA. Building a Finnish SOM-based ontology concept tagger and harvester. In Pirinen T, editor, The 4th International Workshop on Computational Linguistics for Uralic Languages by ACL SIG for Uralic Languages: Proceedings of the Workshop . Stroudsburg: Association for Computational Linguistics. 2018. p. 18-25