Tekstin kielen automaattinen tunnistaminen

Tutkimustuotos: OpinnäytePro graduOpinnäytteet

Kuvaus

Tutkielman aiheena on kirjoitetun digitaalisessa muodossa olevan tekstin kielen automaattinen tunnistaminen. Tekstin kieli on usein tarpeellista identifioida, jotta tekstin jatkokäsittelyssä osataan toimia käyttäen oikeita menetelmiä. Tekstin kielen automaattinen tunnistaminen on internetissä olevan tekstimäärän
ja kielivalikoiman kasvaessa tullut tärkeäksi näiden dokumenttien automaattisen käsittelyn esivaiheeksi. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai hyvin läheisiä menetelmiä voidaan käyttää myös tekstin lajitteluun esimerkiksi aihealueiden suhteen.

Tässä tutkielmassa esitellään tutkielmaa varten rakennetun kielentunnistimen kehitysvaiheet sekä sen suorituskyvyn evaluointia.

Aluksi tutkielmassa paneudutaan muutamaan eri kielentunnistamisen menetelmään, sekä esitellään myös eräiden toteutettujen kielentunnistinten rakennetta niistä kirjoitettujen artikkelien perusteella.

Tämän jälkeen tutkielmassa kerrotaan kuinka kielentunnistimen rakentamiseen luotiin harjoituskorpuksia. Harjoituskorpukset luotiin Wikipedian artikkeleista yhteensä 103 kielelle. Eri kielten harjoituskorpusten yhteenlasketuksi kooksi tuli yli miljardi sanetta. Jokaisesta harjoituskorpuksesta luotiin 7 kielimallia kullekin
kielelle. Kielimallit ovat kielten sanojen n‐grammien (yhdestä kuuteen) listoja sekä listoja kielten kokonaisista sananmuodoista.

Harjoituskorpuksista luotuja kielimalleja ja muutamia eri menetelmiä yhdistelemällä rakennettiin useita erilaisia kielentunnistimia, joiden suoriutumista vertailtiin keskenään laajojen testitunnistusten avulla.
Testien suorittamista varten muodostettiin Europarl‐korpuksesta noin 200 miljoonan sanan testikorpuksia kymmenelle eurooppalaiselle kielelle. Testitunnistuksia tehtiin automatisoidusti useita miljoonia. Näiden
testien tulosten perusteella päädyttiin kielentunnistimeen, joka käyttää hyväkseen kaikkia kielimalleja sekä kahta eri menetelmää.

Tutkielmassa kehitetyn kielentunnistimen suoriutumista vertailtiin vielä joidenkin artikkeleissa esiteltyjen kielentunnistimien suoriutumiseen ja lopuksi tutkielmassa esitellään mahdollisuuksia tunnistimen jatkokehittämiseen.
Alkuperäiskielisuomi
TilaJulkaistu - 2 marraskuuta 2010
OKM-julkaisutyyppiG2 Pro gradu, diplomityö, ylempi amk-opinnäytetyö

Tieteenalat

  • 612 Kielitieteet, kirjallisuus
  • kieliteknologia
  • kielimalli
  • korpus
  • kielentunnistus
  • n-grammi

Lainaa tätä

@phdthesis{9ae63f32789045ccb2c905686c391b35,
title = "Tekstin kielen automaattinen tunnistaminen",
abstract = "Tutkielman aiheena on kirjoitetun digitaalisessa muodossa olevan tekstin kielen automaattinen tunnistaminen. Tekstin kieli on usein tarpeellista identifioida, jotta tekstin jatkok{\"a}sittelyss{\"a} osataan toimia k{\"a}ytt{\"a}en oikeita menetelmi{\"a}. Tekstin kielen automaattinen tunnistaminen on internetiss{\"a} olevan tekstim{\"a}{\"a}r{\"a}nja kielivalikoiman kasvaessa tullut t{\"a}rke{\"a}ksi n{\"a}iden dokumenttien automaattisen k{\"a}sittelyn esivaiheeksi. Kielen tunnistaminen on kielelt{\"a}{\"a}n tuntemattoman tekstin vertaamista joukkoon annettuja kieli{\"a}. Samoja tai hyvin l{\"a}heisi{\"a} menetelmi{\"a} voidaan k{\"a}ytt{\"a}{\"a} my{\"o}s tekstin lajitteluun esimerkiksi aihealueiden suhteen.T{\"a}ss{\"a} tutkielmassa esitell{\"a}{\"a}n tutkielmaa varten rakennetun kielentunnistimen kehitysvaiheet sek{\"a} sen suorituskyvyn evaluointia.Aluksi tutkielmassa paneudutaan muutamaan eri kielentunnistamisen menetelm{\"a}{\"a}n, sek{\"a} esitell{\"a}{\"a}n my{\"o}s er{\"a}iden toteutettujen kielentunnistinten rakennetta niist{\"a} kirjoitettujen artikkelien perusteella.T{\"a}m{\"a}n j{\"a}lkeen tutkielmassa kerrotaan kuinka kielentunnistimen rakentamiseen luotiin harjoituskorpuksia. Harjoituskorpukset luotiin Wikipedian artikkeleista yhteens{\"a} 103 kielelle. Eri kielten harjoituskorpusten yhteenlasketuksi kooksi tuli yli miljardi sanetta. Jokaisesta harjoituskorpuksesta luotiin 7 kielimallia kullekinkielelle. Kielimallit ovat kielten sanojen n‐grammien (yhdest{\"a} kuuteen) listoja sek{\"a} listoja kielten kokonaisista sananmuodoista.Harjoituskorpuksista luotuja kielimalleja ja muutamia eri menetelmi{\"a} yhdistelem{\"a}ll{\"a} rakennettiin useita erilaisia kielentunnistimia, joiden suoriutumista vertailtiin kesken{\"a}{\"a}n laajojen testitunnistusten avulla.Testien suorittamista varten muodostettiin Europarl‐korpuksesta noin 200 miljoonan sanan testikorpuksia kymmenelle eurooppalaiselle kielelle. Testitunnistuksia tehtiin automatisoidusti useita miljoonia. N{\"a}identestien tulosten perusteella p{\"a}{\"a}dyttiin kielentunnistimeen, joka k{\"a}ytt{\"a}{\"a} hyv{\"a}kseen kaikkia kielimalleja sek{\"a} kahta eri menetelm{\"a}{\"a}.Tutkielmassa kehitetyn kielentunnistimen suoriutumista vertailtiin viel{\"a} joidenkin artikkeleissa esiteltyjen kielentunnistimien suoriutumiseen ja lopuksi tutkielmassa esitell{\"a}{\"a}n mahdollisuuksia tunnistimen jatkokehitt{\"a}miseen.",
keywords = "612 Kielitieteet, kirjallisuus, kieliteknologia, kielimalli, korpus, kielentunnistus, n-grammi",
author = "Tommi Jauhiainen",
year = "2010",
month = "11",
day = "2",
language = "suomi",

}

Tekstin kielen automaattinen tunnistaminen. / Jauhiainen, Tommi.

2010. 118 s.

Tutkimustuotos: OpinnäytePro graduOpinnäytteet

TY - THES

T1 - Tekstin kielen automaattinen tunnistaminen

AU - Jauhiainen, Tommi

PY - 2010/11/2

Y1 - 2010/11/2

N2 - Tutkielman aiheena on kirjoitetun digitaalisessa muodossa olevan tekstin kielen automaattinen tunnistaminen. Tekstin kieli on usein tarpeellista identifioida, jotta tekstin jatkokäsittelyssä osataan toimia käyttäen oikeita menetelmiä. Tekstin kielen automaattinen tunnistaminen on internetissä olevan tekstimääränja kielivalikoiman kasvaessa tullut tärkeäksi näiden dokumenttien automaattisen käsittelyn esivaiheeksi. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai hyvin läheisiä menetelmiä voidaan käyttää myös tekstin lajitteluun esimerkiksi aihealueiden suhteen.Tässä tutkielmassa esitellään tutkielmaa varten rakennetun kielentunnistimen kehitysvaiheet sekä sen suorituskyvyn evaluointia.Aluksi tutkielmassa paneudutaan muutamaan eri kielentunnistamisen menetelmään, sekä esitellään myös eräiden toteutettujen kielentunnistinten rakennetta niistä kirjoitettujen artikkelien perusteella.Tämän jälkeen tutkielmassa kerrotaan kuinka kielentunnistimen rakentamiseen luotiin harjoituskorpuksia. Harjoituskorpukset luotiin Wikipedian artikkeleista yhteensä 103 kielelle. Eri kielten harjoituskorpusten yhteenlasketuksi kooksi tuli yli miljardi sanetta. Jokaisesta harjoituskorpuksesta luotiin 7 kielimallia kullekinkielelle. Kielimallit ovat kielten sanojen n‐grammien (yhdestä kuuteen) listoja sekä listoja kielten kokonaisista sananmuodoista.Harjoituskorpuksista luotuja kielimalleja ja muutamia eri menetelmiä yhdistelemällä rakennettiin useita erilaisia kielentunnistimia, joiden suoriutumista vertailtiin keskenään laajojen testitunnistusten avulla.Testien suorittamista varten muodostettiin Europarl‐korpuksesta noin 200 miljoonan sanan testikorpuksia kymmenelle eurooppalaiselle kielelle. Testitunnistuksia tehtiin automatisoidusti useita miljoonia. Näidentestien tulosten perusteella päädyttiin kielentunnistimeen, joka käyttää hyväkseen kaikkia kielimalleja sekä kahta eri menetelmää.Tutkielmassa kehitetyn kielentunnistimen suoriutumista vertailtiin vielä joidenkin artikkeleissa esiteltyjen kielentunnistimien suoriutumiseen ja lopuksi tutkielmassa esitellään mahdollisuuksia tunnistimen jatkokehittämiseen.

AB - Tutkielman aiheena on kirjoitetun digitaalisessa muodossa olevan tekstin kielen automaattinen tunnistaminen. Tekstin kieli on usein tarpeellista identifioida, jotta tekstin jatkokäsittelyssä osataan toimia käyttäen oikeita menetelmiä. Tekstin kielen automaattinen tunnistaminen on internetissä olevan tekstimääränja kielivalikoiman kasvaessa tullut tärkeäksi näiden dokumenttien automaattisen käsittelyn esivaiheeksi. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai hyvin läheisiä menetelmiä voidaan käyttää myös tekstin lajitteluun esimerkiksi aihealueiden suhteen.Tässä tutkielmassa esitellään tutkielmaa varten rakennetun kielentunnistimen kehitysvaiheet sekä sen suorituskyvyn evaluointia.Aluksi tutkielmassa paneudutaan muutamaan eri kielentunnistamisen menetelmään, sekä esitellään myös eräiden toteutettujen kielentunnistinten rakennetta niistä kirjoitettujen artikkelien perusteella.Tämän jälkeen tutkielmassa kerrotaan kuinka kielentunnistimen rakentamiseen luotiin harjoituskorpuksia. Harjoituskorpukset luotiin Wikipedian artikkeleista yhteensä 103 kielelle. Eri kielten harjoituskorpusten yhteenlasketuksi kooksi tuli yli miljardi sanetta. Jokaisesta harjoituskorpuksesta luotiin 7 kielimallia kullekinkielelle. Kielimallit ovat kielten sanojen n‐grammien (yhdestä kuuteen) listoja sekä listoja kielten kokonaisista sananmuodoista.Harjoituskorpuksista luotuja kielimalleja ja muutamia eri menetelmiä yhdistelemällä rakennettiin useita erilaisia kielentunnistimia, joiden suoriutumista vertailtiin keskenään laajojen testitunnistusten avulla.Testien suorittamista varten muodostettiin Europarl‐korpuksesta noin 200 miljoonan sanan testikorpuksia kymmenelle eurooppalaiselle kielelle. Testitunnistuksia tehtiin automatisoidusti useita miljoonia. Näidentestien tulosten perusteella päädyttiin kielentunnistimeen, joka käyttää hyväkseen kaikkia kielimalleja sekä kahta eri menetelmää.Tutkielmassa kehitetyn kielentunnistimen suoriutumista vertailtiin vielä joidenkin artikkeleissa esiteltyjen kielentunnistimien suoriutumiseen ja lopuksi tutkielmassa esitellään mahdollisuuksia tunnistimen jatkokehittämiseen.

KW - 612 Kielitieteet, kirjallisuus

KW - kieliteknologia

KW - kielimalli

KW - korpus

KW - kielentunnistus

KW - n-grammi

M3 - Pro gradu

ER -