Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks

Anssi Moisio, Dejan Porjazovski, Aku Rouhe, Yaroslav Getman, Anja Virkkunen, Ragheb AlGhezi, Mietta Lennes, Tamás Grósz, Krister Lindén, Mikko Kurimo

Tutkimustuotos: ArtikkelijulkaisuArtikkeliTieteellinenvertaisarvioitu

Abstrakti

In 2020-2021, the Donate Speech campaign gathered approximately 3600 h of ordinary, colloquial Finnish speech for the Lahjoita puhetta (Donate Speech) corpus, which includes over twenty thousand speakers from all the regions of Finland and from all age brackets. The goals of the collection were to create a representative, large-scale resource of spontaneous spoken Finnish to accelerate the development of language technology and speech-based services.
Alkuperäiskielienglanti
LehtiLanguage Resources and Evaluation
Vuosikerta57
Sivut1295–1327
Sivumäärä33
ISSN1574-020X
DOI - pysyväislinkit
TilaJulkaistu - 9 elok. 2022
OKM-julkaisutyyppiA1 Alkuperäisartikkeli tieteellisessä aikakauslehdessä, vertaisarvioitu

Lisätietoja

Publisher Copyright:
© 2022, The Author(s).

Tieteenalat

  • 6121 Kielitieteet

Siteeraa tätä