NorQuAD: Norwegian Question Answering Dataset

Sardana Ivanova, Fredrik Andreassen, Matias Jentoft, Sondre Wold, Lilja Øvrelid

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

In this paper we present NorQuAD: the first Norwegian question answering dataset for machine reading comprehension. The dataset consists of 4,752 manually created question-answer pairs. We here detail the data collection procedure and present statistics of the dataset. We also benchmark several multilingual and Norwegian monolingual language models on the dataset and compare them against human performance. The dataset will be made freely available.
Alkuperäiskielienglanti
OtsikkoProceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa)
Sivumäärä10
KustantajaUniversity of Tartu Library
Julkaisupäivätoukok. 2023
Sivut159-168
ISBN (elektroninen)978-99-1621-999-7
TilaJulkaistu - toukok. 2023
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaNordic Conference on Computational Linguistics - Tórshavn, Färsaaret
Kesto: 22 toukok. 202324 toukok. 2023
Konferenssinumero: 24

Julkaisusarja

NimiNEALT Proceedings Series
KustantajaUniversity of Tartu Library
Numero52
ISSN (elektroninen)1736-6305

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet
  • 6121 Kielitieteet

Siteeraa tätä