NorQuAD: Norwegian Question Answering Dataset

Sardana Ivanova, Fredrik Andreassen, Matias Jentoft, Sondre Wold, Lilja Øvrelid

Forskningsoutput: Kapitel i bok/rapport/konferenshandlingKonferensbidragVetenskapligPeer review

Sammanfattning

In this paper we present NorQuAD: the first Norwegian question answering dataset for machine reading comprehension. The dataset consists of 4,752 manually created question-answer pairs. We here detail the data collection procedure and present statistics of the dataset. We also benchmark several multilingual and Norwegian monolingual language models on the dataset and compare them against human performance. The dataset will be made freely available.
Originalspråkengelska
Titel på värdpublikationProceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa)
Antal sidor10
FörlagUniversity of Tartu Library
Utgivningsdatummaj 2023
Sidor159-168
ISBN (elektroniskt)978-99-1621-999-7
StatusPublicerad - maj 2023
MoE-publikationstypA4 Artikel i en konferenspublikation
EvenemangNordic Conference on Computational Linguistics - Tórshavn, Färöarna
Varaktighet: 22 maj 202324 maj 2023
Konferensnummer: 24

Publikationsserier

NamnNEALT Proceedings Series
FörlagUniversity of Tartu Library
Nummer52
ISSN (elektroniskt)1736-6305

Vetenskapsgrenar

  • 113 Data- och informationsvetenskap
  • 6121 Språkvetenskaper

Citera det här