ELOQUENT 2024 - Topical Quiz Task

Jussi Karlgren, Aarne Talman

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

ELOQUENT is a set of shared tasks for evaluating the quality and usefulness of generative language models. ELOQUENT aims to apply high-level quality criteria, grounded in experiences from deploying models in real-life tasks, and to formulate tests for those criteria, preferably implemented to require minimal human assessment effort and in a multilingual setting. One of the tasks for the first year of ELOQUENT was the Topical quiz, in which language models are probed for topical competence. This first year of experimentation has shown - as expected - that using self-assessment with models judging models is feasible, but not entirely straight-forward, and that a judicious comparison with human assessment and application context is necessary to be able to trust self-assessed quality judgments.

Alkuperäiskielienglanti
OtsikkoWorking Notes of the Conference and Labs of the Evaluation Forum (CLEF 2024)
ToimittajatGuglielmo Faggioli, Nicola Ferro, Petra Galuščáková, Alba García Seco de Herrera
Sivumäärä4
JulkaisupaikkaAachen
KustantajaCEUR-WS.org
Julkaisupäivä2024
Sivut687-690
TilaJulkaistu - 2024
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaConference and Labs of the Evaluation Forum - Grenoble, Ranska
Kesto: 9 syysk. 202412 syysk. 2024
Konferenssinumero: 15

Julkaisusarja

NimiCEUR Workshop Proceedings
Kustantaja CEUR-WS.org
Vuosikerta3740
ISSN (painettu)1613-0073

Lisätietoja

Publisher Copyright:
© 2024 Copyright for this paper by its authors.

Tieteenalat

  • 6121 Kielitieteet
  • 113 Tietojenkäsittely- ja informaatiotieteet

Siteeraa tätä