Second-order Document Similarity Metrics for Transformers

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

The similarity of documents represented using static word embeddings is best measured using second-order metrics accounting for the covariance of the embeddings. Transformers provide superior representations for words compared to static embeddings, but document representation and similarity evaluation are currently often done using simple mean pooling. We explain how the second-order metrics can be used also with transformers, and evaluate the value of improved metrics in this context.
Alkuperäiskielienglanti
OtsikkoProceedings of the 5th International Conference on Natural Language and Speech Processing
ToimittajatMourad Abbas, Abed Alhakim Freihat
Sivumäärä6
JulkaisupaikkaStroudsburg
KustantajaAssociation for Computational Linguistics (ACL)
Julkaisupäiväjouluk. 2022
Sivut128-133
ISBN (elektroninen)9781959429364
TilaJulkaistu - jouluk. 2022
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaInternational Conference on Natural Language and Speech Processing - [Virtual event]
Kesto: 16 jouluk. 202217 jouluk. 2022
Konferenssinumero: 5

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet

Siteeraa tätä