Optimizing singular value based similarity measures for document similarity comparisons

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

The similarity of documents is typically computed using fairly simple similarity measures, such as mean or maximum pooling of word representations followed by vector cosine similarity. This results in fast computation but compared to second-order or matrix-based similarity measures loses information. In this work, we investigate the value of matrix similarity measures for document similarity comparison in full-length patent retrieval tasks and introduce two new metrics motivated by the Schatten $p$-norm. The new similarity measures are based on singular values and involve learnable parameters to be optimized for a given evaluation task. We show that tuning the similarity measures for a specific task improves the similarity comparison accuracy.
Alkuperäiskielienglanti
OtsikkoProceedings of the 5th International Conference on Natural Language and Speech Processing
ToimittajatMourad Abbas, Abed Alhakim Freihat
Sivumäärä6
JulkaisupaikkaStroudsburg
KustantajaAssociation for Computational Linguistics (ACL)
Julkaisupäiväjouluk. 2022
Sivut113-118
ISBN (elektroninen)9781959429364
TilaJulkaistu - jouluk. 2022
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaInternational Conference on Natural Language and Speech Processing - [Virtual event]
Kesto: 16 jouluk. 202217 jouluk. 2022
Konferenssinumero: 5

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet

Siteeraa tätä