Analysis of Textual Variation by Latent Tree Structures

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

We introduce Semstem, a new method for the
reconstruction of so called stemmatic trees, i.e., trees encoding
the copying relationships among a set of textual variants.
Our method is based on a structural expectation-maximization
(structural EM) algorithm. It is the first computer-based
method able to estimate general latent tree structures, unlike
earlier methods that are usually restricted to bifurcating trees
where all the extant texts are placed in the leaf nodes. We
present experiments on two well known benchmark data
sets, showing that the new method outperforms current stateof-
the-art both in terms of a numerical score as well as
interpretability.
Alkuperäiskielienglanti
Otsikko2011 IEEE 11th International Conference on Data Mining (ICDM 2011)
ToimittajatDiane Cook, Jian Pei, Wei Wang, Osmar Zaïane, Xindong Wu
Sivumäärä10
KustantajaIEEE Computer Society
Julkaisupäivä11 joulukuuta 2011
Sivut567-576
ISBN (painettu)9781457720758
DOI - pysyväislinkit
TilaJulkaistu - 11 joulukuuta 2011
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaUnknown host publication - , Kanada
Kesto: 1 tammikuuta 1800 → …

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet

Siteeraa tätä