Gaussian Clusters and Noise: An Approach Based on the Minimum Description Length Principle

Panu Luosto, Jyrki Kivinen, Heikki Mannila

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKonferenssiartikkeliTieteellinenvertaisarvioitu

Abstrakti

We introduce a well-grounded minimum description length (MDL) based quality measure for a clustering consisting of either spherical or axis-aligned normally distributed clusters and a cluster with a uniform distribution in an axis-aligned rectangular box. The uniform component extends the practical usability of the model e.g. in the presence of noise, and using the MDL principle for the model selection makes comparing the quality of clusterings with a different number of clusters possible. We also introduce a novel search heuristic for finding the best clustering with an unknown number of clusters. The heuristic is based on the idea of moving points from the Gaussian clusters to the uniform one and using MDL for determining the optimal amount of noise. Tests with synthetic data having a clear cluster structure imply that the search method is effective in finding the intuitively correct clustering.
Alkuperäiskielienglanti
OtsikkoDiscovery Science : 13th International Conference, DS 2010, Canberra, Australia, October 6-8, 2010. Proceedings
ToimittajatBernhard Pfahringer, Geoff Holmes, Achim Hoffmann
Sivumäärä15
JulkaisupaikkaBerlin Heidelberg
KustantajaSpringer
Julkaisupäivä2010
Sivut251-265
ISBN (painettu)978-3-642-16183-4
ISBN (elektroninen)3-642-16183-9
DOI - pysyväislinkit
TilaJulkaistu - 2010
OKM-julkaisutyyppiA4 Artikkeli konferenssijulkaisuussa
TapahtumaInternational Conference on Discovery Science - Canberra, Australia
Kesto: 6 lokak. 20108 lokak. 2010
Konferenssinumero: 13

Julkaisusarja

NimiLecture Notes in Computer Science
KustantajaSpringer
Vuosikerta6332

Tieteenalat

  • 113 Tietojenkäsittely- ja informaatiotieteet

Siteeraa tätä