Location of Repository

Robust document clustering by exploiting feature diversity in cluster ensembles

By Xavier Sevillano Domínguez, Germán Cobo Rodríguez, Francesc Alías Pujol and Joan Claudi Socoró Carrié

Abstract

Las prestaciones de los sistemas de clasificación no supervisada de documentos están supeditadas al uso de representaciones textuales óptimas, las cuales no son sólo difíciles de determinar de antemano, sino que pueden variar de un problema de clasificación a otro. Este trabajo propone una metodología basada en diversidad de representaciones y conjuntos de clasificadores no supervisados como primer paso hacia la construcción de sistemas robustos de clasificación no supervisada. Los experimentos realizados sobre tres problemas de categorización binaria de dificultad creciente muestran que el método propuesto es i) robusto frente a selecciones no óptimas de la dimensionalidad de las representaciones, y ii) capaz de detectar interacciones constructivas entre distintas representaciones textuales, llegando a obtener índices de categorización por consenso superiores a los conseguidos por los clasificadores individuales disponibles.The performance of document clustering systems is conditioned by the use of optimal text representations, which are not only difficult to determine beforehand, but also may vary from one clustering problem to another. This work presents an approach based on feature diversity and cluster ensembles as a first step towards building document clustering systems that behave robustly across different clustering problems. Experiments conducted on three binary clustering problems of increasing difficulty show that the proposed method is i) robust to near-optimal model order selection, and ii) able to detect constructive interactions between different document representations, thus being capable of yielding consensus clusterings superior to any of the individual clusterings available

Topics: Representación de documentos, Clasificación no supervisada, Conjuntos de clasificadores, Document representation, Clustering, Cluster ensembles
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Year: 2006
OAI identifier: oai:rua.ua.es:10045/3276
Journal:
Download PDF:
Sorry, we are unable to provide the full text but you may find it at the following location(s):
  • http://hdl.handle.net/10045/32... (external link)
  • Suggested articles

    Preview


    To submit an update or takedown request for this paper, please submit an Update/Correction/Removal Request.