4 research outputs found
Non-parametric document clustering by ensemble methods
Los sesgos de los algoritmos individuales para clustering no paramétrico
de documentos pueden conducir a soluciones no óptimas. Los métodos de consenso
podrían compensar esta limitación, pero no han sido probados sobre colecciones de
documentos. Este artículo presenta una comparación de estrategias para clustering
no paramétrico de documentos por consenso. / The biases of individual algorithms for non-parametric document clustering can lead to non-optimal solutions. Ensemble clustering methods may overcome this limitation, but have not been applied to document collections. This paper presents a comparison of strategies for non-parametric document ensemble clustering.Peer ReviewedPostprint (published version
Robust document clustering by exploiting feature diversity in cluster ensembles
Las prestaciones de los sistemas de clasificación no supervisada de documentos
están supeditadas al uso de representaciones textuales óptimas, las cuales
no son sólo difíciles de determinar de antemano, sino que pueden variar de un problema
de clasificación a otro. Este trabajo propone una metodología basada en diversidad
de representaciones y conjuntos de clasificadores no supervisados como primer
paso hacia la construcción de sistemas robustos de clasificación no supervisada. Los
experimentos realizados sobre tres problemas de categorización binaria de dificultad
creciente muestran que el método propuesto es i) robusto frente a selecciones no
óptimas de la dimensionalidad de las representaciones, y ii) capaz de detectar interacciones
constructivas entre distintas representaciones textuales, llegando a obtener
índices de categorización por consenso superiores a los conseguidos por los clasificadores
individuales disponibles.The performance of document clustering systems is conditioned by the
use of optimal text representations, which are not only difficult to determine beforehand,
but also may vary from one clustering problem to another. This work
presents an approach based on feature diversity and cluster ensembles as a first step
towards building document clustering systems that behave robustly across different
clustering problems. Experiments conducted on three binary clustering problems
of increasing difficulty show that the proposed method is i) robust to near-optimal
model order selection, and ii) able to detect constructive interactions between different
document representations, thus being capable of yielding consensus clusterings
superior to any of the individual clusterings available
On Clustering and Evaluation of Narrow Domain Short-Test Corpora
En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.
Para llevar a cabo esta tarea, se han analizados diversos corpora y métodos de agrupamiento. Mas aún, se han introducido algunas medidas de evaluación de corpus, técnicas de selección de términos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:
-Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus características como longitud de los textos, amplitud del dominio, estilometría, desequilibrio de clases y estructura.
-Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos
El trabajo de investigación que se ha llevado a cabo se encuentra parcialmente enfocado en el "agrupamiento de textos cortos". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un "lenguaje reducido" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generación de mensajes de textos como el correo electrónico y el chat).
Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorización, es bastante complejo lidiar con corpora de dominio restringido tales como artículos científicos, reportes técnicos, patentes, etc.
El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:
a) las bajas frecuencias de los términos del vocabulario en textos cortos, y
b) el alto traslape de vocabulario asociado a dominios restringidos.
Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incrPinto Avendaño, DE. (2008). On Clustering and Evaluation of Narrow Domain Short-Test Corpora [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/2641Palanci