5 research outputs found

    A PSO-based clustering approach assisted by initial clustering information

    Get PDF
    Clustering of short texts is an important research area because of its applicability in information retrieval and text mining. To this end was proposed CLUDIPSO, a discrete Particle Swarm Optimization algorithm to cluster short texts. Initial results showed that CLUDIPSO has performed well in small collections of short texts. However, later works showed some drawbacks when dealing with larger collections. In this paper we present a hybridization of CLUDIPSO to overcome these drawbacks, by providing information in the initial cycles of the algorithm to avoid a random search and thus speed up the convergence process. This is achieved by using a pre-clustering obtained with the Expectation-Maximization method which is included in the initial population of the algorithm. The results obtained with the hybrid version show a significant improvement over those obtained with the original version.Eje: Workshop Bases de datos y minería de datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    Tópicos avanzados en categorización de textos

    Get PDF
    Este artículo describe, en forma resumida, los trabajos de investigación y desarrollo que se están llevando a cabo en la línea “Agentes y Sistemas Inteligentes” del LIDIC, en el área de categorización de textos. Otras líneas de investigación del LIDIC, también abordan problemas de categorización pero, en nuestro caso, nos centramos en problemas que involucran documentos. Por este motivo, en nuestra línea se presta especial atención a técnicas vinculadas al procesamiento del lenguaje natural, la lingüistica computacional y la recuperación de la información. En este sentido, buena parte de los desarrollos en estos temas, se han realizado en forma conjunta con grupos de investigación con una experiencia considerable en el procesamiento del lenguaje natural, como por ejemplo, el NLEL de la Universidad Politécnica de Valencia, España. Los enfoques utilizados en nuestra línea de trabajo, buscan mejorar los procesos de categorización automática de textos en base a dos mecanismos principales: 1) el uso de técnicas de representación de textos más elaboradas, 2) el uso de algoritmos de categorización más eficientes y efectivos. Respecto al primer punto, nuestros trabajos incluyen el uso de representaciones que incorporan información semántica (conceptos) a los métodos tradicionales basados en términos y representaciones basadas en LSI (Latent Semantic Indexing). Las soluciones algorítmicas por su parte, incluyen el ensamblaje de clasificadores y los métodos de optimización bio-inspirados.Eje: Agentes y Sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI

    Tópicos avanzados en categorización de textos

    Get PDF
    Este artículo describe, en forma resumida, los trabajos de investigación y desarrollo que se están llevando a cabo en la línea “Agentes y Sistemas Inteligentes” del LIDIC, en el área de categorización de textos. Otras líneas de investigación del LIDIC, también abordan problemas de categorización pero, en nuestro caso, nos centramos en problemas que involucran documentos. Por este motivo, en nuestra línea se presta especial atención a técnicas vinculadas al procesamiento del lenguaje natural, la lingüistica computacional y la recuperación de la información. En este sentido, buena parte de los desarrollos en estos temas, se han realizado en forma conjunta con grupos de investigación con una experiencia considerable en el procesamiento del lenguaje natural, como por ejemplo, el NLEL de la Universidad Politécnica de Valencia, España. Los enfoques utilizados en nuestra línea de trabajo, buscan mejorar los procesos de categorización automática de textos en base a dos mecanismos principales: 1) el uso de técnicas de representación de textos más elaboradas, 2) el uso de algoritmos de categorización más eficientes y efectivos. Respecto al primer punto, nuestros trabajos incluyen el uso de representaciones que incorporan información semántica (conceptos) a los métodos tradicionales basados en términos y representaciones basadas en LSI (Latent Semantic Indexing). Las soluciones algorítmicas por su parte, incluyen el ensamblaje de clasificadores y los métodos de optimización bio-inspirados.Eje: Agentes y Sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI

    Proximity estimation and hardness of short-text corpora

    No full text
    Abstract—In this work, we investigate the relative hardness of shorttext corpora in clustering problems and how this hardness relates to traditional similarity measures. Our approach basically attempts to establish a connection between the hardness of a corpus and the precision level exhibited by similarity measures, according to the results obtained with different cluster validity measures on the “ideal ” clustering of each corpus. Moreover, we also propose a new validity measure, named contiguity error that allowed us to observe this connection in a consistent way in all the collections considered. I

    Analysis of short texts on the Web: introduction to special issue

    Full text link
    The final publication is available at Springer via http://dx.doi.org/10.1007/s10579-013-9220-9[EN] Analysis of web and social media data is a rapidly growing area of research. Researchers seek to extract a wide variety of information from these texts in order to address specific user needs, profile attitudes and intentions, and target advertising, etc., which may require application of the full range of natural processing techniques. However, many of the texts in question¿including news feeds, document titles, FAQs, and tweets¿exist as short, sometimes barely sentence-like snippets that do not always follow the lexical and syntactic conventions assumed by many language processing tools. Many NLP analyses rely on the repetition of specific lexical items throughout the text in order to identify topic, genre, and other features; without sufficient context to enable such analyses, and because of their often eccentric grammatical style, short texts pose a new kind of challenge for language processing research (Errecalde et al. 2008; Pinto et al. 2011).This special issue has been an activity of the WIQ-EI IRSES project (Grant No. 269180) within the FP 7 Marie Curie People Framework of the European Commission.Rosso, P.; Errecalde, ML.; Pinto Avendaño, D. (2013). Analysis of short texts on the Web: introduction to special issue. Language Resources and Evaluation. 47(1):123-126. https://doi.org/10.1007/s10579-013-9220-9S123126471Errecalde, M. L., Ingaramo, D., & Rosso, P. (2008). Proximity estimation and hardness of short-text corpora. In Proceedings of the 2008 19th international conference on database and expert systems application, DEXA ’08 (pp. 15–19).Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies, Morgan & Claypool Publishers.Pinto, D., Rosso, P., & Jiménez-Salazar, H. (2011). A self-enriching methodology for clustering narrow domain short texts. Computer Journal, 54(7), 1148–1165
    corecore