3 research outputs found

    A Genetic Clustering Algorithm for Automatic Text Summarization

    Get PDF
    Abstract. Automatic text summarization has become a relevant topic due to the information overload. This automatization aims to help humans and machines to deal with the vast amount of text data (structured and un-structured) offered on the web and deep web. In this research a novel approach for automatic extractive text summarization called SENCLUS is presented. Using a genetic clustering algorithm, SENCLUS clusters the sentences as close representation of the text topics using a fitness function based on redundancy and coverage, and applies a scoring function to select the most relevant sentences of each topic to be part of the extractive summary. The approach was validated using the DUC2002 data set and ROUGE summary quality measures. The results shows that the approach is representative against the state of the art methods for extractive automatic text summarization.La generación automática de resúmenes se ha posicionado como un tema de gran importancia debido a la sobrecarga informativa. El objetivo de esta tecnología es el ayudar humanos y maquinas a lidiar con el gran volumen de información en forma de texto (estructurada y no estructurada) que se encuentra en la red y en la red profunda. Esta investigación presenta un nuevo algoritmo para la generación automática de resúmenes extractivos llamado SENCLUS. Este algoritmo es capaz de detectar los temas presentes en un texto usando una técnica de agrupación genética para formar grupos de oraciones. Estos grupos de oraciones son una representación aproximada de los temas del texto y estos son formados usando una función aptitud basada en cobertura y redundancia. Una vez los grupos de oraciones son encontrados, se aplica una función puntuación para seleccionar las oraciones mas relevantes de cada tema hasta que las restricciones de longitud del resumen lo permitan. SENCLUS fue validado en una serie de experimentos en los cuales se usò el conjunto de datos DUC2002 para la generación de resúmenes de un solo documento y se usò la medida ROUGE para medir de forma automática la calidad de cada resumen. Los resultados mostraron que el enfoque propuesto es representativo al ser comparado con los algoritmos presentes en el estado del arte para la generación de resúmenes extractivos.Maestrí

    Data Stream Mining: an Evolutionary Approach

    Get PDF
    Este trabajo presenta un algoritmo para agrupar flujos de datos, llamado ESCALIER. Este algoritmo es una extensión del algoritmo de agrupamiento evolutivo ECSAGO Evolutionary Clustering with Self Adaptive Genetic Operators. ESCALIER toma el proceso evolutivo propuesto por ECSAGO para encontrar grupos en los flujos de datos, los cuales son definidos por la técnica Sliding Window. Para el mantenimiento y olvido de los grupos detectados a través de la evolución de los datos, ESCALIER incluye un mecanismo de memoria inspirado en la teoría de redes inmunológicas artificiales. Para probar la efectividad del algoritmo, se realizaron experimentos utilizando datos sintéticos simulando un ambiente de flujos de datos, y un conjunto de datos reales.Abstract. This work presents a data stream clustering algorithm called ESCALIER. This algorithm is an extension of the evolutionary clustering ECSAGO - Evolutionary Clustering with Self Adaptive Genetic Operators. ESCALIER takes the advantage of the evolutionary process proposed by ECSAGO to find the clusters in the data streams. They are defined by sliding window technique. To maintain and forget clusters through the evolution of the data, ESCALIER includes a memory mechanism inspired by the artificial immune network theory. To test the performance of the algorithm, experiments using synthetic data, simulating the data stream environment, and a real dataset are carried out.Maestrí

    A Genetic Niching Algorithm with Self-Adaptating Operator Rates for Document Clustering

    No full text
    corecore