22 research outputs found

    Multi-document extractive summarization using semantic graph

    Get PDF
    La generación automática de resúmenes consiste en sintetizar en un texto corto la información más relevante contenida en documentos, y permite reducir los problemas generados por la sobrecarga de información. En este trabajo se presenta un método no supervisado de generación de resúmenes extractivos a partir de múltiples documentos. En esta propuesta, la conceptualización y estructura semántica subyacente del contenido textual se representa en un grafo semántico usando WordNet y se aplica un algoritmo de agrupamiento de conceptos para identificar los tópicos tratados en los documentos, con los cuales se evalúa la relevancia de las oraciones para construir el resumen. El método fue evaluado con corpus de textos de MultiLing 2015, y se usaron métricas de ROUGE para medir la calidad de los resúmenes generados. Los resultados obtenidos se compararon con los de otros sistemas participantes en MultiLing 2015, evidenciándose mejoras en la mayoría de los casos.The automatic texts summarization consists in synthesizing in a short text the most relevant information contained in text documents, and allows to reduce the generated problems by the information overload. In this paper, an unsupervised method for extractive multi-document summarization is presented. In this proposal, the conceptualization and underlying semantics structure of the textual content is represented in a semantic graph using WordNet, and a concept clustering algorithm is applied to identifying the topics of the documents set, with which the relevance of the sentences is evaluated to build the summary. The method was evaluated with texts corpus from MultiLing 2015, and ROUGE metrics were used to measure the quality of the generated summaries. The obtained results were compared with those other participant systems in MultiLing 2015, evidencing improves in most of the cases.Este trabajo ha sido parcialmente soportado por el Fondo Europeo de Desarrollo Regional (FEDER) y el Ministerio Español de Economía y Competitividad, bajo la subvención del proyecto METODOS RIGUROSOS PARA EL INTERNET DEL FUTURO (MERINET) Ref. TIN2016-76843-C4-2-R (AEI/FEDER, UE)

    Generación automática de resúmenes de múltiples documentos utilizando secuencias frecuentes maximales y método de grafos

    Get PDF
    El crecimiento exponencial de internet ha provocado un bombardeo de información que se produce día a día aumentando de manera exponencial. La información masiva se ha vuelto un problema de sobrecarga de información al momento de realizar una búsqueda de información específica, lo cual ha provocado que las ciencias computacionales se vean involucradas en la búsqueda de una solución. La Generación Automática de Resúmenes de Texto (GART) es una tarea del Procesamiento del Lenguaje Natural (PLN) que busca contrarrestar los efectos negativos de la sobrecarga de información. Actualmente existen diferentes métodos del estado del arte para la GART basados en una arquitectura de tres etapas: 1. Identificación de Tópicos. 2. Transformación o interpretación. 3. Síntesis o generación del resumen. Entre los métodos del estado del arte se encontró un método que a diferencia de los otros propone una cuarta etapa. La cuarta etapa busca darle un valor a cada término de las oraciones. El método propuesto por (Ledeneva y García-Hernández, 2017) demostró dar buenos resultados para la tarea Generación Automática de Resúmenes de Texto de Un solo documento (GART-1). Con referencia a los resultados obtenidos del método de (Ledeneva y García-Hernández, 2017) en este trabajo se propone ajustar los parámetros en las diferentes etapas y adaptar el método para la tarea de Generación Automática de Resúmenes de Texto de Múltiples documentos (GART-M). En el método propuesto se optó por la extracción de las Secuencias Frecuentes Maximales (SFM’s) para ser empleadas como modelo de texto y la utilización de un método basado en grafos para realizar el pesado de las oraciones. El corpus empleado fue DUC-02, el cual está conformado por 59 colecciones de documentos de noticias. La evaluación de los resúmenes se hizo con el sistema ROUGE-N, el cual permite comprar los resúmenes generados a partir del método con los resúmenes generados por un humano. Los resultados obtenidos de los experimentos realizados se dividieron en tres etapas. En la primera etapa se buscó la mejor configuración del método. En la segunda etapa se buscó probar la importancia de la longitud de las SFM’s. En la tercera etapa de busco emplear una nueva configuración para la selección de oraciones. Los resultados obtenidos por el método propuesto se compararon con otros métodos del estado del arte y las heurísticas. Los resultados obtenidos con el método propuesto logran superar las heurísticas y métodos del estado del arte

    Detección de ideas principales y composición de resúmenes en inglés, español, portugués y ruso. 60 años de investigación

    Get PDF
    Detección de ideas principales y composición de resúmenes en inglés, español, portugués y ruso. 60 años de investigación, es un libro que puede ser leído por cualquier persona. Sin embargo, al ser un texto que presenta una tarea de Procesamiento del Lenguaje Natural (PLN) está más enfocado a investigadores, estudiantes de posgrado, estudiantes de doctorado, ingenieros y para todos los interesados en problemas del PLN y generación del conocimiento. Entre las aportaciones que se destacan de este libro están: el reporte de seis pruebas del Test de Turing, con lo que se demuestra que una máquina puede engañar a un humano y presentar un resumen mejor que el realizado por éste; la integración y el reporte de los métodos novedosos desarrollados hasta el momentos; la comparación con los sistemas, la integración y reporte en español y ruso de la GART, ya que para estos lenguajes no se tenía una pesquisa formal y, finalmente, los resultados mostrados son una fuente de referencia para saber en qué punto está la investigación de la GART en los cuatro lenguajes.Detección de ideas principales y composición de resúmenes en inglés, español, portugués y ruso. 60 años de investigación es un libro que aborda la tarea de generación automática de resúmenes desde la perspectiva cualitativa y cuantitativa. Primero se presentan los resultados de las pruebas de los test de Turing realizados a las máquinas que actualmente generan resúmenes de forma automática en los lenguajes más hablados y escritos: inglés, español, portugués y ruso, para saber si un resumen hecho por una máquina tiene la calidad para confundir a un humano y que no se dé cuenta que el resumen lo hizo una máquina. Posteriormente, se presenta la integración y el reporte cuantitativo de los métodos novedosos desarrollados hasta el momento y la comparación con los sistemas que generan resúmenes automáticos. El libro está escrito en un lenguaje muy accesible por lo que cualquier persona puede leerlo, ya que a pesar de utilizar en algunas partes lenguaje técnico, éste se explica y se da el significado de cada término.Universidad Autónoma del Estado de Méxic

    Generación automática de resúmenes independientes del lenguaje

    Get PDF
    En la actualidad la información en formato digital crece de manera exponencial y ante ello surgen diversas problemáticas, como la sobrecarga de información, redundancia de información, pérdida de información, entre otras. Este tipo de problemas puede ocasionar en los usuarios deficiencia en su trabajo, al no tener el tiempo disponible necesario, para procesar toda la información, ante esto surge la importante necesidad de contar con métodos que permitan la generación automática de resúmenes. Pero además de contar con un método que nos permite generar resúmenes, sería ideal que los métodos generaran resúmenes en cualquier lenguaje, principalmente en el lenguaje que domina el usuario (en nuestro caso el español). Un método de generación automática de resúmenes independientes del lenguaje, trata de contrarrestar los efectos negativos de la sobrecarga de información, además de que permite generar un resumen, independientemente del lenguaje en el que se encuentre el texto original. Según (Ledeneva, 2008) un resumen es un texto corto que transmite la información más importante de un documento de origen. Actualmente existen métodos del estado del arte que dicen ser independientes del lenguaje, pero solo prueban en el lenguaje inglés. Existen otros que son independientes del lenguaje y prueban más de una colección de documentos, pero no en español. Entre los métodos del estado del arte que dicen ser independientes del lenguaje está el propuesto por (Matias, 2013), el cual obtienen buenos resultados para el lenguaje inglés y puede trabajar con otros lenguajes. Entonces con referencia a los resultados que se obtienen con el método de (Matias, 2013), en este trabajo se propone el método en los lenguajes: inglés, portugués y español. Además se ajustaron los parámetros de las etapas: pre-procesamiento, modelo de texto, importancia de las oraciones, función de aptitud y el operador de selección, para tratar de mejorar la calidad de los resúmenes. Las colecciones de documentos utilizadas en este trabajo son, para inglés la colección DUC2002, para portugués la colección TeMário y para el lenguaje español TER. La colección TER es una aportación de este trabajo, la cual es una colección de noticias de un periódico mexicano (La crónica) especialmente para el uso de resúmenes. Los resúmenes resultantes son evaluados con la herramienta ROUGE la cual permite comparar los resúmenes generados a partir del método con los resúmenes generados por un humano. Los resultados obtenidos de los experimentos con cada una de las colecciones se comparan con los resultados obtenidos con los resúmenes generados con las herramientas comerciales 5 y otros métodos del estado del arte. Los resultados obtenidos con el método propuesto en todos los lenguajes superan tanto a las herramientas comerciales como a los métodos del estado del arte

    DESEMPEÑO DE LOS MÉTODOS DEL ESTADO DEL ARTE PARA LA GENERACIÓN AUTOMÁTICA DE RESÚMENES EXTRACTIVOS PARA EL CORPUS TEXTRUSS

    Get PDF
    Hoy en día la información digital crece de manera exponencial. Por esto, cuando se realiza una investigación sobre un tema específico en un motor de búsqueda (Google Search, Yahoo! Search) nos genera demasiados resultados, por lo cual se complica revisar todos los documentos recuperados que contengan las palabras de la consulta. Uno de los recursos más eficientes utilizados por los usuarios para condensar el volumen de información es el uso de resúmenes. Un resumen es un texto corto producido a partir de uno o más documentos, clasificado en abstractivo o extractivo. El resumen extractivo se crea a partir de la selección de oraciones sobresalientes del texto original, por otro lado, el resumen abstractivo consiste en interpretar el texto en menos palabras. Además, existen dos tareas en la generación de un resumen: a partir de un solo documento o a partir de múltiples documentos. El resumen generado de un solo documento consiste en generar un texto corto, mientras que el resumen generado por múltiples documentos consiste en generar un texto corto con los elementos relevantes de éstos. En este trabajo de tesis se utiliza el resumen de tipo extractivo y con la tarea de un solo documento. Se han elaborado diversos trabajos que determinan el desempeño de las herramientas comerciales y métodos del estado del arte para la generación automática de resúmenes en el idioma inglés, español, portugués y ruso; utilizando conjuntos de documentos como entrada llamados corpus, los cuales son orientados al dominio de noticias. Sin embargo, en el caso del idioma ruso no se han utilizado diversos métodos del estado del arte. En este trabajo de tesis se determina el desempeño de los métodos del estado del arte para la generación automática de resúmenes extractivos de un solo documento utilizando el corpus TEXTRUSS, por medio de la herramienta de evaluación ROUGE (Lin, 2004), utilizando la medida F-measure como indicador de evaluación. Se realizaron experimentos con diferentes configuraciones de parámetros de los métodos del estado del arte para la generación automática de resúmenes en el idioma ruso. Además, se comparan los resultados de los métodos del estado del arte para determinar su desempeño

    DESEMPEÑO DE LOS MÉTODOS DEL ESTADO DEL ARTE PARA LA GENERACIÓN AUTOMÁTICA DE RESÚMENES EXTRACTIVOS PARA EL CORPUS TEXTRUSS

    Get PDF
    Hoy en día la información digital crece de manera exponencial. Por esto, cuando se realiza una investigación sobre un tema específico en un motor de búsqueda (Google Search, Yahoo! Search) nos genera demasiados resultados, por lo cual se complica revisar todos los documentos recuperados que contengan las palabras de la consulta. Uno de los recursos más eficientes utilizados por los usuarios para condensar el volumen de información es el uso de resúmenes. Un resumen es un texto corto producido a partir de uno o más documentos, clasificado en abstractivo o extractivo. El resumen extractivo se crea a partir de la selección de oraciones sobresalientes del texto original, por otro lado, el resumen abstractivo consiste en interpretar el texto en menos palabras. Además, existen dos tareas en la generación de un resumen: a partir de un solo documento o a partir de múltiples documentos. El resumen generado de un solo documento consiste en generar un texto corto, mientras que el resumen generado por múltiples documentos consiste en generar un texto corto con los elementos relevantes de éstos. En este trabajo de tesis se utiliza el resumen de tipo extractivo y con la tarea de un solo documento. Se han elaborado diversos trabajos que determinan el desempeño de las herramientas comerciales y métodos del estado del arte para la generación automática de resúmenes en el idioma inglés, español, portugués y ruso; utilizando conjuntos de documentos como entrada llamados corpus, los cuales son orientados al dominio de noticias. Sin embargo, en el caso del idioma ruso no se han utilizado diversos métodos del estado del arte. En este trabajo de tesis se determina el desempeño de los métodos del estado del arte para la generación automática de resúmenes extractivos de un solo documento utilizando el corpus TEXTRUSS, por medio de la herramienta de evaluación ROUGE (Lin, 2004), utilizando la medida F-measure como indicador de evaluación. Se realizaron experimentos con diferentes configuraciones de parámetros de los métodos del estado del arte para la generación automática de resúmenes en el idioma ruso. Además, se comparan los resultados de los métodos del estado del arte para determinar su desempeño

    Automatic Generation of Text Summaries - Challenges, proposals and experiments

    Get PDF
    Los estudiantes e investigadores en el área de procesamiento deenguaje natural, inteligencia artificial, ciencias computacionales y lingüística computacional serán quizá los primeros interesados en este libro. No obstante, también se pretende introducir a público no especializado en esta prometedora área de investigación; por ello, hemos traducido al español algunos tecnicismos y anglicismos, propios de esta disciplina, pero sin dejar de mencionar, en todo momento, su término en inglés para evitar confusiones y lograr que aquellos lectores interesados puedan ampliar sus fuentes de conocimiento.Este libro presenta un método computacional novedoso, a nivel internacional, para la generación automática de resúmenes de texto, pues supera la calidad de los que actualmente se pueden crear. Es decir, es resultado de una investigación que buscó métodos y modelos computacionales lo menos dependientes del lenguaje y dominio

    Resumen extractivo de documentos : Un análisis comparativo de técnicas de puntuación

    Get PDF
    En el presente existe una cantidad inimaginable de información digital en distintos formatos, la gran mayoría en formato texto. Esto ha incrementado el interés en el estudio de técnicas que permiten identificar de manera automática las partes relevantes y dan como resultado un resumen automático. En esta tesina se desarrolló una técnica capaz de extraer las sentencias más representativas de un documento manteniendo el criterio de un usuario. El aprendizaje de ese criterio se realizó mediante una red neuronal, a partir de un conjunto de documentos previamente calificados por el usuario. La importancia de las oraciones se asigna en concordancia con la importancia que el usuario consideró para los documentos ingresados.Facultad de Informátic

    Resumen extractivo de documentos : Un análisis comparativo de técnicas de puntuación

    Get PDF
    En el presente existe una cantidad inimaginable de información digital en distintos formatos, la gran mayoría en formato texto. Esto ha incrementado el interés en el estudio de técnicas que permiten identificar de manera automática las partes relevantes y dan como resultado un resumen automático. En esta tesina se desarrolló una técnica capaz de extraer las sentencias más representativas de un documento manteniendo el criterio de un usuario. El aprendizaje de ese criterio se realizó mediante una red neuronal, a partir de un conjunto de documentos previamente calificados por el usuario. La importancia de las oraciones se asigna en concordancia con la importancia que el usuario consideró para los documentos ingresados.Facultad de Informátic

    Generación automática inteligente de resúmenes de textos con técnicas de <i>soft computing</i>

    Get PDF
    Esta tesis se ha desarrollado siguiendo las líneas de investigación que el Instituto de Investigacion en Informática LIDI (III-LIDI, Argentina) y el grupo de investigación Soft Managemement of Internet and Learning (SMILe, España) llevan a cabo de manera colaborativa. Contó con el apoyo externo de los profesores doctores Cristina Puente (Universidad Pontificia Comillas), Aurelio F. Bariviera (Universidad Rovira i Virgili) y Alejandro Sobrino (Universidad de Santiago de Compostela). Fue presentada por Augusto Villa Monte, en el marco de su doctorado en cotutela, como requisito para obtener el grado de doctor en Ciencias Informáticas por la Universidad Nacional de La Plata (UNLP, Argentina) y doctor en Tecnologías Informáticas Avanzadas por la Universidad de Castilla-La Mancha (UCLM, España).Tesis doctoral realizada en co-tutela entre la Universidad Nacional de La Plata y la Universidad de Castilla-La Mancha (España). Grado alcanzado: Doctor en Ciencias Informáticas. Directores de tesis: Laura Lanzarini (UNLP) y José Ángel Olivas Varela (UCLM). La tesis, presentada en el año 2019, obtuvo el Premio "Dr. Raúl Gallard" en el 2020.Red de Universidades con Carreras en Informátic
    corecore