Search CORE

14 research outputs found

Automatic Generation of Text Summaries - Challenges, proposals and experiments

Author: GARCIA HERNANDEZ RENE ARNULFO
GARCIA HERNANDEZ RENE ARNULFO
LEDENEVA YULIA NIKOLAEVNA
LEDENEVA YULIA NIKOLAEVNA
Publication venue: 'Universidad Autonoma del Estado de Mexico'
Publication date: 01/01/2017
Field of study

Los estudiantes e investigadores en el área de procesamiento deenguaje natural, inteligencia artificial, ciencias computacionales y lingüística computacional serán quizá los primeros interesados en este libro. No obstante, también se pretende introducir a público no especializado en esta prometedora área de investigación; por ello, hemos traducido al español algunos tecnicismos y anglicismos, propios de esta disciplina, pero sin dejar de mencionar, en todo momento, su término en inglés para evitar confusiones y lograr que aquellos lectores interesados puedan ampliar sus fuentes de conocimiento.Este libro presenta un método computacional novedoso, a nivel internacional, para la generación automática de resúmenes de texto, pues supera la calidad de los que actualmente se pueden crear. Es decir, es resultado de una investigación que buscó métodos y modelos computacionales lo menos dependientes del lenguaje y dominio

Repositorio Institucional de la Universidad Autónoma del Estado de México

Automatic text summarization with Maximal Frequent Sequences

Author: GARCIA HERNANDEZ RENE ARNULFO
GARCIA HERNANDEZ RENE ARNULFO
LEDENEVA YULIA NIKOLAEVNA
LEDENEVA YULIA NIKOLAEVNA
Publication venue: 'Universidad Autonoma del Estado de Mexico'
Publication date: 01/12/2013
Field of study

En las últimas dos décadas un aumento exponencial de la información electrónica ha provocado una gran necesidad de entender rápidamente grandes volúmenes de información. En este libro se desarrollan los métodos automáticos para producir un resumen. Un resumen es un texto corto que transmite la información más importante de un documento o de una colección de documentos. Los resúmenes utilizados en este libro son extractivos: una selección de las oraciones más importantes del texto. Otros retos consisten en generar resúmenes de manera independiente de lenguaje y dominio. Se describe la identificación de cuatro etapas para generación de resúmenes extractivos. La primera etapa es la selección de términos, en la que uno tiene que decidir qué unidades contarían como términos individuales. El proceso de estimación de la utilidad de los términos individuales se llama etapa de pesado de términos. El siguiente paso se denota como pesado de oraciones, donde todas las secuencias reciben alguna medida numérica de acuerdo con la utilidad de términos. Finalmente, el proceso de selección de las oraciones más importantes se llama selección de oraciones. Los diferentes métodos para generación de resúmenes extractivos pueden ser caracterizados como representan estas etapas. En este libro se describe la etapa de selección de términos, en la que la detección de descripciones multipalabra se realiza considerando Secuencias Frecuentes Maximales (sfms), las cuales adquieren un significado importante, mientras Secuencias Frecuentes (sf) no maximales, que son partes de otros sf, no deben de ser consideradas. En la motivación se consideró costo vs. beneficio: existen muchas sf no maximales, mientras que la probabilidad de adquirir un significado importante es baja. De todos modos, las sfms representan todas las sfs en el modo compacto: todas las sfs podrían ser obtenidas a partir de todas las sfms explotando cada sfm al conjunto de todas sus subsecuencias. Se presentan los nuevos métodos basados en grafos, algoritmos de agrupamiento y algoritmos genéticos, los cuales facilitan la tarea de generación de resúmenes de textos. Se ha experimentado diferentes combinaciones de las opciones de selección de términos, pesado de términos, pesado de oraciones y selección de oraciones para generar los resúmenes extractivos de textos independientes de lenguaje y dominio para una colección de noticias. Se ha analizado algunas opciones basadas en descripciones multipalabra considerándolas en los métodos de grafos, algoritmos de agrupamiento y algoritmos genéticos. Se han obtenido los resultados superiores al de estado de arte. Este libro está dirigido a los estudiantes y científicos del área de Lingüística Computacional, y también a quienes quieren saber sobre los recientes avances en las investigaciones de generación automática de resúmenes de textos.In the last two decades, an exponential increase in the available electronic information causes a big necessity to quickly understand large volumes of information. It raises the importance of the development of automatic methods for detecting the most relevant content of a document in order to produce a shorter text. Automatic Text Summarization (ats) is an active research area dedicated to generate abstractive and extractive summaries not only for a single document, but also for a collection of documents. Other necessity consists in finding method for ats in a language and domain independent way. In this book we consider extractive text summarization for single document task. We have identified that a typical extractive summarization method consists in four steps. First step is a term selection where one should decide what units will count as individual terms. The process of estimating the usefulness of the individual terms is called term weighting step. The next step denotes as sentence weighting where all the sentences receive some numerical measure according to the usefulness of its terms. Finally, the process of selecting the most relevant sentences calls sentence selection. Different extractive summarization methods can be characterized how they perform these steps. In this book, in the term selection step, we describe how to detect multiword descriptions considering Maximal Frequent Sequences (mfss), which bearing important meaning, while non-maximal frequent sequences (fss), those that are parts of another fs, should not be considered. Our additional motivation was cost vs. benefit considerations: there are too many non-maximal fss while their probability to bear important meaning is lower. In any case, mfss represent all fss in a compact way: all fss can be obtained from all mfss by bursting each mfs into a set of all its subsequences.New methods based on graph algorithms, genetic algorithms, and clustering algorithms which facilitate the text summarization task are presented. We have tested different combinations of term selection, term weighting, sentence weighting and sentence selection options for language-and domain-independent extractive single-document text summarization on a news report collection. We analyzed several options based on mfss, considering them with graph, genetic, and clustering algorithms. We obtained results superior to the existing state-ofthe- art methods. This book is addressed for students and scientists of the area of Computational Linguistics, and also who wants to know recent developments in the area of Automatic Text Generation of Summaries

Red Mexicana de Repositorios Institucionales

Repositorio Institucional de la Universidad Autónoma del Estado de México

Gestión del conocimiento en la micro y pequeña empresa mexicana de la industria del software

Author: CUESTA ARVIZU HECTOR
CUESTA ARVIZU HECTOR
LEDENEVA YULIA NIKOLAEVNA
LEDENEVA YULIA NIKOLAEVNA
RUIZ CASTILLA JOSE SERGIO
RUIZ CASTILLA JOSE SERGIO
Publication venue: 'Instituto Politecnico Nacional/Centro de Investigacion en Computacion'
Publication date: 01/05/2014
Field of study

Las empresas que desarrollan software en México son microempresas con diez o menos empleados que no cuentan con sistemas de gestión del conocimiento. Se parte de un modelo de transferencia de conocimiento de los desarrolladores expertos a los no expertos, a través de un sistema de gestión del conocimiento. Se enfocó la investigación en conocer ¿Cómo sucede la gestión de conocimiento en las micro y pequeñas empresas que desarrollan software en México? Se encontró que el problema no es solo tecnológico, sino también cultural, en dichas organizaciones. Por lo anterior se diseñó un instrumento para medir la cultura de la gestión del conocimiento, se aplicó y se muestran los resultados. Se detectó que los desarrolladores consideran muy importante compartir el conocimiento y de hecho lo hacen informalmente. Se concluyó que dichas organizaciones deben incluir la gestión del conocimiento en sus procesos de desarrollo de softwar

Repositorio Institucional de la Universidad Autónoma del Estado de México

Reglas que describen la deserción y permanencia en los estudiantes de la UAP Tianguistenco de la UAEM

Author: GARCIA HERNANDEZ RENE ARNULFO
GARCIA HERNANDEZ RENE ARNULFO
GARCIA LAMBERT GUILLERMO
GARCIA LAMBERT GUILLERMO
LEDENEVA YULIA NIKOLAEVNA
LEDENEVA YULIA NIKOLAEVNA
Publication venue: 'Universidad Autonoma del Estado de Mexico'
Publication date: 01/01/2014
Field of study

Se pretende encontrar cuál es el conjunto de reglas de conocimiento que pueden extraerse de aquellos estudiantes que han desertado o que permanecen en sus estudios universitarios tres años después de su ingreso. Se utilizó una base de datos inicial con 206 factores y 305 estudiantes de cuatro licenciaturas de la uap Tianguistenco de la uaem . Mediante árboles de decisión, fue posible determinar que con sólo 12 factores en 19 reglas se puede saber, con un 82.6% de soporte, si un estudiante tiene riesgo de desertar o no de sus estudios en los tres años posteriores

Red Mexicana de Repositorios Institucionales

Repositorio Institucional de la Universidad Autónoma del Estado de México

Calculating the Upper Bounds for Portuguese Automatic Text Summarization Using Genetic Algorithm

Author: GARCIA HERNANDEZ RENE ARNULFO
GARCIA HERNANDEZ RENE ARNULFO
LEDENEVA YULIA NIKOLAEVNA
LEDENEVA YULIA NIKOLAEVNA
ROJAS SIMON JONATHAN
ROJAS SIMON JONATHAN
Publication venue: 'Springer Fachmedien Wiesbaden GmbH'
Publication date: 01/11/2018
Field of study

Over the last years, Automatic Text Summarization (ATS) has been considered as one of the main tasks in Natural Language Processing (NLP) that generates summaries in several languages (e.g., English, Portuguese, Spanish, etc.). One of the most significant advances in ATS is developed for Portuguese reflected with the proposals of various state-of-art methods. It is essential to know the performance of different state-of-the-art methods with respect to the upper bounds (Topline), lower bounds (Baseline-random), and other heuristics (Base-line-first). In recent works, the significance and upper bounds for Single-Docu-ment Summarization (SDS) and Multi-Document Summarization (MDS) using corpora from Document Understanding Conferences (DUC) were calculated. In this paper, a calculus of upper bounds for SDS in Portuguese using Genetic Al-gorithms (GA) is performed. Moreover, we present a comparison of some state-of-the-art methods with respect to the upper bounds, lower bounds, and heuristics to determinate their level of significance

Repositorio Institucional de la Universidad Autónoma del Estado de México

Calculating the Upper Bounds for Multi-Document Summarization using Genetic Algorithms

Author: GARCIA HERNANDEZ RENE ARNULFO
GARCIA HERNANDEZ RENE ARNULFO
LEDENEVA YULIA NIKOLAEVNA
LEDENEVA YULIA NIKOLAEVNA
ROJAS SIMON JONATHAN
ROJAS SIMON JONATHAN
Publication venue: Computación y Sistemas
Publication date: 10/01/2018
Field of study

Over the last years, several Multi-Document Summarization (MDS) methods have been presented in Document Understanding Conference (DUC), workshops. Since DUC01, several methods have been presented in approximately 268 publications of the stateof-the-art, that have allowed the continuous improvement of MDS, however in most works the upper bounds were unknowns. Recently, some works have been focused to calculate the best sentence combinations of a set of documents and in previous works we have been calculated the significance for single-document summarization task in DUC01 and DUC02 datasets. However, for MDS task has not performed an analysis of significance to rank the best multi-document summarization methods. In this paper, we describe a Genetic Algorithm-based method for calculating the best sentence combinations of DUC01 and DUC02 datasets in MDS through a Meta-document representation. Moreover, we have calculated three heuristics mentioned in several works of state-of-the-art to rank the most recent MDS methods, through the calculus of upper bounds and lower bounds

Red Mexicana de Repositorios Institucionales

Repositorio Institucional de la Universidad Autónoma del Estado de México

Automatic language-independent detection of multiword descriptions for text summarization

Author: Ledeneva Yulia Nikolaevna
Publication venue: Ledeneva, Yulia Nikolaevna
Publication date: 05/04/2017
Field of study

En las últimas dos décadas un aumento exponencial de la información electrónica provoca una gran necesidad de entender rápidamente grandes volúmenes de información. En esta tesis se desarrollan los métodos automáticos para producir un resumen. Un resumen del texto es un texto corto que transmite la información más importante del documento o de una colección de documentos. El tipo de resúmenes con el cual trabajamos en esta tesis son resúmenes extractivos: una selección de las oraciones del texto más importantes. Otros retos consisten en generar resúmenes de manera independiente de lenguaje y dominio. La primera contribución de esta tesis consiste en identificar cuatro etapas para generación de resúmenes extractivos. La primera etapa es la selección de términos donde uno tiene que decidir que unidades contarían como los términos individuales. El proceso de estimación de la utilidad de los términos individuales se llama la etapa de pesado de términos. El siguiente paso se denota como pesado de oraciones donde todas las secuencias reciben alguna medida numérica de acuerdo a la utilidad de términos. Finalmente, el proceso de selección de las oraciones más importantes se llama selección de oraciones. Los diferentes métodos para generación de resúmenes extractivos se pueden ser caracterizados como representan estas etapas. Las contribuciones principales en la etapa de selección de términos que hemos propuesto es la detección de descripciones multipalabra considerando Secuencias Frecuentes Maximales (SFMs), cuales adquieren un significado importante mientras Secuencias Frecuentes (SF) no maximales los cuales son partes de otros SF, no deben de ser consideradas. En la motivación se consideró costo vs. beneficio: existe muchas SF no maximales mientras la probabilidad de adquirir un significado importante es baja. De todos modos, SFMs representan todas SFs en el modo compacto: todas SFs podrían ser obtenidas a partir de todas SFMs explotando cada SFM al conjunto de todas sus subsecuencias. Otras contribuciones de este trabajo son nuevos métodos basados en grafos, algoritmos de agrupamiento, y algoritmo genético cuales facilitan la tarea de generación de resúmenes de textos. Se ha experimentado diferentes combinaciones de las opciones de selección de términos, pesado de términos, pesado de oraciones y selección de oraciones para generar los resúmenes extractivos de textos independiente de lenguaje y dominio para una colección de noticias. Se ha analizado algunas opciones basadas en descripciones multipalabra considerándolas en los métodos de grafos, algoritmos de agrupamiento y algoritmos genéticos. Se ha obtenido los resultados superiores al de estado de arte

Red Mexicana de Repositorios Institucionales

Generación automática de resúmenes - Retos, propuestas y experimentos

Author: GARCIA HERNANDEZ RENE ARNULFO
GARCIA HERNANDEZ RENE ARNULFO
LEDENEVA YULIA NIKOLAEVNA
LEDENEVA YULIA NIKOLAEVNA
Publication venue: 'Universidad Autonoma del Estado de Mexico'
Publication date: 01/01/2017
Field of study

Red Mexicana de Repositorios Institucionales

Gestión del conocimiento en la micro y pequeña empresa mexicana de la industria del software

Author: CUESTA ARVIZU HECTOR
CUESTA ARVIZU HECTOR
LEDENEVA YULIA NIKOLAEVNA
LEDENEVA YULIA NIKOLAEVNA
RUIZ CASTILLA JOSE SERGIO
RUIZ CASTILLA JOSE SERGIO
Publication venue: 'Instituto Politecnico Nacional/Centro de Investigacion en Computacion'
Publication date
Field of study

Red Mexicana de Repositorios Institucionales