5,461 research outputs found

    Efecto del balanceo de clases al evaluar el F-Score para un clasificador de texto en análisis de sentimiento

    Get PDF
    En los últimos años los métodos de aprendizaje de máquina han sido incluidos en muchas áreas de investigación para dar soporte al análisis de datos. Los modelos de clasificación, los cuales corresponden a métodos de aprendizaje no supervisado, se han convertido en un instrumento muy importante para el análisis de texto y el análisis de sentimiento no es la excepción. Por esta razón es importante tener en consideración las características de los datos ya que, dependiendo de su naturaleza, pueden afectar la calidad del clasificador entrenado. Este trabajo se centra sobre el problema en las clases desbalanceadas. Mediante dos métodos de balanceo, submuestreo y sobremuestreo, se lleva a cabo un experimento estadístico para determinar si balancear un conjunto de datos con clases desbalanceadas mejora o no la calidad de un clasificador usando máquinas de soporte vectorial. Usando dos diferentes modelos para vectorizar palabras, TF-IDF y Word2Vec, se evalúa mediante un análisis de varianza el F-Score del clasificador de texto obteniendo como resultado un F-Score mayor cuando se usa sobremuestreo para balancear clases en comparación al F-Score obtenido del clasificador usando los datos con las clases desbalanceadas.UCR::Vicerrectoría de Investigación::Sistema de Estudios de Posgrado::Ingeniería::Maestría Profesional en Computación e Informátic

    Método híbrido para categorización de texto basado en aprendizaje y reglas

    Get PDF
    En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte

    Automatic generation of text categorization rules in a hybrid method based on machine learning

    Get PDF
    En este artículo se evalúan diferentes técnicas para la generación automática de reglas que se emplean en un método híbrido de categorización automática de texto. Este método combina un algoritmo de aprendizaje computacional con diferentes sistemas basados en reglas en cascada empleados para el filtrado y reordenación de los resultados proporcionados por dicho modelo base. Aquí se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. Para la evaluación se utiliza el corpus de noticias Reuters-21578. Los resultados demuestran que los métodos de generación de reglas propuestos producen resultados muy próximos a los obtenidos con la aplicación de reglas generadas manualmente y que el sistema híbrido propuesto obtiene una precisión y cobertura comparables a la de los mejores métodos del estado del arte.This paper discusses several techniques for the automatic generation of rules to be used in a novel hybrid method for text categorization. This approach combines a machine learning algorithm along with a different rule-based expert systems in cascade used to filter and re-rank the output of the base model provided by the previous classifier. This paper describes an implementation based on kNN algorithm and a basic rule language that expresses lists of terms appearing in the text. The popular Reuters-21578 news corpus is used for testing. Results show that the proposed methods for automatic rule generation achieve precision values that are very similar to the ones achieved by manually defined rule sets, and that this hybrid approach achieves a precision that is comparable to other top state-of-the-art methods.Esta investigación ha sido parcialmente financiada por los proyectos de I+D BUSCAMEDIA (CEN-20091026), MULTIMEDICA (TIN2010-20644-C03-01) y BRAVO (TIN2007-67407-C03-01)

    Generación automática de reglas de categorización de texto en un método híbrido basado en aprendizaje

    Get PDF
    En este artículo se evalúan diferentes técnicas para la generación automática de reglas que se emplean en un método híbrido de categorización automática de texto. Este método combina un algoritmo de aprendizaje computacional con diferentes sistemas basados en reglas en cascada empleados para el filtrado y reordenación de los resultados proporcionados por dicho modelo base. Aquí se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. Para la evaluación se utiliza el corpus de noticias Reuters-21578. Los resultados demuestran que los métodos de generación de reglas propuestos producen resultados muy próximos a los obtenidos con la aplicación de reglas generadas manualmente y que el sistema híbrido propuesto obtiene una precisión y cobertura comparables a la de los mejores métodos del estado del arte

    Aplicación de Algoritmos de Clasificación de Minería de Textos para el Reconocimiento de Habilidades de E-tutores Colaborativos

    Get PDF
    Los sistemas de Aprendizaje Colaborativo Soportado por Computadora (ACSC) permiten el aprendizaje grupal con independencia del tiempo y espacio donde estén localizados los estudiantes y los docentes. Sin embargo, las interacciones que conducen a la creación colaborativa de conocimiento no surgen de manera espontánea y la tecnología puede inhibirlas u obstaculizarlas. Para colaborar efectivamente los estudiantes necesitan (entre otras cosas) de un e-tutor (docente) que coordine la interacción grupal. La selección de e-tutores capacitados es clave para el éxito del ACSC pero el análisis manual de las interacciones registradas en estos entornos para conocer el desempeño de los docentes requiere mucho tiempo y esfuerzo. En este artículo se describe un trabajo de investigación que aplica técnicas de minería de textos para crear clasificadores que permitan identificar automáticamente las habilidades manifestadas por e-tutores. Los resultados obtenidos mediante diferentes algoritmos de clasificación son presentados, analizados y comparados.Computer Supported Collaborative Learning (CSCL) systems enable group learning regardless of the time and space where students and teachers are located. However, interactions that conduct to collaborative creation of knowledge do not occur spontaneously and technology can inhibit or hinder them. Students need (among other things) of an e-tutor (teacher) that coordinates group interaction in order to effectively collaborate. Selection of qualified e-tutors is key for the success of CSCL, but manual analysis of interactions recorded in these environments to know the performance of teachers requires a lot of time and effort. This paper describes a research that applies text mining techniques to build classifiers that allow automatic identification of manifested skills by e-tutors. Results obtained by different classification algorithms are presented, analyzed and compared.Fil: Santana Mansilla, Pablo Fernando. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina. Universidad Nacional de Santiago del Estero. Facultad de Ciencias Exactas y Tecnologías; ArgentinaFil: Costaguta, Rosanna Nieves. Universidad Nacional de Santiago del Estero. Facultad de Ciencias Exactas y Tecnologías; ArgentinaFil: Missio, Daniela. Universidad Nacional de Santiago del Estero. Facultad de Ciencias Exactas y Tecnologías; Argentin

    Hipervinculación de documentos con Máquinas de Soporte Vectorial

    Get PDF
    En la actualidad el acceso a la información se da por medio de hipervínculos, los cuales interconectan los textos entre si únicamente si contienen una relación. Varios investigadores han estudiado la forma en que los humanos crean los hipervínculos y han tratado de replicar el modo de trabajo específicamente de la colección de Wikipedia. El uso de hipervínculos se ha pensado como un prometedor recurso para la recuperación de información, que fue inspirado por el análisis de citas de la literatura (Merlino-Santesteban, 2003). Según Dreyfus (Dreyfus, 2003) la hipervinculación no tiene ningún criterio específico, ni tampoco jerarquías. Por ello cuando todo puede vincularse indiscriminadamente y sin obedecer un propósito o significado en particular, el tamaño de la red y la arbitrariedad entre sus hipervínculos, hacen extremadamente difícil para un usuario encontrar exactamente el tipo de información que busca. En las organizaciones, la familiaridad y la confianza durante mucho tiempo han sido identificadas como las dimensiones de credibilidad de la fuente de información en publicidad (Eric Haley, 1996). Un hipervínculo, como una forma de información, puede, por lo tanto, tener un mayor impacto cuando se presenta por un objetivo conocido (Stewart & Zhang, 2003). Mientras tanto, los hipervínculos entre los sitios web pueden generan confianza en el remitente y el receptor del enlace, por lo que estas interacciones tienen efectos positivos de reputación para el destinatario (Stewart, 2006) (Lee, Lee, & Hwang, 2014). El estudio de documentos por medio de los hipervínculos es un área importante de investigación en minería de datos, en una red social a menudo lleva una gran cantidad de información estructural formada por los hipervínculos creando nodos compartidos dentro de la comunidad. Algunas importantes aplicaciones de los métodos de minería de datos para redes sociales son la recomendación social mediante las experiencias similares de los usuarios (Alhajj & Rokne, 2014). En marketing y publicidad se aprovechan las cascadas en las redes sociales y se obtienen beneficios sobre modelos de propagación de la información (Domingos & Richardson, 2001). Las empresas de publicidad están interesados en cuantificar el valor de un solo nodo en la red, tomando en cuenta que sus acciones pueden desencadenar cascadas a sus nodos vecinos. Los resultados de (Allan, 1997) (Bellot et al., 2013) (Agosti, Crestani, & Melucci, 1997) (Blustein, Webber, & Tague-Sutcliffe, 1997) sugieren que el descubrimiento de hipervínculos automatizado no es un problema resuelto y que cualquier evaluación de los sistemas de descubrimiento de Hipervínculos de Wikipedia debe basarse en la evaluación manual, no en los hipervínculos existentes

    Sistema de búsqueda y análisis basado en twitter

    Full text link
    Las redes sociales están en constante crecimiento y cada día son más los datos que producen. Esta enorme cantidad hace necesario la introducción de análisis automáticos ya que empresas y gobiernos no pueden emplear a personas suficientes para leer cada publicación en las redes en tiempo real. En concreto, Twitter, la red social que trataremos, con cerca de trescientos millones de usuarios activos y trescientos cincuenta millones de publicaciones al día, supone un reto añadido. En este Trabajo Fin de Grado se presenta una herramienta que unifica la búsqueda en la red social y el almacenamiento en local de datos recuperados junto con técnicas de clasificación automática basada en análisis de texto. Se ha intentado simplificar el acceso a los datos con una interfaz web, junto con una capa de abstracción en el entrenamiento de los clasificadores automáticos. El TFG se divide en dos herramientas principales: el demonio de tareas que se ha creado para automatizar la recuperación y clasificación de tweets, y la herramienta web que muestra las publicaciones con un análisis sencillo, ayuda a crear patrones de entrenamiento y programar las tareas en segundo plano. Se ha buscado minimizar el tiempo de espera para mejorar la experiencia de uso del usuario, suponiendo un reto de sincronización entre el servidor y la aplicación. Por último, se ha comprobado que el clasificador más óptimo es el perceptrón multicapa, que aunque es más lento en entrenamiento, obtiene menor error y a la vez es más rápido que otros clasificadores en tiempo de explotación.Social networks are constantly growing and every day they produce more data. This huge amount makes necessary the introduction of automatic analysis as companies and governments cannot employ enough staff to read each networks' publications in real-time. Specifically, Twitter, the social network that we discuss, with about three hundred million active users and three hundred fifty million posts per day, represents an additional challenge. In this Final Project we present a tool that unifies searching the social network and local storage of data retrieved with automatic classification techniques based on text analysis. We attempted to simplify the access to the data with a web interface, together with a layer of abstraction in training automatic classifiers. The TFG is divided into two main tools: the demon of tasks that has been created to automate the retrieval and classification of tweets, and the web tool that shows publications with a simple analysis, helps in creating training patterns and schedule tasks in the background. We tried to minimize the waiting time to improve the user's experience, confronting the challenge of synchronization between the server and the application. Finally, it was found that the optimal classifier is the Multilayer Perceptron, although it is slower in training, it gets less error and is faster than other classifiers while operating

    A Machine Learning based Central Unit Detector for Basque Scientific Texts

    Get PDF
    En este artículo presentamos el primer detector de la Unidad Central (UC) de resúmenes científicos en euskera basado en técnicas de aprendizaje automático. Después de segmentar el texto en unidades de discurso elementales, la detección de la unidad central es crucial para anotar de forma más fiable la estructura relacional de textos bajo la Teoría de la Estructura Retórica o Rhetorical Structure Theory (RST). Además, la unidad central puede ser explotada en diversas tareas como resumen automático, tareas de pregunta y respuesta o análisis del sentimiento. Los resultados obtenidos demuestran que las técnicas de aprendizaje automático superan a las técnicas basadas en reglas a pesar del pequeño tamaño del corpus y de la heterogeneidad de los dominios que éste muestra, dejando todavía lugar para mejoras y desarrollo.This paper presents an automatic detector of the discourse central unit (CU) in scientific abstracts based on machine learning techniques. After segmenting a text in its elementary discourse units, the detection of the central unit is a crucial step on the way to robustly build discourse trees under the Rhetorical Structure Theory (RST). Besides, CU detection may also be useful in automatic summarization, question answering and sentiment analysis tasks. Results show that the CU detection using machine learning techniques for Basque scientific abstracts outperform rule based techniques, even on a small size corpus on different domains. This leads us to think that there is still room for improvement.Este trabajo ha sido financiado en parte por el siguiente proyecto: TIN2015-65308-C5-1-R (MINECO/FEDER)

    Aplicación del aprendizaje automático en la clasificación de textos cortos: un caso de estudio en el conflicto armado colombiano

    Get PDF
    Trabajo de investigaciónColombia lleva alrededor de 50 años en guerra y aunque se realizo un proceso de paz, las disputas continúan entre los diferentes actores, un medio en donde se desarrollan las disputas son las redes sociales, los diferentes actores expresan sus opiniones, existen diferentes técnicas y algoritmos que permiten procesar estos textos con la finalidad de que el gobierno Colombiano tenga claridad de como se encuentra el conflicto en la actualidad y como debe proceder de una manera eficiente.RESUMEN INTRODUCCIÓN 1. GENERALIDADES 2. ANTECEDENTES 3. PLANTEAMIENTO DEL PROBLEMA 4. OBJETIVOS 5. JUSTIFICACIÓN 6. DELIMIETACIÓN 7. MARCO REFERENCIAL 8. ESTADO DEL ARTE 9. METODOLOGIA 10. PLATAFORMAS 11. ENTORNOS 12. ALGORITMOS 13. HISTORIAS DE USUARIO 14. DESARROLLO DEL COMPONENTE 15. RESULTADOS 16. CONCLUSIONES 17. TRABAJO FUTURO BIBLIOGRAFÍA ANEXOSPregradoIngeniero de Sistema
    corecore