5 research outputs found

    Método híbrido para categorización de texto basado en aprendizaje y reglas

    Get PDF
    En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte

    Método híbrido para categorización de texto basado en aprendizaje y reglas

    Get PDF
    En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte

    DAEDALUS at RepLab 2014: Detecting RepTrak reputation dimensions on tweets

    Get PDF
    This paper describes our participation at the RepLab 2014 reputation dimensions scenario. Our idea was to evaluate the best combination strategy of a machine learning classifier with a rule-based algorithm based on logical expressions of terms. Results show that our baseline experiment using just Naive Bayes Multinomial with a term vector model representation of the tweet text is ranked second among runs from all participants in terms of accuracy

    DAEDALUS at PAN 2014: Guessing tweet author's gender and age

    Get PDF
    This paper describes our participation at PAN 2014 author profiling task. Our idea was to define, develop and evaluate a simple machine learning classifier able to guess the gender and the age of a given user based on his/her texts, which could become part of the solution portfolio of the company. We were interested in finding not the best possible classifier that achieves the highest accuracy, but to find the optimum balance between performance and throughput using the most simple strategy and less dependent of external systems. Results show that our software using Naive Bayes Multinomial with a term vector model representation of the text is ranked quite well among the rest of participants in terms of accuracy

    Aprendizaje automático aplicado al análisis de sentimientos

    Get PDF
    With the evolution of the Internet, there is a large amount of information present on the web such as the opinions of users or consumers about different contexts, either to express their agreement or disagreement about a product or service received, as well as the opinion of a item purchased or about the management performed by someone. Due to the large number of opinions, comments and suggestions from users, it is very important to explore, analyze and organize their views to make better decisions. Sentiment analysis is a natural language processing and information extraction task that identifies the opinions of the users explained in the form of positive, negative or neutral comments. Several techniques can be used for this purpose, for example the use of lexical dictionaries that has been widely used and recently the use of artificial intelligence specifically supervised algorithms. In this document, we propose the use of supervised algorithm techniques to observe their use and see the performance of different models of supervised algorithms to measure the effectiveness in the classification of a data set.Con la evolución del Internet, hay una gran cantidad de información presente en la web como lo son las opiniones de los usuarios o  consumidores sobre diversos contextos ya sea para expresar su conformidad o inconformidad sobre un producto o servicio recibido, así como la opinión de un artículo comprado o sobre la gestión que realiza alguna persona. Debido a la gran cantidad de opiniones, comentarios y sugerencias de los usuarios, es muy importante explorar, analizar y organizar sus puntos de vista para tomar mejores decisiones. El análisis de sentimientos es una tarea de procesamiento de lenguaje natural y extracción de información que identifica las opiniones de los usuarios explicadas en forma de comentarios positivos, negativos o neutrales. Varias técnicas pueden ser utilizadas para este fin, por ejemplo el uso de diccionarios léxicos que ha sido muy utilizada y recientemente la utilización de la inteligencia artificial específicamente algoritmos supervisados. En este documento, se propone la utilización de técnicas de algoritmos supervisados para observar su utilización y ver el rendimiento de diferentes modelos de algoritmos supervisados para medir la efectividad en la clasificación de un conjunto de datos
    corecore