Search CORE

16 research outputs found

Hybrid Approach Combining Machine Learning and a Rule-Based Expert System for Text Categorization

Author: Collada Pérez Sonia
González Cristóbal José Carlos
Lana Serrano Sara
Villena Román Julio
Publication venue: E.U.I.T. Telecomunicación (UPM)
Publication date: 01/01/2011
Field of study

This paper discusses a novel hybrid approach for text categorization that combines a machine learning algorithm, which provides a base model trained with a labeled corpus, with a rule-based expert system, which is used to improve the results provided by the previous classifier, by filtering false positives and dealing with false negatives. The main advantage is that the system can be easily fine-tuned by adding specific rules for those noisy or conflicting categories that have not been successfully trained. We also describe an implementation based on k-Nearest Neighbor and a simple rule language to express lists of positive, negative and relevant (multiword) terms appearing in the input text. The system is evaluated in several scenarios, including the popular Reuters-21578 news corpus for comparison to other approaches, and categorization using IPTC metadata, EUROVOC thesaurus and others. Results show that this approach achieves a precision that is comparable to top ranked methods, with the added value that it does not require a demanding human expert workload to trai

Archivo Digital UPM

TweetAlert: Sistema de análisis semántico de la voz de los ciudadanos en redes sociales en la ciudad del futuro

Author: González Cristóbal José Carlos
Luna Cobos Adrián
Villena Román Julio
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2014
Field of study

Archivo Digital UPM

track-It! Real-Time Reputation Analysis System

Author: García Morera Janine
González Cristóbal José Carlos
Villena Román Julio
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2014
Field of study

Este artículo presenta un sistema automático para recoger, almacenar, analizar y visualizar de manera agregada información publicada en medios de comunicación sobre ciertas organizaciones junto con las opiniones expresadas sobre ellas por usuarios en redes sociales. Este sistema permite automatizar la elaboración de un análisis de reputación completo y detallado, según diferentes dimensiones y en tiempo real, permitiendo que una organización pueda conocer su posición en el mercado, medir su evolución, compararse con sus competidores, y detectar lo más rápidamente posible situaciones problemáticas para ser capaces de tomar medidas correctoras.This paper presents an automatic system to collect, store, analyze and display aggregated information published in mass media related to certain organizations together with user opinions about them expressed in social networks. This system automates the production of a complete, detailed reputation analysis, in real time and according to different dimensions, allowing organizations to know their position in the market, measure their evolution, benchmark against their competitors, and detect trouble situations to be able to take early corrective actions.Este trabajo ha sido financiado por los proyectos Ciudad2020: Hacia un nuevo modelo de ciudad inteligente sostenible (INNPRONTA IPT-20111006) y MA2VICMR: Mejorando el Acceso, el Análisis y la Visibilidad de la Información y los Contenidos Multilingüe y Multimedia en Red para la Comunidad de Madrid (S2009/TIC-1542)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Track-It! Sistema de análisis de reputación en tiempo real

Author: García Morera Janine
González Cristóbal José Carlos
Villena Román Julio
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2014
Field of study

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Archivo Digital UPM

DAEDALUS at RepLab 2014: Detecting RepTrak reputation dimensions on tweets

Author: García Morera Janine
González Cristóbal José Carlos
Pablo Sánchez César de
Villena Román Julio
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2014
Field of study

This paper describes our participation at the RepLab 2014 reputation dimensions scenario. Our idea was to evaluate the best combination strategy of a machine learning classifier with a rule-based algorithm based on logical expressions of terms. Results show that our baseline experiment using just Naive Bayes Multinomial with a term vector model representation of the tweet text is ranked second among runs from all participants in terms of accuracy

CiteSeerX

Archivo Digital UPM

DAEDALUS at PAN 2014: Guessing tweet author's gender and age

Author: González Cristóbal José Carlos
Villena Román Julio
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2014
Field of study

This paper describes our participation at PAN 2014 author profiling task. Our idea was to define, develop and evaluate a simple machine learning classifier able to guess the gender and the age of a given user based on his/her texts, which could become part of the solution portfolio of the company. We were interested in finding not the best possible classifier that achieves the highest accuracy, but to find the optimum balance between performance and throughput using the most simple strategy and less dependent of external systems. Results show that our software using Naive Bayes Multinomial with a term vector model representation of the text is ranked quite well among the rest of participants in terms of accuracy

Archivo Digital UPM

Análisis semántico de la opinión de los ciudadanos en redes sociales en la ciudad del futuro

Author: González Cristóbal José Carlos
Luna Cobos Adrián
Villena Román Julio
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2014
Field of study

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Archivo Digital UPM

Opinion Mining in Social Networks using Semantic Analytics in the City of the Future

Author: González Cristóbal José Carlos
Luna Cobos Adrián
Villena Román Julio
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2014
Field of study

En este artículo se presenta un sistema automático de almacenamiento, análisis y visualización de información semántica extraída de mensajes de Twitter, diseñado para proporcionar a las administraciones públicas una herramienta para analizar de una manera sencilla y rápida los patrones de comportamiento de los ciudadanos, su opinión acerca de los servicios públicos, la percepción de la ciudad, los eventos de interés, etc. Además, puede usarse como sistema de alerta temprana, mejorando la rapidez de actuación de los servicios de emergencia.In this paper, a real-time analysis system to automatically record, analyze and visualize high level aggregated information of Twitter messages is described, designed to provide public administrations with a powerful tool to easily understand what the citizen behaviour trends are, their opinion about city services, their perception of the city, events of interest, etc. Moreover, it can used as a primary alert system to improve emergency services.Este trabajo ha sido financiado parcialmente por el proyecto Ciudad2020: Hacia un nuevo modelo de ciudad inteligente sostenible (INNPRONTA IPT-20111006)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Hybrid approach combining statistical and rule-based models for the automated indexing of bibliographic metadata in the area of planning and building construction

Author: Busch Dimitri
Publication venue
Publication date: 04/10/2017
Field of study

KITopen

Generación automática de reglas de categorización de texto en un método híbrido basado en aprendizaje

Author: Collada Pérez Sonia
González Cristóbal José Carlos
Lana Serrano Sara
Villena Román Julio
Publication venue: E.U.I.T. Telecomunicación (UPM)
Publication date: 01/01/2011
Field of study

En este artículo se evalúan diferentes técnicas para la generación automática de reglas que se emplean en un método híbrido de categorización automática de texto. Este método combina un algoritmo de aprendizaje computacional con diferentes sistemas basados en reglas en cascada empleados para el filtrado y reordenación de los resultados proporcionados por dicho modelo base. Aquí se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. Para la evaluación se utiliza el corpus de noticias Reuters-21578. Los resultados demuestran que los métodos de generación de reglas propuestos producen resultados muy próximos a los obtenidos con la aplicación de reglas generadas manualmente y que el sistema híbrido propuesto obtiene una precisión y cobertura comparables a la de los mejores métodos del estado del arte

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Archivo Digital UPM