research

Sistema de búsqueda y análisis basado en twitter

Abstract

Las redes sociales están en constante crecimiento y cada día son más los datos que producen. Esta enorme cantidad hace necesario la introducción de análisis automáticos ya que empresas y gobiernos no pueden emplear a personas suficientes para leer cada publicación en las redes en tiempo real. En concreto, Twitter, la red social que trataremos, con cerca de trescientos millones de usuarios activos y trescientos cincuenta millones de publicaciones al día, supone un reto añadido. En este Trabajo Fin de Grado se presenta una herramienta que unifica la búsqueda en la red social y el almacenamiento en local de datos recuperados junto con técnicas de clasificación automática basada en análisis de texto. Se ha intentado simplificar el acceso a los datos con una interfaz web, junto con una capa de abstracción en el entrenamiento de los clasificadores automáticos. El TFG se divide en dos herramientas principales: el demonio de tareas que se ha creado para automatizar la recuperación y clasificación de tweets, y la herramienta web que muestra las publicaciones con un análisis sencillo, ayuda a crear patrones de entrenamiento y programar las tareas en segundo plano. Se ha buscado minimizar el tiempo de espera para mejorar la experiencia de uso del usuario, suponiendo un reto de sincronización entre el servidor y la aplicación. Por último, se ha comprobado que el clasificador más óptimo es el perceptrón multicapa, que aunque es más lento en entrenamiento, obtiene menor error y a la vez es más rápido que otros clasificadores en tiempo de explotación.Social networks are constantly growing and every day they produce more data. This huge amount makes necessary the introduction of automatic analysis as companies and governments cannot employ enough staff to read each networks' publications in real-time. Specifically, Twitter, the social network that we discuss, with about three hundred million active users and three hundred fifty million posts per day, represents an additional challenge. In this Final Project we present a tool that unifies searching the social network and local storage of data retrieved with automatic classification techniques based on text analysis. We attempted to simplify the access to the data with a web interface, together with a layer of abstraction in training automatic classifiers. The TFG is divided into two main tools: the demon of tasks that has been created to automate the retrieval and classification of tweets, and the web tool that shows publications with a simple analysis, helps in creating training patterns and schedule tasks in the background. We tried to minimize the waiting time to improve the user's experience, confronting the challenge of synchronization between the server and the application. Finally, it was found that the optimal classifier is the Multilayer Perceptron, although it is slower in training, it gets less error and is faster than other classifiers while operating

    Similar works

    Full text

    thumbnail-image

    Available Versions