Sistema de clasificación automática sobre streams de tweets

Godino Martínez, Alberto

thesis

Sistema de clasificación automática sobre streams de tweets

Authors: Alberto Godino Martínez
Publication date: 1 January 2014
Publisher

Abstract

El crecimiento de la red Social Twitter desde su aparición en el año 2006 ha sido sorprendente. En la actualidad millones de tweets son escritos y publicados al día, desde cualquier país y en cualquier idioma. El poder detectar los temas más populares (trending topics) de entre todos estos tweets nos permite conocer qué está ocurriendo en cualquier lugar del mundo, instantáneamente. De este modo, Twitter se ha convertido en una de las fuentes de información más poderosas. El presente Proyecto de Fin de Carrera tiene como objetivo conocer la importancia que están adquiriendo las técnicas de data mining (conjunto de técnicas que permiten extraer información relevante y desconocida de manera automática dentro de grandes volúmenes de información), estudiar en profundidad algunas de las técnicas de clasificación automática supervisadas y no supervisadas más importantes y finalmente diseñar, desarrollar y estudiar un clasificador automático de textos que haga uso de algoritmos diferentes pertenecientes al campo de aprendizaje no supervisado. Dicho clasificador se aplicará sobre una colección de miles de tweets con el objetivo de encontrar los temas más importantes o trending topics de dicha colección. Por último, se compararán las prestaciones de cada algoritmo utilizado en el desarrollo del clasificador. El sistema empleado se basa fundamentalmente en encontrar el grado de similitud entre los tweets tras procesarlos usando técnicas propias del Procesamiento del Lenguaje Natural para posteriormente y usando dos algoritmos de clustering diferentes (KMeans y DBSCAN) obtener la clasificación. El conseguir un sistema automático de clasificación para esta tarea es muy importante puesto que evitará la intervención humana y hará factible el procesamiento de la inmensa cantidad de información que la red social Twitter genera a diario.Since Twitter appeared in 2006, it has experienced a huge growth. Today millions of tweets are written and posted every day. Detecting trending topics allow us to know what is happening everywhere. This makes Twitter one of the most powerful sources of information. The aim of this final project is to know the increasing importance of data mining techniques, study deeply some of the automatic classification techniques and finally design, develop and study an automatic classifier based on two different algorithms in order to find the trending topics over thousands of tweets. The developed system relies on finding the similarity between tweets which previously were preprocessed using Natural Language Processing techniques and finally the classification will be got thanks to two different algorithms (DBSCAN and KMeans). Getting an automatic classification, specifically for this task, is very important because it will make things easier and faster and it will avoid the problems that could appear because of the human interaction. With this project, different techniques will be studied, compared and checked, getting a better understanding in that way in Artificial Intelligence concepts, specifically in the Automatic classification and Natural Language Processing issues.Ingeniería de Telecomunicació