Age prediction of Spanish-speaking Twitter users

Abstract

Incluye bibliografía y anexos.Incluye archivos complementarios.La predicción de la edad en la red social Twitter surge como necesidad para el mejoramiento de herramientas como pueden ser el marketing online, así como para colaborar en la detección de pedofilia en la red social, identificando a los usuarios que fingen ser menores de edad mediante el uso de perfiles falsos. En el presente trabajo se analizan diferentes soluciones a este problema, prediciendo el rango de edad de una persona a partir de una colección de textos cortos escrita por la misma. Se analizan tres tipos de atributos: metadatos del usuario, atributos de estilometría sobre el texto de los tuits y atributos resultantes de la aplicación de técnicas de Procesamiento de Lenguaje Natural sobre tuits, así como listas de suscripción las cuales contienen información acerca de los intereses del usuario. También se incluyen una serie de atributos que modelan la vinculación del perfil de Twitter con otras redes sociales. Dichos atributos recolectados son posteriormente utilizados para entrenar los modelos de Aprendizaje Automático, con el fin de predecir la edad de los usuarios y así proceder a clasificarlos en los rangos etarios definidos. Finalmente se realizó una serie de experimentos con distintos set de datos y algoritmos. Los resultados experimentales muestran que los atributos extraídos constituyen un elemento muy útil a la hora de detectar la edad de los usuarios

    Similar works