Search CORE

2 research outputs found

Sistema para categorización de textos en un ámbito nicho con pocos datos etiquetados

Author: Escribano Pérez Miguel
Gracia del Río Jorge Carlos
Rodríguez Fernández Ricardo Julio
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2021
Field of study

El incremento exponencial de la generación de contenido en Internet ha obligado a automatizar tareasde gestión que antes eran realizadas por humanos, lo cual ha impulsado un gran desarrollo de lastécnicas de Inteligencia Artificial. Estas nuevas herramientas pueden ser de ayuda a la hora de moderarcontenidos peligrosos difundidos en redes sociales, como la apología de los trastornos alimenticios.En este trabajo se colabora con la Fundación APE para implementar un clasificador de texto quedetecte la promoción de la anorexia y la bulimia en mensajes de Twitter. Dicho clasificador seráintegrado en un software de seguimiento de interacciones en redes sociales para monitorizar en tiemporeal la difusión de estos contenidos. El objetivo principal de este trabajo es estudiar las herramientas decódigo abierto disponibles más relevantes para dicha tarea de clasificación de textos y compararlas enel contexto concreto que nos ocupa (detección de mensajes promotores de trastornos alimenticios).Adicionalmente, se ha generado un corpus de textos etiquetados como promotores o no promotoresde trastornos alimenticios expandiendo un corpus preexistente con mensajes recolectados de Internet.Con él se han entrenado clasificadores de texto basados en cinco herramientas de procesamiento dellenguaje natural distintas, FastText, SpaCy, Transformers, Custom_BoW y Custom_TF-IDF. Estasdos últimas han sido implementadas manualmente como baseline de la comparativa. Además, se hanaplicado distintas formas de preprocesado de texto, incluido un corrector ortográfico propio, parareducir el ruido en las muestras.Los resultados obtenidos muestran una clara superioridad de las herramientas Transformers y FastText,que han superado el 0.95 de F1-score, siendo mejores que los logrados por los otros clasificadoresestudiados. En concreto, FastText se considera el modelo más adecuado en este caso de estudio porsu excelente equilibrio entre rápido tiempo de respuesta y calidad del clasificado. Los resultados másconsistentes se han logrado con técnicas de preprocesado de textos poco intrusivas y se desaconseja eluso de correctores ortográficos por su impacto en el tiempo de respuesta, que no resulta en mejorasnotables en la calidad de los resultados.Como conclusión de este trabajo, se ha comprobado que es viable categorizar texto en lenguaje naturalcon un corpus reducido de ejemplos, sin hardware dedicado ni conocimiento extenso de InteligenciaArtificial. Trabajos futuros deben abordar cómo mejorar la calidad de etiquetado de los corpus dedatos generados, investigar si los resultados obtenidos son similares en otros casos de clasificación detexto, y estudiar el uso de Machine Learning as a Service, como en el caso de OpenAI con GPT-3.<br /

Repositorio Universidad de Zaragoza

Enhanced word embeddings for anorexia nervosa detection on social media

Author: A Arseniev
DE Losada
M Mowafy
NV Chawla
P Bojanowski
S Kuang
SC Guntuku
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2020
Field of study

Comunicació presentada a: The18th International Symposium on Intelligent Data Analysis, IDA 2020, celebrat del 27 al 29 d'abril de 2020 a Konstanz, Alemanya.Anorexia Nervosa (AN) is a serious mental disorder that has been proved to be traceable on social media through the analysis of users’ written posts. Here we present an approach to generate word embeddings enhanced for a classification task dedicated to the detection of Reddit users with AN. Our method extends Word2vec’s objective function in order to put closer domain-specific and semantically related words. The approach is evaluated through the calculation of an average similarity measure, and via the usage of the embeddings generated as features for the AN screening task. The results show that our method outperforms the usage of fine-tuned pre-learned word embeddings, related methods dedicated to generate domain adapted embeddings, as well as representations learned on the training set using Word2vec. This method can potentially be applied and evaluated on similar tasks that can be formalized as document categorization problems. Regarding our use case, we believe that this approach can contribute to the development of proper automated detection tools to alert and assist clinicians.This work was supported by the University of Lyon - IDEXLYON and the Spanish Ministry of Economy and Competitiveness under the Maria de Maeztu Units of Excellence Program (MDM-2015-0502)

Crossref

HAL-UJM

UPF Digital Repository