Detección de linguaxe misóxino e xenófobo en redes sociais mediante aprendizaxe máquina


[Resumo] Co incremento do uso das redes sociais, xurde a necesidade de ter todo máis controlado para evitar casos de abuso verbal, discriminación, acoso… Twitter é unha rede social que funciona mediante o envío posts de usuarios, e na que xorden moitos debates e discusións, polo que é bastante habitual ver este tipo de problemáticas. O obxectivo principal deste traballo é a clasificación de posts de Twitter, para comprobar se conteñen linguaxe despectivo ou expresións de odio cara as mulleres e inmigrantes. Para isto empréganse técnicas de machine learning seguindo a metodoloxía CRISP-DM, a cal consta de 6 fases. Seguindo as fases desta metodoloxía, analízase e compréndese o dataset que contén os datos, para posteriormente poder obter as características que emprega o algoritmo de Random Forest para a creación do modelo. Para validar este modelo empréganse varios métodos de validación, co fin de obter o modelo que presente mellores resultados. Despois de todo este proceso e axustar o modelo o mellor posible, chegamos a unha das últimas fases, a avaliación, na cal se aplican distintas métricas para obter os resultados. Cabe destacar que o mellor resultado que se acada é un 78.16% para a métrica de precisión, mellorando ata un 13.16% as precisións obtidas no estado do arte.[Abstract] With the increase in the use of social networks, the need airises to have everything more controlled to avoid cases of verbal abuse, discrimination, harassment… Twitter is a social network that works by sending user posts, and in which many debates an discussions, so it is quite common to see such problems. The main objective of this work is the classification of Twitter posts, to check if they contain derogatory language or expressions of hatred towards women and immigrants. For this, machine learning techniques are used following the CRISP-DM methodology, which consists of 6 phases. Following the phases of this methodology, the dataset containing the data is analyzed and understood, in order to subsequently be able to obtain the characteristics used by the Random Forest algorithm for the creation of the model. To validate this model several validation methods are used in order to obtain the model that presents better results. After all this process and adjusting the model as best as possible, we come to one of the last phases, the evaluation, in which different metrics are applied to get the results. It is worth noting that the best result is 78.16% for the precision metric, improving the accuracy obtained in the state of the art to 13.16%.Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/202

