Desenvolvendo um classificador de clickbait para tweets com word embeddings

Abstract

TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Sistemas de Informação.Clickbaits são uma forma de título de notícia vago, porém intrigante, com objetivo de fazer o leitor clicar na notícia e acessar algum site. Com a propagação recente deste tipo de manchete, uma busca por uma maneira automática de detecta-los vem se tornando cada vez mais relevante. A tarefa compartilhada Clickbait Challenge ajudou a avançar os estudos desta área, com diversos trabalhos competindo para obter os melhores resultados para um conjunto de dados fornecido. Em um desses, foram utilizados word embeddings para realizar a classificação. Este TCC faz um estudo de propostas para classificação de clickbaits e propõe melhorias no trabalho do Clickbait Challenge que usa word embedding, usando Short Semantic Patterns num modelo de machine learining treinado com regressão linear. Nosso modelo atinge um F1 score de 0,793, melhor que o modelo base, e tem um erro médio quadrático de 0,113, melhor que o modelo base sobre a mesmo subconjunto de dados utilizados. Em conclusão, o modelo descrito neste trabalho comprova que características (features) extraídas mediante análise semântica, tais como padrões SSP, contribuem para a melhoria dos resultados do classificador de clickbaitsClickbaits are a type of headlines that are empty but intriguing, with the objective of making the reader click on the article and access some website. With the recent propagation of this headlines, a search for some way of identifying them has been becoming more relevant. The shared task of the Clickbait challenge has helped advance the studies on this area, with many works competing to obtain the best results for a data set provided. In one of those, word embeddings are utilized to make the classifier. This thesis studies proposals for clickbait classification and proposes improvements on the Clickbait Challenge work that uses word embeddings, using the text's semantics on a machine learning model trained with linear regression. Our model reached a F1 Score of 0,793, better than the base model, and has a MSE of 0,113, better than the base model over the same subset of data. In conclusion, the model described in this work proves that features extracted from semantic analysis, like SSP patterns, contribute to the improvement of results of clickbait classifiers

    Similar works