Fake news classification in European Portuguese language

Abstract

All over the world, many initiatives have been taken to fight fake news. Governments (e.g., France, Germany, United Kingdom and Spain), on their own way, started to take actions regarding legal accountability for those who manufacture or propagate fake news. Different media outlets have also taken plenty initiatives to deal with this phenomenon, such as the increase of the discipline, accuracy and transparency of publications made internally. Some structural changes have been made in those companies and in other entities in order to evaluate news in general. Many teams were built entirely to fight fake news, the so-called “fact-checkers”. Those teams have been adopting different types of techniques in order to do those tasks: from the typical use of journalists, to find out the true behind a controversial statement, to data-scientists, in order to apply forefront techniques such as text mining, and machine learning to support journalist’s decisions. Many of those entities, which aim to maintain or rise their reputation, started to focus on high standards of quality and reliable information, which led to the creation of official and dedicated departments of fact-checking. In the first part of this work, we contextualize European Portuguese language regarding fake news detection and classification, against the current state-of-the-art. Then, we present an end-to-end solution to easily extract and store previously classified European Portuguese news. We used the extracted data to apply some of the most used text minning and machine learning techniques, presented in the current state-of-the-art, in order to understand and evaluate possible limitations of those techniques, in this specific context.Um pouco por todo o mundo foram tomadas várias iniciativas para combater fake news. Muitos governos (França, Alemanha, Reino Unido e Espanha, por exemplo), à sua maneira, começaram a tomar medidas relativamente à responsabilidade legal para aqueles que fabricam ou propagam notícias falsas. Foram feitas algumas mudanças estruturais nos meios de comunicação sociais, a fim de avaliar as notícias em geral. Muitas equipas foram construídas inteiramente para combater fake news, mais especificamente, os denominados "fact-checkers". Essas equipas têm vindo a adotar diferentes tipos de técnicas para realizar as suas tarefas: desde o uso dos jornalistas para descobrir a verdade por detrás de uma declaração controversa, até aos cientistas de dados, que através de técnicas mais avançadas como as técnicas de Text Minning e métodos de classificação de Machine Learning, apoiam as decisões dos jornalistas. Muitas das entidades que visam manter ou aumentar a sua reputação, começaram a concentrar-se em elevados padrões de qualidade e informação fiável, o que levou à criação de departamentos oficiais e dedicados de verificação de factos. Na primeira parte deste trabalho, contextualizamos o Português Europeu no âmbito da detecção e classificação de notícias falsas, fazendo um levantamento do seu actual estado da arte. De seguida, apresentamos uma solução end-to-end que permite facilmente extrair e armazenar notícias portuguesas europeias previamente classificadas. Utilizando os dados extraídos aplicámos algumas das técnicas de Text Minning e de Machine Learning mais utilizadas, apresentadas na literatura, a fim de compreender e avaliar as possíveis limitações dessas técnicas, neste contexto em específic

    Similar works