Lie-o-matic: using natural language processing to detect contradictory statements

Abstract

A Era da Informação trouxe consigo a digitalização de dados e, consequentemente, um rápido, e com maior alcance, fluxo de informação e produção da mesma. Pessoas como jornalistas têm dificuldade em lidar com a crescente divulgação de dados e em monitorar e aprovar a informação propagada, que poderá estar corrompida (conter mentiras, inconsistências, contradições, etc.). Considerando este problema atual e a constante evolução em técnicas de processamento de linguagem natural e \textit{"machine learning"}, estamos interessados em tirar vantagens desses recentes desenvolvimentos para atacar o caso específico de deteção de contradições em texto. Esta dissertação investiga o efeito de vários conjuntos de dados, de diferentes domínios e tarefas (como contradições em diferentes contextos ou argumentos de suporte e ataque), no desempenho da aprendizagem de um modelo de classificação de aprendizagem supervisionada. Assim, nós abordamos o problema como uma tarefa de classificação binária, afinando uma tarefa de classificação de pares de frases, desenvolvida sob um modelo BERT pré-treinado, para depois executarmos previsões de se dois textos são contraditórios ou não. Estudos em deteção de contradições têm-se focado mais em distinguir antónimos e palavras contrastantes. Tanto quanto é do nosso conhecimento, nenhuma investigação sistemática alguma vez considerou \textit{"transfer learning"} (transferência de conhecimento) para a tarefa de detetar contradições. Para ilustrarmos a nossa ideia, contradições no domínio político foram usadas com caso de estudo. Como estamos a testar transferência de conhecimento, conduzimos experiências usando como domínio de tarefa de origem dados retirados de quatro corpos disponíveis ao público: MultiNLI, US2016, Argumentative Microtext e Argument Annotated Essays. Para o domínio alvo, criamos dois conjuntos de dados contendo pares de contradições provenientes de duas origens diferentes, um artigo online expondo aclamações contraditórias do Donald Trump e o corpo MultiNLI (mas só os exemplos do género governamental). Para avaliar as experiências guiadas, medimos o desempenho da classificação maioritariamente a partir de análises à curva característica de operação (curva ROC) e à curva de Precisão-Abrangência. Os resultados dos estudos respondem à pergunta de estudo de que, de facto, outros conjuntos de dados podem ser usados para melhorar o desempenho da aprendizagem de um modelo de inferência sobre uma tarefa alvo, embora os resultados não serem significantes o suficiente para assegurarmos firmemente a consistência e confiança dos mesmos. Os resultados dão ideias de que tipo de relações entre documentos se deve priorizar caso se recorra a transferência de conhecimento para detetar contradições. Nós concluímos que o tipo de tarefa, o contexto e os padrões de linguagem (marcas linguísticas características do discurso de uma pessoa) têm um maior impacto e, por isso, podem ser uteis quando diferentes dados contêm semelhanças a nível destes três fatores. Não obstante, no nosso estudo enfrentamos limitações, como a falta de robustez no conjunto de dados para teste construído a partir das contradições do Donald Trump, porque não recorremos a anotadores profissionais, e o facto de os resultados de classificação alcançados já serem muito bons apenas usando o conjunto de dados alvo para treino e teste, o que nos deixa com pouca margem para melhorias.The Information age brought the digitization of data, and, consequently, a faster and wider flow and production of information. People, such as journalists, struggle to cope with the increasing data disclosure and to monitor and verify the spread information, that might be corrupted (containing lies, inconsistencies, contradictions, etc.). Considering this current problem and the constant evolution in Natural Language Processing (NLP) techniques and machine learning, we are interested in taking advantage of those recent developments to tackle the specific NLP task of detecting contradictions in text. This dissertation investigates the effect of various datasets, from different domains and tasks (like contradictions in a different context or arguments of support and attack), on the learning performance of a supervised learning classification model for detecting contradictions. Hence, we address the problem as a binary classification task, fine-tuning a sentence-pair classification task, built on top of a pre-trained BERT model, to later run prediction of if two texts are contradictory or not. Literature on contradiction detection has focused almost on separating antonyms and contrasting words. To the best of our knowledge, no systematic investigation has considered transfer learning for the task of contradiction detection. To illustrate this idea, contradictions in a political domain were used as a case study. Since we are testing transfer learning, we conducted experiments using as source task domain data collected from four publicly available corpora: MultiNLI, US2016, Argumentative Microtext, and Argument Annotated Essays. Then, for target domain, we built two datasets containing pairs of contradictions from two different sources, an online article exposing Donald Trump contradictory claims, and MultiNLI corpus (but only instances of government genre). To evaluate the conducted experiments, we measure classification performances mainly through ROC and Precision-Recall curves analysis. The findings from the research answer our research question that, indeed, other datasets can be used to boost an inference model learning performance on a target task, although the results are not too significant to strongly assure the consistency and reliability of our findings. The findings offer insights into what kind of relationship between documents one should focus on when resorting to transfer learning for detection of contradictions. We conclude that the domain's task, context and language patterns (linguistic markers characteristic of a person speech), have a bigger impact and, thus, can be helpful if different data contains similarities in these three factors. Nonetheless, we faced some limitations in our research, such as the lack of robustness in the testing dataset built from Donald Trump contradictions, because of missing professional annotators for that task, and the already great classification results when only using the target domain for training and testing, leading to a small margin for improvements

    Similar works