Similarités Textuelles Sémantiques Translingues : vers la Détection Automatique du Plagiat par Traduction

Ferrero, Jérémy

Similarités Textuelles Sémantiques Translingues : vers la Détection Automatique du Plagiat par Traduction

Authors: Jérémy Ferrero
Publication date: 8 December 2017
Publisher: HAL CCSD

Abstract

The massive amount of documents through the Internet (e.g. web pages, data warehouses anddigital or transcribed texts) makes easier the recycling of ideas. Unfortunately, this phenomenonis accompanied by an increase of plagiarism cases. Indeed, claim ownership of content, withoutthe consent of its author and without crediting its source, and present it as new and original, isconsidered as plagiarism. In addition, the expansion of the Internet, which facilitates access todocuments throughout the world (written in foreign languages) as well as increasingly efficient(and freely available) machine translation tools, contribute to spread a new kind of plagiarism:cross-language plagiarism. Cross-language plagiarism means plagiarism by translation, i.e. a texthas been plagiarized while being translated (manually or automatically) from its original languageinto the language of the document in which the plagiarist wishes to include it. While prevention ofplagiarism is an active field of research and development, it covers mostly monolingual comparisontechniques. This thesis is a joint work between an academic laboratory (LIG) and Compilatio (asoftware publishing company of solutions for plagiarism detection), and proposes cross-lingualsemantic textual similarity measures, which is an important sub-task of cross-language plagiarismdetection.After defining the plagiarism and the different concepts discussed during this thesis, wepresent a state-of-the-art of the different cross-language plagiarism detection approaches. Wealso present the preexisting corpora for cross-language plagiarism detection and show their limits.Then we describe how we have gathered and built a new dataset, which does not contain mostof the limits encountered by the preexisting corpora. Using this new dataset, we conduct arigorous evaluation of several state-of-the-art methods and discover that they behave differentlyaccording to certain characteristics of the texts on which they operate. We next present newmethods for measuring cross-lingual semantic textual similarities based on word embeddings.We also propose a notion of morphosyntactic and frequency weighting of words, which can beused both within a vector and within a bag-of-words, and we show that its introduction inthe new methods increases their respective performance. Then we test different fusion systems(mostly based on linear regression). Our experiments show that we obtain better results thanthe state-of-the-art in all the sub-corpora studied. We conclude by presenting and discussingthe results of these methods obtained during our participation to the cross-lingual SemanticTextual Similarity (STS) task of SemEval-2017, where we ranked 1st on the sub-task that bestcorresponds to Compilatio’s use-case scenario.La mise à disposition massive de documents via Internet (pages Web, entrepôts de données,documents numériques, numérisés ou retranscrits, etc.) rend de plus en plus aisée la récupérationd’idées. Malheureusement, ce phénomène s’accompagne d’une augmentation des cas de plagiat.En effet, s’approprier du contenu, peu importe sa forme, sans le consentement de son auteur (oude ses ayants droit) et sans citer ses sources, dans le but de le présenter comme sa propre oeuvreou création est considéré comme plagiat. De plus, ces dernières années, l’expansion d’Internet aégalement facilité l’accès à des documents du monde entier (écrits dans des langues étrangères)et à des outils de traduction automatique de plus en plus performants, accentuant ainsi la progressiond’un nouveau type de plagiat : le plagiat translingue. Ce plagiat implique l’empruntd’un texte tout en le traduisant (manuellement ou automatiquement) de sa langue originale versla langue du document dans lequel le plagiaire veut l’inclure. De nos jours, la prévention duplagiat commence à porter ses fruits, grâce notamment à des logiciels anti-plagiat performantsqui reposent sur des techniques de comparaison monolingue déjà bien éprouvées. Néanmoins, cesderniers ne traitent pas encore de manière efficace les cas translingues. Cette thèse est née dubesoin de Compilatio, une société d’édition de l’un de ces logiciels anti-plagiat, de mesurer dessimilarités textuelles sémantiques translingues (sous-tâche de la détection du plagiat).Après avoir défini le plagiat et les différents concepts abordés au cours de cette thèse, nousétablissons un état de l’art des différentes approches de détection du plagiat translingue. Nousprésentons également les différents corpus déjà existants pour la détection du plagiat translingueet exposons les limites qu’ils peuvent rencontrer lors d’une évaluation de méthodes de détectiondu plagiat translingue. Nous présentons ensuite le corpus que nous avons constitué et qui ne possèdepas la plupart des limites rencontrées par les différents corpus déjà existants. Nous menons,à l’aide de ce nouveau corpus, une évaluation de plusieurs méthodes de l’état de l’art et découvronsque ces dernières se comportent différemment en fonction de certaines caractéristiques destextes sur lesquelles elles opèrent. Ensuite, nous présentons des nouvelles méthodes de mesure desimilarités textuelles sémantiques translingues basées sur des représentations continues de mots(word embeddings). Nous proposons également une notion de pondération morphosyntaxique etfréquentielle de mots, qui peut aussi bien être utilisée au sein d’un vecteur qu’au sein d’un sac demots, et nous montrons que son introduction dans ces nouvelles méthodes augmente leurs performancesrespectives. Nous testons ensuite différents systèmes de fusion et combinaison entredifférentes méthodes et étudions les performances, sur notre corpus, de ces méthodes et fusions enles comparant à celles des méthodes de l’état de l’art. Nous obtenons ainsi de meilleurs résultatsque l’état de l’art dans la totalité des sous-corpus étudiés. Nous terminons en présentant et discutantles résultats de ces méthodes lors de notre participation à la tâche de similarité textuellesémantique (STS) translingue de la campagne d’évaluation SemEval 2017, où nous nous sommesclassés 1er à la sous-tâche correspondant le plus au scénario industriel de Compilatio

Similar works

Full text

Hal - Université Grenoble Alpes

oai:HAL:tel-01721390v1

Last time updated on 17/04/2018

This paper was published in Hal - Université Grenoble Alpes.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.