Detección de plagio translingüe utilizando una red semántica multilingüe

Franco Salvador, Marc

Detección de plagio translingüe utilizando una red semántica multilingüe

Authors: Marc Franco Salvador
Publication date: 24 November 2014
Publisher: 'Universitat Politecnica de Valencia'

Abstract

[EN] Plagiarism is defined as the unauthorized use of the original content of other authors. It is a difficult phenomenon to detect whose problem has worsened in recent years because of the Internet: a vast source of information that allows users to copy and take possession, very simply, of the original content of other authors work. Although plagiarism can be detected manually, given the large amount of content published, it is virtually impossible to carry out, even more if the source of plagiarism comes from documents in other languages. Currently, literature and science have strong interest in research and development of automatic monolingual and cross-language similarity detection systems, capable of detecting plagiarism among sections between documents. The Academic Community also benefits by such systems. It allows teachers to detect and discourage their students of the usual practice of copy and paste, without reference to its source, from original content obtained from Internet. In this thesis we describe the state-of-the-art in text plagiarism detection at monolingual and cross-language level. In addition, we study the use of a multilingual semantic network to create two cross-language plagiarism detection models: using a statistical dictionary, and using knowledge graphs as context models from document fragments. Experimental results are very promising. As future work, we define different research lines using knowledge graphs.[ES] El plagio es definido como el uso no autorizado del contenido original de la obra de otros autores. Es un fenómeno difícil de detectar cuyo problema se ha agravado en los últimos años a causa de Internet: una inmensa fuente de información que permite a los usuarios copiar y apropiarse, de forma muy sencilla, del contenido original de otros autores. Aunque el plagio se puede detectar de forma manual, dada la gran cantidad de contenidos que se publican, es una tarea prácticamente imposible de llevar a cabo, aún más si las fuentes de plagio vienen de documentos en otros idiomas. Actualmente existe un gran interés, dentro de la literatura y la ciencia, por investigar y desarrollar sistemas de detección de similitud a nivel monolingüe y translingüe que sean capaces de detectar de forma automática las secciones de plagio entre documentos. La comunidad académica también se ve beneficiada por dichos sistemas, ya que permite la detección y disuasión por parte de los profesores hacia su alumnado, de las prácticas habituales de copiar y pegar, sin referencia alguna a la fuente de procedencia, de contenidos originales obtenidos de la Web. En la presente tesis describimos el estado del arte en materia de detección de plagio textual a nivel monolingüe y translingüe. Además, se estudia la utilización de una red semántica multilingüe para crear dos modelos de detección de plagio translingüe: utilizando un diccionario estadístico, y mediante grafos de conocimiento a modo de modelos de contexto para modelar fragmentos de documento. Los resultados experimentales resultan muy prometedores. Como trabajos futuros, se definen diferentes líneas de investigación haciendo uso de grafos de conocimiento.Franco Salvador, M. (2013). Detección de plagio translingüe utilizando una red semántica multilingüe. http://hdl.handle.net/10251/44658Archivo delegad

Similar works

Full text

Available Versions

RiuNet

oai:riunet.upv.es:10251/44658

Last time updated on 25/12/2019

RiuNet

oai:riunet.upv.es:10251/44658

Last time updated on 04/02/2021