Detection of translingual plagiarism with semantic graphs: experimenting with open resources


Hoy en día el idioma ha dejado de ser una barrera para plagiar documentos disponibles en Internet. Tras enfoques probabilísticos ya clásicos que no alcanzan buenos resultados con documentos multilingües con paráfrasis (Barrón-Cedeño, 2012), aparecen trabajos que, utilizando grafos de conocimiento, aumentan la capacidad semántica del análisis de las oraciones y mejoran los resultados de detección de plagio. Además, actualmente hay recursos lingüísticos, basados en el conocimiento, o de desarrollo de software que están disponibles para la experimentación, una vez decidido cuál de ellos elegir, cuáles están realmente disponibles en abierto, qué eficiencia aportan si se integran en la experimentación planteada, o qué tipo de características debe tener el ordenador o el servidor necesario para la investigación. Este trabajo plantea una investigación experimental para la detección de plagio translingüe siguiendo una línea de investigación y utilizando recursos disponibles en abierto. Los resultados alcanzan el estado del arte, y esperamos que el planteamiento seguido, el análisis justificado y las dificultades técnicas reportadas, acercará a los lectores la metodología necesaria en este tipo de experimentaciones y permitirá planificar sus trabajos futuros. El software desarrollado está disponible en abierto.Today the language has ceased to be a barrier to plagiarize documents available on the Internet. After classic probabilistic approaches that do not achieve good results with multilingual documents with paraphrasing (Barrón-Cedeño, 2012), there are works that, using knowledge graphs, increase the semantic ability in the analysis of sentences and improve the results of plagiarism detection. In addition, currently in linguistic engineering there are linguistic or knowledge-based resources, or software development resources that are available to experimentation once decided, which ones to choose, which ones are available, what efficiency they provide if they are integrated into the proposed experimentation, or what kind of features the computer or server should have to the investigation. This work proposes an experimental investigation into a concrete problem, the detection of translingual plagiarism following a line of research and using open resources. The results reach the state of the art, and we hope that the followed approach, the justified analysis and the technical difficulties reported, will bring readers closer to the methodology needed in this type of experimentation and will allow planning their future works. The software developed is available in open.Este trabajo ha sido parcialmente financiado por los proyectos Musacces (S2015/HUM3494) y VEMODALEN (TIN2015-71785-R)

    Similar works