4 research outputs found

    Detection of translingual plagiarism with semantic graphs: experimenting with open resources

    Get PDF
    Hoy en día el idioma ha dejado de ser una barrera para plagiar documentos disponibles en Internet. Tras enfoques probabilísticos ya clásicos que no alcanzan buenos resultados con documentos multilingües con paráfrasis (Barrón-Cedeño, 2012), aparecen trabajos que, utilizando grafos de conocimiento, aumentan la capacidad semántica del análisis de las oraciones y mejoran los resultados de detección de plagio. Además, actualmente hay recursos lingüísticos, basados en el conocimiento, o de desarrollo de software que están disponibles para la experimentación, una vez decidido cuál de ellos elegir, cuáles están realmente disponibles en abierto, qué eficiencia aportan si se integran en la experimentación planteada, o qué tipo de características debe tener el ordenador o el servidor necesario para la investigación. Este trabajo plantea una investigación experimental para la detección de plagio translingüe siguiendo una línea de investigación y utilizando recursos disponibles en abierto. Los resultados alcanzan el estado del arte, y esperamos que el planteamiento seguido, el análisis justificado y las dificultades técnicas reportadas, acercará a los lectores la metodología necesaria en este tipo de experimentaciones y permitirá planificar sus trabajos futuros. El software desarrollado está disponible en abierto.Today the language has ceased to be a barrier to plagiarize documents available on the Internet. After classic probabilistic approaches that do not achieve good results with multilingual documents with paraphrasing (Barrón-Cedeño, 2012), there are works that, using knowledge graphs, increase the semantic ability in the analysis of sentences and improve the results of plagiarism detection. In addition, currently in linguistic engineering there are linguistic or knowledge-based resources, or software development resources that are available to experimentation once decided, which ones to choose, which ones are available, what efficiency they provide if they are integrated into the proposed experimentation, or what kind of features the computer or server should have to the investigation. This work proposes an experimental investigation into a concrete problem, the detection of translingual plagiarism following a line of research and using open resources. The results reach the state of the art, and we hope that the followed approach, the justified analysis and the technical difficulties reported, will bring readers closer to the methodology needed in this type of experimentation and will allow planning their future works. The software developed is available in open.Este trabajo ha sido parcialmente financiado por los proyectos Musacces (S2015/HUM3494) y VEMODALEN (TIN2015-71785-R)

    La inteligencia artificial en las Humanidades Digitales: dos experiencias con corpus digitales

    Get PDF
    This paper focuses on the analysis of two investigations of different sign guided by artificial intelligence within the field of HD. The first is a well-known and successful research carried out by two linguists solving a case of authorship attribution through the construction of a digital corpus of 150 works written by 40 Italian novelists. The second one is the research carried out on the digital corpus DIMH (El Dibujante Ingeniero al servicio de la Monarquía Hispánica. Siglos XVI-XVIII), an evolution of the Collection of maps, plans and drawings of the General Archive of Simancas (XVI-XVIII centuries), whose objective was to develop tools to support semantic annotation tasks, information search, extraction of hidden relationships in the texts and visualization of the results to facilitate the research of historians. Through these two examples, this article seeks to show the methods, processes, and possibilities of success in complex research problems in the Humanities solved with Natural Language Processing (NLP) techniques and data analysis.Este artículo se centra en el análisis de dos investigaciones de diverso signo guiadas por la inteligencia artificial dentro del campo de las HD. El primero es una investigación muy conocida y exitosa de dos lingüistas que resuelven un caso de atribución de autoría a través de la construcción de un corpus digital de 150 obras de 40 novelistas italianos. El segundo es la investigación llevada a cabo en el corpus digital DIMH (El Dibujante Ingeniero al servicio de la Monarquía Hispánica. Siglos XVI-XVIII), una evolución de la Colección de mapas, planos y dibujos del Archivo General de Simancas (siglos XVI-XVIII), cuyo objetivo fue desarrollar herramientas de soporte a tareas de anotación semántica, búsqueda de información, extracción de relaciones ocultas en los textos y visualización de los resultados para facilitar la investigación de los historiadores. A través de estos dos ejemplos, este artículo busca mostrar los métodos, procesos y posibilidades de éxito en problemas complejos de investigación en Humanidades resueltos con técnicas de procesamiento del lenguaje natural (PLN) y análisis de datos

    La inteligencia artificial en las Humanidades Digitales: dos experiencias con corpus digitales

    Get PDF
    Este artículo se centra en el análisis de dos investigaciones de diverso signo guiadas por la inteligencia artificial dentro del campo de las HD. El primero es una investigación muy conocida y exitosa de dos lingüistas que resuelven un caso de atribución de autoría a través de la construcción de un corpus digital de 150 obras de 40 novelistas italianos. El segundo es la investigación llevada a cabo en el corpus digital DIMH (El Dibujante Ingeniero al servicio de la Monarquía Hispánica. Siglos XVI-XVIII), una evolución de la Colección de mapas, planos y dibujos del Archivo General de Simancas (siglos XVI-XVIII), cuyo objetivo fue desarrollar herramientas de soporte a tareas de anotación semántica, búsqueda de información, extracción de relaciones ocultas en los textos y visualización de los resultados para facilitar la investigación de los historiadores. A través de estos dos ejemplos, este artículo busca mostrar los métodos, procesos y posibilidades de éxito en problemas complejos de investigación en Humanidades resueltos con técnicas de procesamiento del lenguaje natural (PLN) y análisis de datos

    Clasificación de documentos usando técnicas de aprendizaje automático

    No full text
    Como consecuencia de la gran expansión de textos en formato digital, la tarea de clasificación de documentos se ha convertido en un área de investigación fundamental. En este proyecto nos centramos en la tarea de clasificar automáticamente los textos en función del tema del que traten (cristianismo, motos, hardware, etc). El objetivo del mismo es realizar un estudio detallado de 3 de los algoritmos más usados en Machine Learning para realizar clasificación automática de documentos y analizar cuál proporciona mejores resultados.<br /
    corecore