8 research outputs found

    Detección de la unidad central en dos géneros y lenguajes diferentes: un estudio preliminar en portugués brasileño y euskera

    Get PDF
    The aim of this paper is to present the development of a rule-based automatic detector which determines the main idea or the most pertinent discourse unit in two different languages such as Basque and Brazilian Portuguese and in two distinct genres such as scientific abstracts and argumentative answers. The central unit (CU) may be of interest to understand texts regarding relational discourse structure and it can be applied to Natural Language Processing (NLP) tasks such as automatic summarization, question-answer systems or sentiment analysis. In the case of argumentative answer genre, the identification of CU is an essential step for an eventual implementation of an automatic evaluator for this genre. The theoretical background which underlies the paper is Mann and Thompson’s (1988) Rhetorical Structure Theory (RST), following discourse segmentation and CU annotation. Results show that the CUs in different languages and in different genres are detected automatically with similar results, although there is space for improvement.El objetivo de este trabajo es presentar las mejoras de un detector automático basado en reglas que determina la idea principal o unidad discursiva más pertinente de dos lenguas tan diferentes como el euskera y el portugués de Brasil y en dos géneros muy distintos como son los resúmenes de los artículos científicos y las respuestas argumentativas. La unidad central (CU, por sus siglas en inglés) puede ser de interés para entender los textos partiendo de la estructura discursiva relacional y poderlo aplicar en tareas de Procesamiento del Lenguaje Natural (PLN) tales como resumen automático, sistemas de pregunta-respuesta o análisis de sentimiento. En los textos de respuesta argumentativa, identificar la CU es un paso esencial para un evaluador automático de considere la estructura discursiva de dichos textos. El marco teórico en el que hemos desarrollado el trabajo es la Rhetorical Structure Theory (RST) de Mann y Thompson (1988), que parte de la segmentación discursiva y finaliza con la anotación de la unidad central. Los resultados demuestran que las unidades centrales en diferentes lenguas y géneros son detectadas con similares resultados automáticamente, aunque todavía hay espacio para mejora

    Cross-lingual RST Discourse Parsing

    Get PDF
    Discourse parsing is an integral part of understanding information flow and argumentative structure in documents. Most previous research has focused on inducing and evaluating models from the English RST Discourse Treebank. However, discourse treebanks for other languages exist, including Spanish, German, Basque, Dutch and Brazilian Portuguese. The treebanks share the same underlying linguistic theory, but differ slightly in the way documents are annotated. In this paper, we present (a) a new discourse parser which is simpler, yet competitive (significantly better on 2/3 metrics) to state of the art for English, (b) a harmonization of discourse treebanks across languages, enabling us to present (c) what to the best of our knowledge are the first experiments on cross-lingual discourse parsing.Comment: To be published in EACL 2017, 13 page

    A writing assistant to adapt administrative texts into plain language

    Get PDF
    El lenguaje claro aboga por que los textos dirigidos a los ciudadanos estén redactados en un lenguaje más sencillo y transparente, para que estos puedan entender fácilmente el mensaje que se les quiere transmitir. En este contexto, nuestro objetivo es desarrollar un redactor asistido para el español que ayude al personal de la Administración pública a escribir en lenguaje claro los textos que dirige a la ciudadanía. El sistema, gratuito y en línea, integra diferentes herramientas de Procesamiento de Lenguaje Natural (PLN) para detectar en los textos escritos por los usuarios los rasgos lingüísticos que interfieren con las recomendaciones sobre lenguaje claro. Asimismo, ofrece al usuario información para hacer más sencillo su texto. Para evaluar los algoritmos se empleó un corpus anotado manualmente, y las medidas de precisión y cobertura. Los resultados son muy positivos, aunque también reflejan algunos aspectos que se pueden mejorar en el futuro.Plain language advocates that texts addressed to citizens should be written in simpler and more transparent language, so that they can easily understand the message to be conveyed. In this context, our aim is to develop an assisted writing tool for Spanish to help Public Administration staff to write texts addressed to citizens in plain language. The system is free and online. It integrates different Natural Language Processing (NLP) tools to detect the linguistic features that interfere with plain language recommendations in the texts written by users. It also provides users with information to make their text clearer. A manually annotated corpus, and precision and recall measures were used to evaluate the algorithms. The results are very positive, although they also highlight some aspects that could be improved in the future.Este trabajo se deriva del proyecto de investigación titulado “Tecnologías de la Información y la Comunicación para la e-Administración: hacia la mejora de la comunicación entre Administración y ciudadanía a través del lenguaje claro (TIC-eADMIN)”, financiado por el Ministerio de Ciencia, Innovación e Universidades en la convocatoria 2018 de Proyectos I+D del Subprograma Estatal de Generación de Conocimiento (referencia PGC2018-099694-A-I00), y desarrollado en el Departamento de Filologías Extranjeras y sus Lingüísticas de la Facultad de Filología de la Universidad Nacional de Educación a Distancia (UNED), en el marco del grupo de investigación ACTUALing y en colaboración con el grupo IULATERM (IULA-UPF)

    An ICT tool for the writing of the Final Degree Project (TFG)

    Get PDF
    Desde la implantación del Espacio Europeo de Educación Superior a través del Plan Bolonia, en la universidad española es obligatorio que los estudiantes elaboren un Trabajo de Fin de Grado (TFG). El objetivo del presente trabajo es desarrollar una herramienta TIC (Tecnologías de la Información y la Comunicación) para ayudar a los estudiantes en la redacción del TFG en español. La herramienta tiene forma de editor de textos en línea e integra recursos de Procesamiento del Lenguaje Natural (PLN), como un analizador morfológico y un segmentador discursivo. Está dividida en tres módulos, que ayudan al estudiante a: 1) estructurar el TFG, 2) darle formato y corregirlo ortográficamente, y 3) revisar la adecuación del texto, mediante recomendaciones lingüísticas específicas para este género textual, relacionadas, por ejemplo, con oraciones largas, siglas, definiciones o unidades léxicas subjetivas. La evaluación user-driven realizada con estudiantes universitarios ofrece resultados positivos del uso de la herramienta.Since the implementation of the European Higher Education Area through the Bologna Plan, in the Spanish university it is mandatory for students to prepare a Final Degree Project (TFG). The aim of this work is to develop an ICT (Information and Communication Technologies) tool to help students in the writing of the TFG in Spanish. The tool is an online text editor and integrates Natural Language Processing (NLP) resources, such as a Part of Speech tagger and a discourse segmenter. It is divided into three modules, which help the student to: 1) structure the TFG, 2) format the text and correct its spelling, and 3) review the adequacy of the text, through specific linguistic recommendations for this textual genre, related, for example, with long sentences, initialisms, definitions or subjective lexical units. The user-driven evaluation carried out with university students shows positive results.Este trabajo se ha llevado a cabo en el marco de un contrato Ramón y Cajal (RYC-2014-16935) financiado por el Ministerio de Economía, Industria y Competitividad, vinculado al Departamento de Filologías Extranjeras y sus Lingüísticas de la Facultad de Filología de la Universidad Nacional de Educación a Distancia (UNED). Los resultados se derivan de dos proyectos de investigación. Por un lado, del proyecto “Un sistema automático de ayuda a la redacción de textos especializados de ámbitos relevantes en la sociedad española actual”, financiado en la Convocatoria 2015 de Ayudas Fundación BBVA a Investigadores y Creadores Culturales (IN[15]_HMS_LIN_0371). Por otro lado, del proyecto “Tecnologías de la Información y la Comunicación para la e-Administración: hacia la mejora de la comunicación entre Administración y ciudadanía a través del lenguaje claro (TIC-eADMIN)”, financiado por el Ministerio de Ciencia, Innovación e Universidades en la convocatoria 2018 de Proyectos I+D del Subprograma Estatal de Generación de Conocimiento (PGC2018-099694-A-I00)

    Compression automatique de phrases (une étude vers la génération de résumés)

    Get PDF
    Cette étude présente une nouvelle approche pour la génération automatique de résumés, un des principaux défis du Traitement de la Langue Naturelle. Ce sujet, traité pendant un demi-siècle par la recherche, reste encore actuel car personne n a encore réussi à créer automatiquement des résumés comparables, en qualité, avec ceux produits par des humains. C est dans ce contexte que la recherche en résumé automatique s est divisée en deux grandes catégories : le résumé par extraction et le résumé par abstraction. Dans le premier, les phrases sont triées de façon à ce que les meilleures conforment le résumé final. Or, les phrases sélectionnées pour le résumé portent souvent des informations secondaires, une analyse plus fine s avère nécessaire.Nous proposons une méthode de compression automatique de phrases basée sur l élimination des fragments à l intérieur de celles-ci. À partir d un corpus annoté, nous avons créé un modèle linéaire pour prédire la suppression de ces fragments en fonction de caractéristiques simples. Notre méthode prend en compte trois principes : celui de la pertinence du contenu, l informativité ; celui de la qualité du contenu, la grammaticalité, et la longueur, le taux de compression. Pour mesurer l informativité des fragments,nous utilisons une technique inspirée de la physique statistique : l énergie textuelle.Quant à la grammaticalité, nous proposons d utiliser des modèles de langage probabilistes.La méthode proposée est capable de générer des résumés corrects en espagnol.Les résultats de cette étude soulèvent divers aspects intéressants vis-à- vis du résumé de textes par compression de phrases. On a observé qu en général il y a un haut degré de subjectivité de la tâche. Il n y a pas de compression optimale unique mais plusieurs compressions correctes possibles. Nous considérons donc que les résultats de cette étude ouvrent la discussion par rapport à la subjectivité de l informativité et son influence pour le résumé automatique.This dissertation presents a novel approach to automatic text summarization, one of the most challenging tasks in Natural Language Processing (NLP). Until now, no one had ever created a summarization method capable of producing summaries comparable in quality with those produced by humans. Even many of state-of-the-art approaches form the summary by selecting a subset of sentences from the original text. Since some of the selected sentences might still contain superfluous information, a finer analysis is needed. We propose an Automatic Sentence Compression method based on the elimination of intra-phrase discourse segments. Using a manually annotated big corpus, we have obtained a linear model that predicts the elimination probability of a segment on the basis of three simple three criteria: informativity, grammaticality and compression rate. We discuss the difficulties for automatic assessment of these criteria in documents and phrases and we propose a solution based on existing techniques in NLP literature, one applying two different algorithms that produce summaries with compressed sentences. After applying both algorithms in documents in Spanish, our method is able to produce high quality results. Finally, we evaluate the produced summaries using the Turing test to determine if human judges can distinguish between human-produced summaries and machine-produced summaries. This dissertation addresses many previously ignored aspects of NLP, namely the subjectivity of informativity, the sentence compression in Spanish documents, and the evaluation of NLP using the Turing test.AVIGNON-Bib. numérique (840079901) / SudocSudocFranceF
    corecore