10,113 research outputs found

    Ontología y Procesamiento de Lenguaje Natural

    Get PDF
    At present, the convergence of several areas of knowledge has led to the design and implementation of ICT systems that support the integration of heterogeneous tools, such as artificial intelligence (AI), statistics and databases (BD), among others. Ontologies in computing are included in the world of AI and refer to formal representations of an area of knowledge or domain. The discipline that is in charge of the study and construction of tools to accelerate the process of creation of ontologies from the natural language is the ontological engineering. In this paper, we propose a knowledge management model based on the clinical histories of patients (HC) in Panama, based on information extraction (EI), natural language processing (PLN) and the development of a domain ontology.Keywords: Knowledge, information extraction, ontology, automatic population of ontologies, natural language processing

    Evaluating machine translation in a low-resource language combination : Spanish-Galician

    Get PDF
    This paper reports the results of a study designed to assess the perception of adequacy of three different types of machine translation systems within the context of a minoritized language combination (Spanish-Galician). To perform this evaluation, a mixed design with three different metrics (BLEU, survey and error analysis) is used to extract quantitative and qualitative data about two marketing letters from the energy industry translated with a rulebased system (RBMT), a phrase-based system (PBMT) and a neural system (NMT). Results show that in the case of low-resource languages rule-based and phrase-based machine translations systems still play an important role

    Generación automática de resúmenes abstractivos mono documento utilizando análisis semántico y del discurso

    Get PDF
    The web is a giant resource of data and information about security, health, education, and others, matters that have great utility for people, but to get a synthesis or abstract about one or many documents is an expensive labor, which with manual process might be impossible due to the huge amount of data. Abstract generation is a challenging task, due to that involves analysis and comprehension of the written text in non structural natural language dependent of a context and it must describe an events synthesis or knowledge in a simple form, becoming natural for any reader. There are diverse approaches to summarize. These categorized into extractive or abstractive. On abstractive technique, summaries are generated starting from selecting outstanding sentences on source text. Abstractive summaries are created by regenerating the content extracted from source text, through that phrases are reformulated by terms fusion, compression or suppression processes. In this manner, paraphrasing sentences are obtained or even sentences were not in the original text. This summarize type has a major probability to reach coherence and smoothness like one generated by human beings. The present work implements a method that allows to integrate syntactic, semantic (AMR annotator) and discursive (RST) information into a conceptual graph. This will be summarized through the use of a new measure of concept similarity on WordNet.To find the most relevant concepts we use PageRank, considering all discursive information given by the O”Donell method application. With the most important concepts and semantic roles information got from the PropBank, a natural language generation method was implemented with tool SimpleNLG. In this work we can appreciated the results of applying this method to the corpus of Document Understanding Conference 2002 and tested by Rouge metric, widely used in the automatic summarization task. Our method reaches a measure F1 of 24 % in Rouge-1 metric for the mono-document abstract generation task. This shows that using these techniques are workable and even more profitable and recommended configurations and useful tools for this task.Tesi

    Towards Syntactic Iberian Polarity Classification

    Full text link
    Lexicon-based methods using syntactic rules for polarity classification rely on parsers that are dependent on the language and on treebank guidelines. Thus, rules are also dependent and require adaptation, especially in multilingual scenarios. We tackle this challenge in the context of the Iberian Peninsula, releasing the first symbolic syntax-based Iberian system with rules shared across five official languages: Basque, Catalan, Galician, Portuguese and Spanish. The model is made available.Comment: 7 pages, 5 tables. Contribution to the 8th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis (WASSA-2017) at EMNLP 201

    Exploitation and Processing of Online Information for Annotating and Generating Texts Adapted to the User

    Get PDF
    La gran cantidad de información disponible en Internet está dificultando cada vez más que los usuarios puedan digerir toda esa información, siendo actualmente casi impensable sin la ayuda de herramientas basadas en las Tecnologías del Lenguaje Humano (TLH), como pueden ser los recuperadores de información o resumidores automáticos. El interés de este proyecto emergente (y por tanto, su objetivo principal) viene motivado precisamente por la necesidad de definir y crear un marco tecnológico basado en TLH, capaz de procesar y anotar semánticamente la información, así como permitir la generación de información de forma automática, flexibilizando el tipo de información a presentar y adaptándola a las necesidades de los usuarios. En este artículo se proporciona una visión general de este proyecto, centrándonos en la arquitectura propuesta y el estado actual del mismo.The great amount of available online information is making increasingly more and more difficult that users can assimilate such as volume of information, being this almost inconceivable without using Human Language Technologies (HLT) tools, for instance, information retrieval systems or automatic summarisers. The interest of this emerging project (and therefore its main goal) is precisely motivated by the need to define and create a HLT-based technological framework, able to process and semantically annotate all this information, allowing also the automatic generation of information, and making the type of information to be presented more flexible by adapting it to the users' needs. This article provides an overview of this project, focusing on the proposed architecture and its current status.Este proyecto ha sido financiado por la Universidad de Alicante a través del proyecto emergente “Explotación y tratamiento de la información disponible en Internet para la anotación y generación de textos adaptados al usuario” (GRE13-15) y su temática se enmarca en el contexto de los proyectos “DIIM2.0: Desarrollo de técnicas Inteligentes e Interactivas de Minería y Generación de Información sobre la Web 2.0” (PROMETEOII/2014/001) financiado por la Generalitat Valenciana y el proyecto “Técnicas de Deconstrucción en la Tecnologías del Lenguaje Humano” (TIN2012-31224) financiado por Ministerio de Economía y Competitividad del Gobierno de España

    La instrucción gramatical y la lengua materna en la era post-método

    Get PDF
    Este artículo propone un momento de reflexión para replantear algunas de las máximas pedagógicas que, contradiciendo lo que desde la “esfera académica” se estableció hace años –décadas, en algunos casos- continuan vigentes en la actualidad en algunos programas de formación y entornos de enseñanza de E/LE. Así, abordaremos dos ejemplos concretos de exclusión axiomática: la exclusión de la instrucción gramatical explícita y de la lengua materna del estudiantes –o de cualquier otra lengua vehicular, como el inglés- de la clase de E/LE. Analizaremos las razones por la que estos “tabúes” o “vetos” deberían ser abandonados y propondremos la gramática cognitiva como una de las herramientas posibles para superar estas y otras dicotomías artificiales. ( This paper suggests a moment to rethink some of the pedagogical believes that, despite of the advances and advices sent from the “academic sphere” years ago –or decades ago, in some cases- they still rule some teaching formation programs and educational E/LE (Spanish as a second language) environments. We will analyze two specific axioms whose validity, according to the present state of the art, should be questioned at least: the ban of explicit grammar instruction and the ban of the student’s mother tongue in the Spanish ASL classroom. We will analyze the reasons for which these “taboos” or “vetos” should be abandoned and we will propose Cognitive Grammar as a possible solution to surpass this and other artificial dicotomies )

    Procesador automático de informes médicos

    Get PDF
    El acceso a la información y su intercambio es vital en el ámbito médico, tanto en la investigación como en la gestión hospitalaria. Gran parte de esta información está contenida en informes médicos escritos en lenguaje natural y, por tanto, no es fácilmente tratable por sistemas automáticos. Esta memoria describe el proyecto de fin de carrera "Procesador automático de informes médicos", cuya finalidad es la creación de un sistema de detección de conceptos y términos médicos, representados mediante SNOMED CT, una terminología clínica de referencia. Además, y previamente a dicha extracción de conceptos, se realizan tareas de corrección ortográfica, detección y desambiguación de acrónimos y detección de negaciones. Para la construcción de esta serie de fases, se han aplicado técnicas de procesamiento de lenguaje natural a informes médicos en castellano. Esto supone un reto, dado que la mayoría del trabajo realizado en este campo se ha realizado para lengua inglesa y los recursos para el español son bastante limitados. Todo esto se integra en una herramienta que sirve para procesar automáticamente informes médicos y generar una representación conceptual de su contenido, útil para la gestión de dichos informes en el ámbito clínico-sanitario. Adicionalmente, se han construido dos sistemas auxiliares para medir la eficacia de la aplicación que permiten etiquetar manualmente informes para construir un corpus de informes anotados y usar dicho corpus para evaluar los resultados del procesamiento automático. [ABSTRAC] Accessing to and exchanging information is vital in medical settings, be it in research or in healthcare management. Most of this information is contained in clinical reports written in natural language free text and, therefore, it cannot be easily processed by automatic systems.This document describes our final degree project, “Procesador autom´atico de infor- mes m´edicos”, and its objective, which is the creation of a medical concept extraction system that maps texts to SNOMED CT (a standard reference terminology). Moreover, to prepare the text for the concept detection, several other tasks are performed: spelling correction, acronym detection and disambiguation, and negation detection. In order to build the different parts of the application, we have applied natural language processing techniques to clinical reports in Spanish. This poses a challenge, given that most of the work done in this field deals with texts in English and theavailable resources are rather limited. The previously described tasks are implemented in a software that automatically process medical texts, generates a conceptual representation from their contents and serves as an example of a useful application to manage clinical reports in healthcare and research settings. Furthermore, we have built two auxiliary systems to measure the effectiveness of our tool, which allow to manually tag reports to build an annotated corpus and to use such corpus to evaluate the results of the automatic processing

    Natural Language Generation: Revision of the State of the Art

    Get PDF
    El ser humano se comunica y expresa a través del lenguaje. Para conseguirlo, ha de desarrollar una serie de habilidades de alto nivel cognitivo cuya complejidad se pone de manifiesto en la tarea de automatizar el proceso, tanto cuando se trata de producir lenguaje como de interpretarlo. Cuando la acción comunicativa ocurre entre una persona y un ordenador y éste último es el destinatario de la acción, se emplean lenguajes computacionales que, como norma general, están sujetos a un conjunto de reglas fuertemente tipadas, acotadas y sin ambigüedad. Sin embargo, cuando el sentido de la comunicación es el contrario y la máquina ha de transmitir información a la persona, si el mensaje se quiere transmitir en lenguaje natural, el procedimiento para generarlo debe lidiar con la flexibilidad y la ambigüedad que lo caracterizan, dando lugar a una tarea de alto nivel de complejidad. Para que las máquinas sean capaces de manejar el lenguaje humano se hacen necesarias técnicas de Lingüística Computacional. Dentro de esta disciplina, el campo que se encarga de crear textos en lenguaje natural se denomina Generación de Lenguaje Natural (GLN). En este artículo se va a hacer un recorrido exhaustivo de este campo. Se describen las fases en las que se suelen descomponer los sistemas de GLN junto a las técnicas que se aplican y se analiza con detalle la situación actual de esta área de investigación y su problemática, así como los recursos más relevantes y las técnicas que se están empleando para evaluar la calidad de los sistemas.Language is one of the highest cognitive skills developed by human beings and, therefore, one of the most complex tasks to be faced from the computational perspective. Human-computer communication processes imply two different degrees of difficulty depending on the nature of that communication. If the language used is oriented towards the domain of the machine, there is no place for ambiguity since it is restricted by rules. However, when the communication is in terms of natural language, its flexibility and ambiguity becomes unavoidable. Computational Linguistic techniques are mandatory for machines when it comes to process human language. Among them, the area of Natural Language Generation aims to automatical development of techniques to produce human utterances, text and speech. This paper presents a deep survey of this research area taking into account different points of view about the theories, methodologies, architectures, techniques and evaluation approaches, thus providing a review of the current situation and possible future research in the field.Esta investigación ha sido financiada por la Generalitat Valenciana a través del proyecto DIIM2.0: Desarrollo de técnicas Inteligentes e Interactivas de Minería y generación de información sobre la web 2.0 (PROMETEOII/2014/001). Además, ha sido parcialmente financiada por la Comisión Europea a través del proyecto SAM (FP7-611312); por el Ministerio de Economía y Competitividad del Gobierno de España mediante los proyectos: “Análisis de Tendencias Mediante Técnicas de Opinión Semántica” (TIN2012-38536-C03-03) y ‘Técnicas de Deconstrucción en la Tecnología del Lenguaje Humano” (TIN2012-31224); y finalmente, por la Universidad de Alicante a través del proyecto “Explotación y tratamiento de la información disponible en Internet para la anotación y generación de textos adaptados al usuario” (GRE13-15)