10,639 research outputs found

    A Supervised Approach for Sentiment Lexicon Generation using Word Skipgrams

    Get PDF
    This Ph.D. thesis work proposes the design, development and evaluation of a supervised approach for sentiment lexicon generation. It is based on the hypothesis that an efficient use of the skipgram modelling can improve sentiment analysis tasks and reduce the resources needed maintaining an acceptable level of quality. In summary, the novelty of this approach lies in the use of skipgrams as information units and the way they are efficiently generated, weighed and filtered, taking advantage of the useful information they provide about the sequentiality of the language.This research work has been supported by TRIVIAL (PID2021-122263OB-C22) funded by MCIN/AEI/10.13039/501100011033 and by “European Union Regional Development Fund (ERDF) A way of making Europe”, by the “European Union NextGenerationEU/PRTR”

    Detección de la unidad central en dos géneros y lenguajes diferentes: un estudio preliminar en portugués brasileño y euskera

    Get PDF
    The aim of this paper is to present the development of a rule-based automatic detector which determines the main idea or the most pertinent discourse unit in two different languages such as Basque and Brazilian Portuguese and in two distinct genres such as scientific abstracts and argumentative answers. The central unit (CU) may be of interest to understand texts regarding relational discourse structure and it can be applied to Natural Language Processing (NLP) tasks such as automatic summarization, question-answer systems or sentiment analysis. In the case of argumentative answer genre, the identification of CU is an essential step for an eventual implementation of an automatic evaluator for this genre. The theoretical background which underlies the paper is Mann and Thompson’s (1988) Rhetorical Structure Theory (RST), following discourse segmentation and CU annotation. Results show that the CUs in different languages and in different genres are detected automatically with similar results, although there is space for improvement.El objetivo de este trabajo es presentar las mejoras de un detector automático basado en reglas que determina la idea principal o unidad discursiva más pertinente de dos lenguas tan diferentes como el euskera y el portugués de Brasil y en dos géneros muy distintos como son los resúmenes de los artículos científicos y las respuestas argumentativas. La unidad central (CU, por sus siglas en inglés) puede ser de interés para entender los textos partiendo de la estructura discursiva relacional y poderlo aplicar en tareas de Procesamiento del Lenguaje Natural (PLN) tales como resumen automático, sistemas de pregunta-respuesta o análisis de sentimiento. En los textos de respuesta argumentativa, identificar la CU es un paso esencial para un evaluador automático de considere la estructura discursiva de dichos textos. El marco teórico en el que hemos desarrollado el trabajo es la Rhetorical Structure Theory (RST) de Mann y Thompson (1988), que parte de la segmentación discursiva y finaliza con la anotación de la unidad central. Los resultados demuestran que las unidades centrales en diferentes lenguas y géneros son detectadas con similares resultados automáticamente, aunque todavía hay espacio para mejora

    Generación automática de resúmenes abstractivos mono documento utilizando análisis semántico y del discurso

    Get PDF
    The web is a giant resource of data and information about security, health, education, and others, matters that have great utility for people, but to get a synthesis or abstract about one or many documents is an expensive labor, which with manual process might be impossible due to the huge amount of data. Abstract generation is a challenging task, due to that involves analysis and comprehension of the written text in non structural natural language dependent of a context and it must describe an events synthesis or knowledge in a simple form, becoming natural for any reader. There are diverse approaches to summarize. These categorized into extractive or abstractive. On abstractive technique, summaries are generated starting from selecting outstanding sentences on source text. Abstractive summaries are created by regenerating the content extracted from source text, through that phrases are reformulated by terms fusion, compression or suppression processes. In this manner, paraphrasing sentences are obtained or even sentences were not in the original text. This summarize type has a major probability to reach coherence and smoothness like one generated by human beings. The present work implements a method that allows to integrate syntactic, semantic (AMR annotator) and discursive (RST) information into a conceptual graph. This will be summarized through the use of a new measure of concept similarity on WordNet.To find the most relevant concepts we use PageRank, considering all discursive information given by the O”Donell method application. With the most important concepts and semantic roles information got from the PropBank, a natural language generation method was implemented with tool SimpleNLG. In this work we can appreciated the results of applying this method to the corpus of Document Understanding Conference 2002 and tested by Rouge metric, widely used in the automatic summarization task. Our method reaches a measure F1 of 24 % in Rouge-1 metric for the mono-document abstract generation task. This shows that using these techniques are workable and even more profitable and recommended configurations and useful tools for this task.Tesi

    Proof of Concept of Ontology-based Query Expansion on Financial Domain

    Get PDF
    Este trabajo presenta el uso de una ontología en el dominio financiero para la expansión de consultas con el fin de mejorar los resultados de un sistema de recuperación de información (RI) financiera. Este sistema está compuesto por una ontología y un índice de Lucene que permite recuperación de conceptos identificados mediante procesamiento de lenguaje natural. Se ha llevado a cabo una evaluación con un conjunto limitado de consultas y los resultados indican que la ambigüedad sigue siendo un problema al expandir la consulta. En ocasiones, la elección de las entidades adecuadas a la hora de expandir las consultas (filtrando por sector, empresa, etc.) permite resolver esa ambigüedad.This paper explains the application of ontologies in financial domains to a query expansion process. The final goal is to improve financial information retrieval effectiveness. The system is composed of an ontology and a Lucene index that stores and retrieves natural language concepts. An initial evaluation with a limited number of queries has been performed. Obtained results show that ambiguity remains a problem when expanding a query. The filtering of entities in the expansion process by selecting only companies or references to markets helps in the reduction of ambiguity.Este trabajo ha sido parcialmente financiado por el proyecto Trendminer (EU FP7-ICT287863) , el proyecto Monnet (EU FP7-ICT 247176) y MA2VICMR (S2009/TIC-1542).Publicad

    Procesador automático de informes médicos

    Get PDF
    El acceso a la información y su intercambio es vital en el ámbito médico, tanto en la investigación como en la gestión hospitalaria. Gran parte de esta información está contenida en informes médicos escritos en lenguaje natural y, por tanto, no es fácilmente tratable por sistemas automáticos. Esta memoria describe el proyecto de fin de carrera "Procesador automático de informes médicos", cuya finalidad es la creación de un sistema de detección de conceptos y términos médicos, representados mediante SNOMED CT, una terminología clínica de referencia. Además, y previamente a dicha extracción de conceptos, se realizan tareas de corrección ortográfica, detección y desambiguación de acrónimos y detección de negaciones. Para la construcción de esta serie de fases, se han aplicado técnicas de procesamiento de lenguaje natural a informes médicos en castellano. Esto supone un reto, dado que la mayoría del trabajo realizado en este campo se ha realizado para lengua inglesa y los recursos para el español son bastante limitados. Todo esto se integra en una herramienta que sirve para procesar automáticamente informes médicos y generar una representación conceptual de su contenido, útil para la gestión de dichos informes en el ámbito clínico-sanitario. Adicionalmente, se han construido dos sistemas auxiliares para medir la eficacia de la aplicación que permiten etiquetar manualmente informes para construir un corpus de informes anotados y usar dicho corpus para evaluar los resultados del procesamiento automático. [ABSTRAC] Accessing to and exchanging information is vital in medical settings, be it in research or in healthcare management. Most of this information is contained in clinical reports written in natural language free text and, therefore, it cannot be easily processed by automatic systems.This document describes our final degree project, “Procesador autom´atico de infor- mes m´edicos”, and its objective, which is the creation of a medical concept extraction system that maps texts to SNOMED CT (a standard reference terminology). Moreover, to prepare the text for the concept detection, several other tasks are performed: spelling correction, acronym detection and disambiguation, and negation detection. In order to build the different parts of the application, we have applied natural language processing techniques to clinical reports in Spanish. This poses a challenge, given that most of the work done in this field deals with texts in English and theavailable resources are rather limited. The previously described tasks are implemented in a software that automatically process medical texts, generates a conceptual representation from their contents and serves as an example of a useful application to manage clinical reports in healthcare and research settings. Furthermore, we have built two auxiliary systems to measure the effectiveness of our tool, which allow to manually tag reports to build an annotated corpus and to use such corpus to evaluate the results of the automatic processing

    TASS 2015 – La evolución de los sistemas de análisis de opiniones para español

    Get PDF
    El análisis de opiniones en microblogging sigue siendo una tarea de actualidad, que permite conocer la orientación de las opiniones que minuto tras minuto se publican en medios sociales en Internet. TASS es un taller de participación que tiene como finalidad promover la investigación y desarrollo de nuevos algoritmos, recursos y técnicas aplicado al análisis de opiniones en español. En este artículo se describe la cuarta edición de TASS, resumiendo las principales aportaciones de los sistemas presentados, analizando los resultados y mostrando la evolución de los mismos. Además de analizar brevemente los sistemas que se presentaron, se presenta un nuevo corpus de tweets etiquetados en el dominio político, que se desarrolló para la tarea de Análisis de Opiniones a nivel de Aspecto.Sentiment Analysis in microblogging continues to be a trendy task, which allows to understand the polarity of the opinions published in social media. TASS is a workshop whose goal is to boost the research on Sentiment Analysis in Spanish. In this paper we describe the fourth edition of TASS, showing a summary of the systems, analyzing the results to check their evolution. In addition to a brief description of the participant systems, a new corpus of tweets is presented, compiled for the Sentiment Analysis at Aspect Level task.This work has been partially supported by a grant from the Fondo Europeo de Desarrollo Regional (FEDER), REDES project (TIN2015-65136-C2-1-R) and Ciudad2020 (INNPRONTA IPT-20111006) from the Spanish Government

    Natural Language Generation: Revision of the State of the Art

    Get PDF
    El ser humano se comunica y expresa a través del lenguaje. Para conseguirlo, ha de desarrollar una serie de habilidades de alto nivel cognitivo cuya complejidad se pone de manifiesto en la tarea de automatizar el proceso, tanto cuando se trata de producir lenguaje como de interpretarlo. Cuando la acción comunicativa ocurre entre una persona y un ordenador y éste último es el destinatario de la acción, se emplean lenguajes computacionales que, como norma general, están sujetos a un conjunto de reglas fuertemente tipadas, acotadas y sin ambigüedad. Sin embargo, cuando el sentido de la comunicación es el contrario y la máquina ha de transmitir información a la persona, si el mensaje se quiere transmitir en lenguaje natural, el procedimiento para generarlo debe lidiar con la flexibilidad y la ambigüedad que lo caracterizan, dando lugar a una tarea de alto nivel de complejidad. Para que las máquinas sean capaces de manejar el lenguaje humano se hacen necesarias técnicas de Lingüística Computacional. Dentro de esta disciplina, el campo que se encarga de crear textos en lenguaje natural se denomina Generación de Lenguaje Natural (GLN). En este artículo se va a hacer un recorrido exhaustivo de este campo. Se describen las fases en las que se suelen descomponer los sistemas de GLN junto a las técnicas que se aplican y se analiza con detalle la situación actual de esta área de investigación y su problemática, así como los recursos más relevantes y las técnicas que se están empleando para evaluar la calidad de los sistemas.Language is one of the highest cognitive skills developed by human beings and, therefore, one of the most complex tasks to be faced from the computational perspective. Human-computer communication processes imply two different degrees of difficulty depending on the nature of that communication. If the language used is oriented towards the domain of the machine, there is no place for ambiguity since it is restricted by rules. However, when the communication is in terms of natural language, its flexibility and ambiguity becomes unavoidable. Computational Linguistic techniques are mandatory for machines when it comes to process human language. Among them, the area of Natural Language Generation aims to automatical development of techniques to produce human utterances, text and speech. This paper presents a deep survey of this research area taking into account different points of view about the theories, methodologies, architectures, techniques and evaluation approaches, thus providing a review of the current situation and possible future research in the field.Esta investigación ha sido financiada por la Generalitat Valenciana a través del proyecto DIIM2.0: Desarrollo de técnicas Inteligentes e Interactivas de Minería y generación de información sobre la web 2.0 (PROMETEOII/2014/001). Además, ha sido parcialmente financiada por la Comisión Europea a través del proyecto SAM (FP7-611312); por el Ministerio de Economía y Competitividad del Gobierno de España mediante los proyectos: “Análisis de Tendencias Mediante Técnicas de Opinión Semántica” (TIN2012-38536-C03-03) y ‘Técnicas de Deconstrucción en la Tecnología del Lenguaje Humano” (TIN2012-31224); y finalmente, por la Universidad de Alicante a través del proyecto “Explotación y tratamiento de la información disponible en Internet para la anotación y generación de textos adaptados al usuario” (GRE13-15)

    AutoTweetly: generación automática de micro-posts en redes sociales

    Get PDF
    El 80% de los internautas en España utilizan las redes sociales y este porcentaje sigue en aumento año tras año. Facebook, supera los 800 millones de usuarios en todo el mundo, mientras que estima que Twitter habría superado los 485 millones de usuarios a finales del 2012 (http://www.concepto05.com/2013/07/estadisticas-usuarios-redes-sociales-en-espana-2013/). Actualmente, desde la mayoría de sitios Web, por ejemplo páginas de periódicos, blogs, etc., permiten al usuario poder compartir la información. Muchos usuarios utilizan las redes sociales como mecanismos para comunicar información o compartirla. Pero ¿y si dichas páginas Web no disponen de esos servicios? ¿Y si no queremos twitear exactamente la información que viene por defecto? Tendríamos que leernos la información, pensar lo que queremos transmitir y escribirla de acuerdo al formato de la red social que queramos utilizar? todo esto de forma manual. Este trabajo proponer la creación de un sistema interactivo y personalizable para la generación de micro-posts de forma automática, de manera que a partir de una información encontrada en la Web y unas preferencias de usuario, se pueda generar micro-posts distintos a los convencionales y permitir al usuario transmitir la información de forma original y más atractiva

    La instrucción gramatical y la lengua materna en la era post-método

    Get PDF
    Este artículo propone un momento de reflexión para replantear algunas de las máximas pedagógicas que, contradiciendo lo que desde la “esfera académica” se estableció hace años –décadas, en algunos casos- continuan vigentes en la actualidad en algunos programas de formación y entornos de enseñanza de E/LE. Así, abordaremos dos ejemplos concretos de exclusión axiomática: la exclusión de la instrucción gramatical explícita y de la lengua materna del estudiantes –o de cualquier otra lengua vehicular, como el inglés- de la clase de E/LE. Analizaremos las razones por la que estos “tabúes” o “vetos” deberían ser abandonados y propondremos la gramática cognitiva como una de las herramientas posibles para superar estas y otras dicotomías artificiales. ( This paper suggests a moment to rethink some of the pedagogical believes that, despite of the advances and advices sent from the “academic sphere” years ago –or decades ago, in some cases- they still rule some teaching formation programs and educational E/LE (Spanish as a second language) environments. We will analyze two specific axioms whose validity, according to the present state of the art, should be questioned at least: the ban of explicit grammar instruction and the ban of the student’s mother tongue in the Spanish ASL classroom. We will analyze the reasons for which these “taboos” or “vetos” should be abandoned and we will propose Cognitive Grammar as a possible solution to surpass this and other artificial dicotomies )

    Working memory, attention and compositionality

    Get PDF
    Es una práctica habitual en Psicología desarrollar microteorías para explicar datos muy concretos obtenidos en un conjunto limitado de tareas. Cuando todo el peso de la elaboración teórica recae en unos datos empíricos específicos sin tener en cuenta otras restricciones teóricas más generales, los grados de libertad para elaborar un modelo son en general muchos y esto hace que la proliferación de modelos sea considerable sin que se disponga de las suficientes restricciones para descartar cuáles son inadecuados. Las discusiones sobre qué modelos son los adecuados se enquistan en polémicas interminables. Teorías más generales permitirían integrar un mayor número de datos (empíricos y computacionales) en un todo con sentido y así se podrían descartar, de forma más simple y efectiva, los modelos que no se ajustan a estas restricciones. En este trabajo hemos intentado integrar en una todo con sentido algunas de las teorías existentes sobre un conjunto amplio de procesos (memoria de trabajo, razonamiento, procesamiento visual, procesamiento de lenguaje) y una amplia variedad de datos psicológicos, neurofisiológicos y computacionales. Como resultado se obtiene una teoría más general que, de forma razonable, permite imponer un amplio conjunto de restricciones a la hora de elaborar modelos sobre ciertos fenómenos y permite entre otras cosas descartar como inadecuados modelos actuales que gozan de cierto prestigio.It is standard practice in Psychology to develop microtheories to explain very specific data obtained from a reduced set of tasks. If more general theoretical constraints are disregarded, the results may be an uncontrolled proliferation of models. Discussions of which models are appropiate and which are not cause end less controversy. With a more general theory, one could put together a larger body of data (both empirical and computational) into a meaningful whole and could reject, simply and affectively, the models that do not meet the theory’s constraints. In this paper we bring together some of the existing theories on a set of processes (working memory, reasoning, visual and language processing) and a large variety of psychological, neurophysiological and computational data. We thus formulate a more general theory which, in a reasonable way, imposes a larger set of constraints on the preparation of models and challenges the validity of some inappropiate models that currently enjoy a certain prestige
    corecore