1,408 research outputs found

    La caracterización lexicográfica de la complementación del adjetivo inglés y su tratamiento en los diccionarios monolingües de aprendizaje

    Get PDF
    Una de las peculiaridades sintácticas del adjetivo, la selección de complementos propios de forma análoga al verbo, aunque menos frecuente y de modo más limitado que éste, genera la búsqueda del desarrollo de una tipología completiva para esta categoría que pueda, a su vez, generar aplicaciones lexicográficas adecuadas. Los diccionarios monolingües de aprendizaje del inglés, con un ganado prestigio en la configuración de modelos de complementación verbal y que ya intentaron tímidamente reflejar los comportamientos completivos del adjetivo, son reclamados como marco idóneo para reflejar en su aparato de información gramatical la complementación adjetiva en términos de igualdad con el tratamiento otorgado a la esfera verbal

    Methods on Natural Language Processing for Information Retrieval

    Get PDF
    En este artículo se describe el efecto de la integración de varias técnicas basadas en el procesamiento del lenguaje natural en sistemas de recuperación de información. Se estudiarán, en concreto, métodos de lematización, anotación de categorías morfosintácticas, identificación de nombres propios compuestos y análisis en dependencias. Una evaluación a gran escala con colecciones de documentos en español nos permitirá verificar que la combinación de estas técnicas con otras menos sofisticadas, tales como tokenización y eliminación de palabras gramaticales, contribuye a una mejora significativa de la calidad de los sistemas de recuperaciónIn this article, we describe the way in which different methods based on Natural Language Processing (NLP) can be integrated in Information Retrieval systems. More precisely, we will study NLP strategies such as lemmatization, PoS tagging, named entities recognition, and dependency-based parsing. A large scale evaluation on Spanish documents will be performed. This will allow us to verify whether these strategies combined with less complex NLP techniques (e.g., tokenization and stopwords removal) improve the quality of IR systems. The results reported at the end of the paper show that NLP-based strategies yield significant improvementsS

    XLOP (XML Language-Oriented Processing)

    Get PDF
    En este trabajo de Sistemas Informáticos se ha desarrollado un entorno para el procesamiento de documentos XML mediante gramáticas de atributos denominado XLOP(XML Language‐Oriented Processing). XLOP incluye un lenguaje de especificación que permite describir aplicaciones de procesamiento XML como gramáticas de atributos, cuyas funciones semánticas son proporcionadas mediante métodos de clases Java. El entorno incluye un generador que traduce las gramáticas de atributos en implementaciones expresadas en el lenguaje de CUP (una herramienta Java para la construcción de analizadores/traductores ascendentes). XLOP soporta la evaluación on‐line de los atributos (es decir, simultáneamente al procesamiento de los documentos). Así mismo, el entorno permite optimizar las implementaciones CUP mediante el cálculo de marcadores (nuevos no terminales definidos mediante producciones vacías). Dichos marcadores permiten albergar atributos heredados, y sus producciones disparar la evaluación de ecuaciones semánticas. Así mismo, bajo ciertas circunstancias, XLOP optimiza la propagación de atributos hereadados a través de cadenas generadas por recursión a izquierda, permitiendo referir directamente el valor al comienzo de la cadena. En muchos casos, esto permite procesar documentos con una cantidad de memoria que no depende de la anchura de los mismos. A fin de probar la potencialidad de XLOP para el desarrollo de aplicaciones XML, en este trabajo se ha desarrollado mediante XLOP una aplicación no trivial en el dominio de e‐ Learning. La aplicación, que se denomina , permite generar tutoriales interactivos a partir de su descripción como documentos XML. [ABSTRACT] In this work we have developed an environment for processing XML documents with attribute grammars. This environment is called XLOP (XML Language‐Oriented Processing). XLOP provides a specification language that makes it posible to describe XML processing applications with attribute grammars. The semantic functions used in these grammars are supplied as methods in Java classes. The environment provides a generator for translating attribute grammars to CUP‐based implementations (CUP is a Java tool for building bottom‐up parsers/translators). XLOP gives support to an on‐line attribute evaluation model (i.e., attribute evaluation is interleaved with document parsing). Also, the environment allows the optimization of the CUP implementations by computing markers (new non‐terminals that are defined using empty syntax rules). These markers are useful for containing inherited attributes. Also, their syntax rules can be used for firing the evaluation of semantic equations. In addition, under certain reasonable assumptions, XLOP optimizes the propagation of inherited attributes through chains generated by left‐recursive rules, enabling the direct referencing to the value placed at the beginning of the chain. In many cases, it makes it possible to process documents with a space that does not depend on the document width. In order to test the feasibility of XLOP in the development of XML applications, in this work we have developed a non‐trivial application in the e‐Learning domain using XLOP. The application, which is called , supports the generation of interactive tutorials described as XML documents

    Adquisición y representación del conocimiento mediante procesamiento del lenguaje natural

    Get PDF
    [Resumen] Este trabajo introduce un marco para la recuperación de información combinando el procesamiento del lenguaje natural y conocimiento de un dominio, abordando la totalidad del proceso de creación, gestión e interrogación de una colección documental. La perspectiva empleada integra automáticamente conocimiento lingüístico en un modelo formal de representación semántica, directamente manejable por el sistema. Ello permite la construcción de algoritmos que simplifican las tareas de mantenimiento, proporcionan un acceso más flexible al usuario no especializado, y eliminan componentes subjetivas que lleven a comportamientos difícilmente predecibles. La adquisición de conocimientos lingüísticos parte de un análisis de dependencias basado en un formalismo gramatical suavemente dependiente del contexto. Conjugamos de este modo eficacia computacional y potencia expresiva. La interpretación formal de la semántica descansa en la noción de grafo conceptual, sirviendo de base para la representación de la colección y para las consultas que la interrogan. En este contexto, la propuesta resuelve la generación automática de estas representaciones a partir del conocimiento lingüístico adquirido de los textos y constituyen el punto de partida para su indexación. Luego, se utilizan operaciones sobre grafos así como el principio de proyección y generalización para calcular y ordenar las respuestas, de tal manera que se considere la imprecisión intrínseca y el carácter incompleto de la recuperación. Además, el aspecto visual de los grafos permiten la construcción de interfaces de usuario amigables, conciliando precisión e intuición en su gestión. En este punto, la propuesta también engloba un marco de pruebas formales.[Resumo] Este traballo introduce un marco para a recuperación de información combinando procesamento da linguaxe natural e o coñecemento dun dominio, abordando a totalidade do proceso de creación, xestión e interrogación dunha colección documental. A perspectiva empregada integra automáticamente coñecementos lingüísticos nun modelo formal de representación semántica, directamente manexable polo sistema. Isto permite a construción de algoritmos que simplifican as tarefas de mantemento, proporcionan un acceso máis flexible ao usuario non especializado, e eliminan compoñentes subxectivos que levan a comportamentos difícilmente predicibles. A adquisición de coñecementos lingüísticos parte duhna análise de dependencias basada nun formalismo gramatical suavemente dependente do contexto. Conxugamos deste modo eficacia computacional e potencia expresiva. A interpretación formal da semántica descansa na noción de grafo conceptual, servindo de base para a representación da colección e para as consultas que a interrogan. Neste contexto, a proposta resolve a xeración automática destas representacións a partires do coñecemento lingüístico adquirido dos textos e constitúe o punto de partida para a súa indexación. Logo, empréganse operacións sobre grafos así como o principio de proxección e xeneralización para calcular e ordenar as respostas, de tal maneira que se considere a imprecisión intrínseca e o carácter incompleto da recuperación. Ademáis, o aspecto visual dos grafos permiten a construción de interfaces de usuario amigables, conciliando precisión e intuición na súa xestión. Neste punto, a proposta tamén engloba un marco de probas formais.[Abstract] This thesis introduces a framework for information retrieval combining natural language processing and a domain knowledge, dealing with the whole process of creation, management and interrogation of a documental collection. The perspective used integrates automatically linguistic knowledge in a formal model of semantic representation directly manageable by the system. This allows the construction of algorithms that simplify maintenance tasks, provide more flexible access to non-specialist user, and eliminate subjective components that lead to hardly predictable behavior. The linguistic knowledge adquisition starts from a dependency parse based on a midly context-sensitive grammatical formalism. In this way, we combine computational efficiency and expressive power. The formal interpretation of the semantics is based on the notion of conceptual graph, providing a basis for the representation of the collection and for queries that interrogate. In this context, the proposal addresses the automatic generation of these representations from linguistic knowledge acquired from texts and constitute the starting point for indexing. Then operations on graphs are used and the principle of projection and generalization to calculate and manage replies, so that is considered the inherent inaccuracy and incompleteness of the recovery. In addition, the visual aspect of graphs allow the construction of user-friendly interfaces, balancing precision and intuition in management. At this point, the proposal also includes a framework for formal testing

    Herramienta para clasificación de Tweets en inglés

    Get PDF
    En este documento se explica la herramienta desarrollada para el Trabajo Fin de Grado, cuyo objetivo principal es conocer la calidad de un usuario en Twitter mediante el análisis de una serie de indicadores. El proyecto de investigación hace uso del parser de Stanford para poder analizar los indicadores lingüísticos, como, por ejemplo, determinar el número de patrones sintácticos distintos en cada cuenta de usuario, y así conocer la variabilidad de sus tweets. Para el caso del registro lingüístico, se utiliza el Wiktionary, donde hacemos uso de una lista de palabras en inglés y su frecuencia de uso para poder determinar el porcentaje de palabras cultas usadas en los tweets. Otros indicadores los hemos denotado como ‘generales’ y contienen información característica de Twitter, como el número de seguidores y enlaces, haciendo uso de la API de Twitter llamada Twitter4j, y filtrando tweets en inglés con el proyecto Language-detection de Google code. Por último, utilizamos indicadores temporales en referencia a la frecuencia de twitteo. Se analizan un conjunto de cuentas de diferentes tipos: cuentas de medios de comunicación, cuentas fake, imitadas o parodiadas por las fake, bots, cuentas de calidad y usuarios escogidos aleatoriamente, para evaluar los diferentes indicadores considerados y su utilidad para caracterizar tipos de usuarios. Mediante el uso de los box-plots, podemos generar gráficos para visualizar el conjunto de valores obtenidos para cada indicador, y poder diferenciar unas cuentas de otras.This document describes a tool developed in the bachelor thesis, the main objective of which is to detect the quality of a Twitter user by analyzing a set of indicators. The research project uses the Stanford Parser to analyze the linguistic indicators, for example to determine the number of different syntactic patterns in each user account, and then know the variability of their tweets. In the case of linguistic register, the list of English words and their frequency of use from Wiktionary is used to determine the percentage of learned words used in tweets. Other indicators called ‘generals’ contain characteristic information of Twitter, such as followers number and links, using the Twitter API called Twitter4J, and filtering tweets in English using the Language-detection Project of Google code. Finally, temporal indicators are used in reference to the tweeting frequency. A different types accounts set is analyzed: media accounts, fake, imitated or parodied by fake, bots, quality accounts and randomly chosen users to evaluate different indicators considered and its usefulness to characterize user types. Using the box-plots, graphs to display the set of values obtained for each indicator and be able to differentiate accounts generated.Ingeniería Telemátic

    End User Grammar Extended for Business Processes - EUGEBP

    Get PDF
    El concepto proceso de negocio está estrechamente vinculado a la forma en la que una organización gestiona sus operaciones. Conocer y comprender las operaciones de una organización es un punto clave que se debe tener presente dentro del proceso de desarrollo de software. A su vez, el enfoque de desarrollo dirigido por modelos denominado MockupDD captura requerimientos usando prototipos de interfaz de usuario denominados Mockups. Los usuarios finales pueden comprender fácilmente dichos prototipos y realizar anotaciones sobre los mismos. Este enfoque se basa en ésta característica principal y a partir de la misma genera valiosos modelos conceptuales que luego pueden ser aprovechados por todos los integrantes de un equipo de desarrollo de software. Utilizar el lenguaje natural para realizar anotaciones sobre los Mockups es un aspecto clave que puede ser aprovechado. En éste último aspecto una rama de la inteligencia artificial denominada “Natural Language Processing – Procesamiento del Lenguaje Natural” (NLP) viene realizando importantes aportes vinculados al uso y al aprovechamiento del lenguaje natural de las personas. El presente trabajo de tesis propone una nueva técnica denominada “End User Grammar Extended for Business Processes – Gramática de Usuario Final Extendida para Procesos de Negocios” (EUGEBP). La misma está compuesta por un conjunto de reglas de redacción diseñada para ser aplicada sobre Mockups, y por una serie de pasos que permiten procesar dichas anotaciones con el propósito derivar procesos de negocios desde las mismas. Esto se logra a través de la identificación de los elementos que componen los procesos de negocios y de las relaciones que existen entre ellos. En esencia el presente trabajo propone utilizar las anotaciones de usuario final realizadas sobre los Mockups en lenguaje natural y a partir de las mismas derivar procesos de negocio. Las anotaciones del usuario final tienen como objetivo ayudar a describir las interfaces de usuario, pero también pueden ayudarnos a identificar los procesos de negocio que el sistema debe soportar. Mientras en analista recopila información para el desarrollo de una aplicación, implícitamente también está describiendo los procesos de negocio de la organización.Facultad de Informátic

    Extracción de relaciones semánticas y entidades en documentos del dominio de salud

    Get PDF
    "Los métodos de procesamiento del lenguaje natural (PLN) se utilizan cada vez más para extraer conocimientos de textos de salud no estructurados. Por ejemplo, analizar información médica, estructurarla en categorías definidas y agruparlas en bases de datos. La organización de la información médica puede ser de utilidad para análisis clínicos, para disminuir el número de errores médicos, o puede ayudar a la toma de decisiones más adecuadas en determinados casos. En esta tesis se espera extraer automáticamente una gran variedad de conocimientos de documentos de salud redactados en español. Esta investigación aborda un escenario, donde para resolver las tareas de identificación de entidades y extracción de relaciones semánticas se utiliza una metodología basada en el uso de redes neuronales recurrentes. Para evaluar la metodología se hará uso de las métricas: precisión, exhaustividad y F1"

    Estudio de la explotación de información sintáctica para la extracción de interacciones farmacológicas en textos biomédicos

    Get PDF
    Para la correcta administración de fármacos es necesario saber de antemano si los fármacos interaccionan entre sí, ya que las consecuencias pueden ser perjudiciales si la interacción causa un aumento de la toxicidad del fármaco o la disminución de su efecto, pudiendo provocar incluso la muerte del paciente en los peores casos. Actualmente, el personal sanitario tiene a su disposición varias bases de datos sobre interacciones que permiten evitar posibles interacciones a la hora de administrar tratamientos, pero estas bases de datos no están completas. Por este motivo se ven obligados a revisar una gran cantidad de artículos científicos e informes para estar al día pero el gran volumen de información al respecto hace que estén desbordados ante tal avalancha; Todo esto hace necesario un método automático de extracción de la información de estas fuentes de datos para la detección de interacciones entre fármacos. Motivados por estos problemas de gestión de la información, en este proyecto se desarrolla un sistema para la extracción de interacciones farmacológicas sobre textos biomédicos planteando una alternativa al sistema desarrollado por Isabel Segura, en el que se plantean dos aproximaciones (una basada en patrones y uso de información sintáctica superficial, y otro basado de aprendizaje automático, en particular en métodos kernels basados en el uso de información sintáctica superficial). El objetivo general de este proyecto es el estudio de la aportación de información sintáctica completa (obtenida con el analizador Stanford en un sistema basado en clasificadores clásicos (NaiveBayes, HypePipes, JRip, RandomForest, etc.) para resolver el problemas de extracción de interacciones. Como objetivo final, por tanto, compararemos el sistema basado en kernels propuesto con nuestro sistema, además de comparar la aportación de la información sintáctica completa (árboles sintácticos) frente a la superficial (solo sintagmas) usada en los kernels. El resultado de esta combinación de información será analizado con distintos algoritmos de aprendizaje automático de WEKA (Waikato Environment for Knowledge Análisis) para su posterior comparación.Ingeniería Técnica en Telemátic

    Identificación de múltiples intenciones y sus dependencias subsumidas en múltiples utterances para el desarrollo de Chatbots

    Get PDF
    Los chatbots son sistemas de procesamiento de lenguaje natural con los que se puede interactuar mediante una interfaz de texto o voz, y han sido adoptados en muchas industrias para responder las preguntas y solicitudes de los usuarios a través de interfaces de chat. Por ende, los chatbots tienen un valor comercial como asistentes virtuales. Tanto es así que se está trabajando en que los chatbots puedan comunicarse con los usuarios de manera similar a la comunicación que hay entre dos humanos; en otras palabras, un usuario debe experimentar la sensación de comunicarse con una persona. A su vez, dado que los chatbots eliminan los factores humanos y están disponibles las 24 horas del día, hay un incremento en la demanda de las capacidades de inteligencia artificial para interactuar con los clientes. En este aspecto, la sensación de comunicarse con una persona puede ser lograda mediante la inclusión de técnicas de comprensión del lenguaje natural, procesamiento del lenguaje natural, generación del lenguaje natural y aprendizaje automático. De este modo, los chatbots son capaces de interpretar una o varias intenciones comunicativas en cada “utterance” de un usuario, siendo que un “utterance” es todo lo que el usuario o chatbot mencionan mientras es su turno de hablar o escribir. Así mismo, los chatbots pueden asociar una o varias intenciones comunicativas a un identificador de “utterances” que contiene varios “utterances”. Por ende, a partir del “utterance” de un usuario, un chatbot es capaz de interpretar una o varias intenciones comunicativas asociadas a un identificador de “utterances”, a través del cual usa los “utterances” contenidos para escoger o generar un “utterance” como respuesta al usuario. No obstante, si bien un chatbot puede identificar múltiples intenciones comunicativas en un enunciado, de un usuario, con un “utterance”, no puede identificar múltiples intenciones comunicativas en un enunciado, de un usuario, que contenga múltiples “utterances”. En consecuencia, tampoco se ha investigado como encontrar los “utterances” de respuesta del chatbot cuando se tiene múltiples “utterances”. Por lo descrito previamente, en este proyecto se propone la implementación de una herramienta para: identificar múltiples intenciones comunicativas en múltiples “utterances”, identificar las dependencias entre intenciones, agrupar las intenciones a partir de sus dependencias, identificar las dependencias entre los grupos de intenciones respecto de los identificadores de “utterances” y los identificadores de “utterances” respecto de los “utterances”. Además, para facilitar el uso de la herramienta, se elabora una interfaz de programación de aplicaciones que recibe múltiples “utterances” en forma de texto, y devuelve los “utterances” segmentados, las intenciones identificadas, los grupos entre intenciones y los “utterances” de respuesta del chatbot para cada grupo de intenciones. Los resultados obtenidos evidencian que los enfoques utilizados son exitosos. Por último, se espera mejorar los resultados con técnicas de inteligencia artificial y computación lingüística

    Organización de unidades en el desarrollo del discurso político

    Get PDF
    Current approaches to the study of political speeches insist on the traditional textual structure consisting of "introduction, body and conclusion" (cf. Reisgl 2008). Cortés (2011) complements this structure with thematic units, so that the introduction, the body and the conclusion are made up of multiple "themes" and "sub-themes". This article focuses on the units of the body of the speech, taking them as "discourse units" (cf. Garrido, 2011): structured units that build structures through "coherence relations" (cf. Mann y Thompson 1988). In order to describe the organization of the body of the speech, we analyze the first sentences of its discourse units, where the text is organized by means of "indirect coherent relations" (cf. Duque 2014). Results show that these relations shape a far more complex organization than the succession of themes. Our approach is illustrated with the analysis of the 2006 State of the Madrid Region.Los acercamientos actuales al análisis del discurso político sostienen la tradicional estructura textual compuesta por "inicio, desarrollo y cierre" (cf. Reisigl 2008). Cortés (2011) complementa estas tres unidades con otras caracterizadas por criterios temáticos: los inicios, los desarrollos y los cierres del discurso político están formados por múltiples unidades que tratan "temas" y "subtemas". En el presente artículo nos limitamos al estudio de las unidades que constituyen el desarrollo, entendiéndolas como "discursos" (cf. Garrido 2011): unidades estructuradas y que constituyen estructuras mediante "relaciones de coherencia" (cf. Mann y Thompson 1988). Para estudiar la organización del desarrollo, proponemos un análisis de las primeras oraciones de cada uno de sus discursos. En estas oraciones, el texto se organiza mediante "relaciones de coherencia indirectas" que conectan discursos (cf. Duque 2014). Los resultados muestran que estas relaciones dan forma a una organización mucho más compleja que la sucesión temática lineal. La propuesta se ilustra con el análisis de un discurso del estado de la región de Madrid
    corecore