33 research outputs found

    Adquisición y representación del conocimiento mediante procesamiento del lenguaje natural

    Get PDF
    [Resumen] Este trabajo introduce un marco para la recuperación de información combinando el procesamiento del lenguaje natural y conocimiento de un dominio, abordando la totalidad del proceso de creación, gestión e interrogación de una colección documental. La perspectiva empleada integra automáticamente conocimiento lingüístico en un modelo formal de representación semántica, directamente manejable por el sistema. Ello permite la construcción de algoritmos que simplifican las tareas de mantenimiento, proporcionan un acceso más flexible al usuario no especializado, y eliminan componentes subjetivas que lleven a comportamientos difícilmente predecibles. La adquisición de conocimientos lingüísticos parte de un análisis de dependencias basado en un formalismo gramatical suavemente dependiente del contexto. Conjugamos de este modo eficacia computacional y potencia expresiva. La interpretación formal de la semántica descansa en la noción de grafo conceptual, sirviendo de base para la representación de la colección y para las consultas que la interrogan. En este contexto, la propuesta resuelve la generación automática de estas representaciones a partir del conocimiento lingüístico adquirido de los textos y constituyen el punto de partida para su indexación. Luego, se utilizan operaciones sobre grafos así como el principio de proyección y generalización para calcular y ordenar las respuestas, de tal manera que se considere la imprecisión intrínseca y el carácter incompleto de la recuperación. Además, el aspecto visual de los grafos permiten la construcción de interfaces de usuario amigables, conciliando precisión e intuición en su gestión. En este punto, la propuesta también engloba un marco de pruebas formales.[Resumo] Este traballo introduce un marco para a recuperación de información combinando procesamento da linguaxe natural e o coñecemento dun dominio, abordando a totalidade do proceso de creación, xestión e interrogación dunha colección documental. A perspectiva empregada integra automáticamente coñecementos lingüísticos nun modelo formal de representación semántica, directamente manexable polo sistema. Isto permite a construción de algoritmos que simplifican as tarefas de mantemento, proporcionan un acceso máis flexible ao usuario non especializado, e eliminan compoñentes subxectivos que levan a comportamentos difícilmente predicibles. A adquisición de coñecementos lingüísticos parte duhna análise de dependencias basada nun formalismo gramatical suavemente dependente do contexto. Conxugamos deste modo eficacia computacional e potencia expresiva. A interpretación formal da semántica descansa na noción de grafo conceptual, servindo de base para a representación da colección e para as consultas que a interrogan. Neste contexto, a proposta resolve a xeración automática destas representacións a partires do coñecemento lingüístico adquirido dos textos e constitúe o punto de partida para a súa indexación. Logo, empréganse operacións sobre grafos así como o principio de proxección e xeneralización para calcular e ordenar as respostas, de tal maneira que se considere a imprecisión intrínseca e o carácter incompleto da recuperación. Ademáis, o aspecto visual dos grafos permiten a construción de interfaces de usuario amigables, conciliando precisión e intuición na súa xestión. Neste punto, a proposta tamén engloba un marco de probas formais.[Abstract] This thesis introduces a framework for information retrieval combining natural language processing and a domain knowledge, dealing with the whole process of creation, management and interrogation of a documental collection. The perspective used integrates automatically linguistic knowledge in a formal model of semantic representation directly manageable by the system. This allows the construction of algorithms that simplify maintenance tasks, provide more flexible access to non-specialist user, and eliminate subjective components that lead to hardly predictable behavior. The linguistic knowledge adquisition starts from a dependency parse based on a midly context-sensitive grammatical formalism. In this way, we combine computational efficiency and expressive power. The formal interpretation of the semantics is based on the notion of conceptual graph, providing a basis for the representation of the collection and for queries that interrogate. In this context, the proposal addresses the automatic generation of these representations from linguistic knowledge acquired from texts and constitute the starting point for indexing. Then operations on graphs are used and the principle of projection and generalization to calculate and manage replies, so that is considered the inherent inaccuracy and incompleteness of the recovery. In addition, the visual aspect of graphs allow the construction of user-friendly interfaces, balancing precision and intuition in management. At this point, the proposal also includes a framework for formal testing

    Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje natural

    Get PDF
    [Resumen] El objetivo último que persigue el Procesamiento del Lenguaje Natural es el perfecto análisis y entendimiento de los lenguajes humanos. Actualmente, estamos todavía lejos de conseguir este objetivo. Por esta razón, la mayoría de los esfuerzos de investigación de la lingiiística computacional han sido dirigidos hacia tareas intermedias que dan sentido a alguna de las múltiples características estructurales inherentes a los lenguajes, sin requerir un entendimiento completo. Una de esas tareas es la asignación de categorías gramaticales a cada una de las palabras del texto. Este proceso se denomina también etiquetación. La eliminación de ambigiiedades es una tarea crucial durante el proceso de etiquetación de un texto en lenguaje natural. Si tomamos aisladamente, por ejemplo, la palabra sobre, vemos que puede tener varias categorías posibles en español: sustantivo, preposición o verbo. Sin embargo, si examinamos el contexto en el que aparece dicha palabra, seguramente sólo una de ellas es posible. Por otra parte, el interés se centra también en asignar una etiqueta a todas aquellas palabras que aparecen en los textos, pero que no están presentes en nuestro diccionario, y garantizar de alguna manera que ésa es la etiqueta correcta. Un buen rendimiento en esta fase asegura la viabilidad de procesamientos posteriores tales como los análisis sintáctico y semántico. Tradicionalmente, el problema de la etiquetación se aborda a partir de recursos lingiiísticos bajo la forma de diccionarios y textos escritos, previamente etiquetados o no. Esta línea de desarrollo se denomina lingiiística basada en corpus. Dichos textos se utilizan para ajustar los parámetros de funcionamiento de los etiquetadores. Este proceso de ajuste se denomina entrenamiento. Las técnicas tradicionales engloban métodos estocásticos, tales como los modelos de Markov ocultos, los árboles de decisión o los modelos de máxima entropía, y también aproximaciones basadas en reglas, tales como el aprendizaje de etiquetas basado en transformaciones y dirigido por el error. La mayoría de las herramientas basadas en estos paradigmas de etiquetación resultan ser de propósito general, en el sentido de que pueden ser aplicadas a textos en cualquier idioma. Ésta es una idea muy atractiva, pero surge la duda de si un etiquetador diseñado especialmente para una lengua dada puede ofrecer mejores rendimientos o no. Por tanto, el primer objetivo del presente trabajo consiste en implementar una nueva herramienta de etiquetación que permita integrar información específica para el español, y posteriormente realizar una evaluación exhaustiva de todos estos modelos. Este estudio es de gran interés ya en sí mismo, dado que los recursos lingiiísticos disponibles para el español no abundan, y por tanto existen todavía muy pocas cifras concretas que proporcionen una idea clara del comportamiento de los etiquetadores sobre nuestro idioma. Aún con todo esto, un pequeño porcentaje de palabras etiquetadas erróneamente (2-3%) es una característica que está siempre presente en los sistemas de etiquetación puramente estocásticos. Por esta razón, apoyamos la idea del uso de estos sistemas en combinación con información sintáctica, esto es, con técnicas de análisis sintáctico robusto, y éste es precisamente el segundo de los objetivos del presente trabajo. Cuando una frase es correcta, pero la gramática no es capaz de analizarla, todavía es posible considerar los subárboles correspondientes a los análisis parciales de fragmentos válidos de la frase. El posterior estudio de estos subárboles puede ser utilizado, por ejemplo, para completar la gramática, generando automáticamente las reglas sintácticas necesarias para analizar la frase. Éste es precisamente el objetivo más ambicioso del análisis sintáctico robusto. En nuestro caso particular, resulta de especial interés la consideración de las etiquetas de las palabras de dichos subárboles como información adicional de apoyo para las técnicas tradicionales de etiquetación. La estrategia consiste en combinar esas subsecuencias de etiquetas para generar varias etiquetaciones completas posibles de la frase en cuestión, y posteriormente aplicar un filtro estadístico para elegir la secuencia global más probable.[Abstract] The ultimate goal of research on Natural Language Processing is to parse and understand human languages. Currently, we are still far from achieving this goal. For this reason, much research in computational linguistics has focussed on intermediate tasks that make sense of some of the structure inherent in language without requiring complete understanding. One such task is part-of-speech tagging, or simply tagging. Elimination of lexical ambiguities is a crucial task during the process of tagging a text in natural language. If we take in isolation, for instance, the word time, we can see that it has several possible tags in English: substantive, adjective or verb. However, if we examine the context in which the word appears, only one of the tags is possible. In addition, we are also interested in being able to give a tag to all the words that appear in a text, but are not present in our dictionary, and to guarantee somehow that this tag is the correct one. A good performance at this stage will improve the viability of syntactic and semantic analysis. Traditionally, the starting point for tagging is linguistic resources like dictionaries and written texts, previously tagged or not. This research line is called corpus-based linguistics. These corpora are used to tune the running parameters of the taggers. This tuning process is called training. Traditional techniques involve stochastic methods, such as hidden Markov models, decision trees or maximum entropy models, and also rule-based approaches, such as transformation-based error-driven learning of tags. Most tools based on these tagging paradigms are general purpose, to the eífect that they can be applied to texts in any language. This is a very attractive idea, but begs the question of whether a tagger specifically designed for a particular language is able to provide better performance. Therefore, the first goal of the present work is to implement a new tagger able to integrate specific information on Spanish, and then to perform an exhaustive evaluation of all the above-mentioned models. This study is in itself very interesting, because there are very few available linguistic resources for Spanish and very few concrete data about the behaviour of taggers on our language. However, a small percentage of wrongly tagged words (2-3%) is a feature that is always present in pure stochastic taggers. For this reason we support the idea of using these in combination with syntactic information, that is, with robust parsing techniques, and this is the second goal of the present work. When a sentence is correct and the grammar is not able to parse it, it is still possible to consider all subtrees corresponding to all partial analyses of valid fragments of the sentence. A later study of these subtrees can be used, for instance, to complete the grammar by automatically generating all the syntactic rules we need to parse the sentence. This is in fact the most ambitious goal in robust parsing. In our particular case, it is important to consider all the word tags of the subtrees in question as additional information that can be useful for traditional techniques of tagging. Our strategy combines these subsequences of tags in order to generate several complete taggings for a given sentence, and then applies a probabilistic filter to choose the most probable one

    Análisis sintáctico combinado de gramáticas de adjunción de árboles y de gramáticas de inserción de árboles

    No full text
    La operación de adjunción es el mecanismo que hace de las Gramáticas de Adjunción de Árboles (TAG) un formalismo adecuado para la descripción de la estructura sintáctica de los lenguajes naturales. Sin embargo, en la práctica, una porción importante de las gramáticas de amplia cobertura creadas siguiendo este formalismo está formada por árboles que pueden ser combinados mediante un tipo de adjunción más simple, el definido para las Gramáticas de Inserción de Árboles (TIG). En este artículo se describe un algoritmo de análisis sintáctico que hace uso de esta característica para reducir la complejidad práctica del análisis sintáctico de TAG, de tal modo que la costosa operación de adjunción estándar se utiliza sólo en aquellos casos en los que la versión TIG de adjunción no puede ser aplicada.Adjunction is a powerful operation that makes Tree Adjoining Grammar (TAG) useful for describing the syntactic structure of natural languages. In practice, a large part of wide coverage grammars written following the TAG formalism is formed by trees that can be combined by means of the simpler kind of adjunction defined for Tree Insertion Grammar. In this article, we describe a parsing algorithm that makes use of this characteristic to reduce the practical complexity of TAG parsing: the expensive standard adjunction operation is only considered in those cases in which the simpler cubic-time adjunction cannot be applied.Parcialmente financiado por el Plan Nacional de Investigación Científica, Desarrollo e Innovación Tecnológica (TIC2000-0370-C02-01), Ministerio de Ciencia y Tecnología (HP2001-0044) y Xunta de Galicia (PGIDT01PXI10506PN)

    Lingüística computacional y anáfora

    Get PDF
    Los objetivos de esta tesis, como se puede colegir del propio título, Lingüística computacional y anáfora, son harto complejos y ambiciosos. En primer lugar, porque nos vemos abocados a pincelar qué es la propia Lingüística, para llegar a definir qué es la Lingüística computacional. Y definir qué es la Lingüística computacional no es una tarea fácil, cuando ni los propios investigadores se ponen de acuerdo ni en su denominación ni en su objeto de estudio. Por ello, el primer y segundo capítulo de este trabajo responden al propósito de definir qué es la Lingüística computacional y, sobre todo, qué no es Lingüística computacional, cuáles son las subdisciplinas de la Lingüística computacional y, como disciplina aplicada, cuáles son sus aplicaciones. El siguiente paso que hemos querido tratar es un fenómeno lingüístico que ha suscitado el interés de la Lingüística computacional: la anáfora. Y, como la anáfora, fenómeno pragmático, ha estado íntimamente ligada al pronombre, categoría sintáctica, las cuestiones que se han tenido que abordar también han sido considerables. En primer lugar, se ha dedicado el capítulo tercero a una descripción y revisión crítica de las principales aportaciones lingüísticas sobre este tema. Como se podrá comprobar, aunque existen ideas muy heterogéneas, también existen denominadores comunes, como la consideración del pronombre como sustituto del nombre, la identificación del pronombre por sus propiedades deícticas y anafóricas/catafóricas… En segundo lugar, hemos dedicado el capítulo cuarto, a dos objetivos. El primero persigue definir desde la Lingüística qué es el pronombre, y siendo una categoría sintáctica, no se puede llevar a cabo esta empresa a expensas del resto de categorías. Como es bien conocido por el Estructuralismo clásico, no se puede definir el valor de un elemento per se, sino en oposición al resto de elementos. Así pues, hemos creído conveniente que se debía definir el pronombre frente al resto de categorías sintácticas. Una vez identificado el pronombre como categoría sintáctica, se han descrito sus propiedades semánticas y pragmáticas. Una vez que se han definido las propiedades sintácticas, semánticas y pragmáticas del pronombre, hemos tratado de ofrecer dos teorías formales, la LFG y la SDRT, que creemos que se ajustan a nuestros presupuestos teóricos y que, además, tienen la ventaja de tener una implementación formal.The objectives of this thesis, as can be deduced from its title, Computational linguistics and anaphora, are very complex and ambitious. In the first place, we have tried to define in a clear and exclusive way what we understand as computational linguistics. The following topic that we have intended to analyze is a linguistic phenomenon that has raised the interest of computational linguistics: the anaphora and its grammatical equivalent, the pronoun. In the first place, we have devoted the third chapter to a critical description and revision of the main linguistic contributions on this topic. As the reader will be able to see, even though different heterogeneous ideas exist there are also common denominators, such as the consideration of the pronoun as a substitute of the noun, the identification of the pronoun by its deictic and anaphoric/cataphoric properties, etc. In the second place, we have devoted the fourth chapter to two objectives. The first one aspires to define what a pronoun is from the perspective of Linguistics, showing that as a syntactic category it cannot be described at the expense of the rest of categories. As it is well known since classic Structuralism, we cannot define the value of an element per se, but in opposition to the rest of elements. Therefore, we have found convenient to define the pronoun in opposition to the rest of syntactic categories. Once the pronoun was defined as a syntactic category, we described its semantic and pragmatic properties. After its syntactic, semantic and pragmatic properties were defined, we presented two formal theories, the LFG and the SDRT, which we believe adjust to our theoretical assumptions and which also have the advantage of having a formal implementation

    Análisis contrastivo de la derivación nominal en español y en chino

    Get PDF
    El presente trabajo nace de la necesidad de dar a conocer las similitudes y las diferencias existentes tanto en el proceso derivativo como en la estructura mental de las dos lenguas, el español y el chino, con una distancia tipológicamente muy alejada.Al mismo tiempo, también nos interesa aportar unas sugerencias didácticas basándonos en los resultados extraídos de este trabajo, con el fin de facilitar la enseñanza de los derivados nominales en español a alumnos chinos.Nuestra tesis está dividida en siete capítulos, que pasamos a exponer en lo que sigue: El primero es una introducción general de los objetivos y las aportaciones de este trabajo. También se da noticia de algunos de los estudios fundamentales que han sido el punto de partida de nuestra tesis. Y que permiten dar cuenta del estado en que se halla la investigación sobre la derivación nominal en ambas lenguas.El segundo capítulo se centra en el marco teórico en el que nos apoyamos y en la metodología aplicada. Las principales teorías puestas de relieve son la Lingüística Contrastiva y la Lingüística Cognitiva. Respecto de la primera de esas disciplinas,hemos hecho hincapié en los conceptos de “Análisis Contrastivo” y de “Interlengua”; y respecto de la segunda, en los conceptos de “Gramática Cognitiva”,“Conceptualización” y “Metonimia”. Las dos teorías han servido para guiarnos en nuestro intento de llevar a cabo un análisis contrastivo. En ese segundo capítulo también hemos trazado las líneas metodológicas adoptadas en este trabajo, líneas que combinan el método cuantitativo, el cualitativo, el inductivo y el deductivo, aplicados,claro está, a los datos extraídos de tres corpus: el Diccionario inverso de la lengua española (1978), el BCC y el CORPES XXI. De los dos primeros hemos obtenido todos los derivados nominales del español y del chino; del tercero, ejemplos de los contextos en que aparecen tales derivados, con el fin de proponer nuevos ejercicios en los manuales usados en China..

    Un modelo neuropsicolingüistico para la interpretación de errores morfológicos en afásicos agramáticos de habla española

    Get PDF
    [spa] Se elabora una hipótesis sobre un modelo neuropsicolingüístico que sirva para interpretar los errores morfológicos realizados por tres afásicos agramáticos de habla española. El modelo incorpora nociones de los sistemas de procesamiento de la información (Dell, 1986), de la lingüística y el componente morfológico (Lieber, 1980), y de los sistemas gramaticales formales para explicar las habilidades alteradas/intactas de estos pacientes observadas en tres tareas psicolingüísticas como son la repetición, comprensión y producción de oraciones. La hipótesis examinada se ha centrado en la necesidad de una interpretación de los errores observados en las patologías del lenguaje a partir, no de organizaciones internas de cada lengua natural, sino de la utilización de estrategias compensatorias que posibilitan el uso de algoritmos distintos al "normal", al menos en ciertas etapas de procesamiento de esos algoritmos. Desde un punto de vista empírico, además de la explicación de errores del habla en sujetos normales y patológicos a partir de un modelo conjunto, el trabajo se propone realzar la consideración, para un futuro, de la creación de "tests" específicos que permitan recuperar la conducta alterada o perdida de los pacientes afectos de una neuropatología del lenguaje

    Relaciones sintácticas. Homenaje a José M. Brucart y M. Lluïsa Hernanz

    Get PDF
    El presente volumen recoge los trabajos de algunos amigos y colegas de M. Lluïsa Hernanz i José M. Brucart. Con este libro se pretende rendir homenaje a su dilatada labor docente, a su inestimable contribución al estudio de la gramática del español y a su particular manera de concebir la formación universitaria como una actividad orientada también a educar en valore

    Gramática y diccionario: el prefijo re-

    Full text link
    Tesis doctoral inédita, leída en la Universidad Autónoma de Madrid, Facultad de Filosofía y Letras, Departamento de Filología Española. Fecha de lectura: 25-06-199
    corecore