Search CORE

58 research outputs found

Una aproximación para resolución de ambigüedad estructural empleando tres mecanismos diferentes

Author: Bolshakov Igor Alekseevich
Galicia Haro Sofía Natalia
Gelbukh Khan Alexander Felixovitch
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2001
Field of study

La ambigüedad estructural es uno de los problemas más difíciles de resolver en sistemas de procesamiento de lenguaje natural. Consideramos dos tipos de resolución de ambigüedad estructural que pueden emplearse en el análisis de textos sin restricciones: conocimiento léxico y cierta clase de contexto. En este trabajo, proponemos un modelo basado en tres diferentes mecanismos para revelar la estructura sintáctica correcta y un módulo de clasificación para obtener las estructuras más probables para la oración analizada. Nuestro modelo está dirigido al análisis de textos sin restricciones y las herramientas desarrolladas no requieren ninguna desambiguación de marcas morfológicas ni ningún tipo de marcas sintácticas.Trabajo hecho con apoyo parcial del CONACyT, SNI y CGEPI-IPN, México

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

Estudio de un sistema de clasificación automática de textos según las emociones del texto y el perfil de los autores

Author: Pérez Benayas Carolina
Publication venue
Publication date: 29/09/2017
Field of study

Debido al gran volumen de información que hay disponible en Internet se hace necesario el desarrollo de técnicas para la clasificación de esta información de manera automática. Además de las clasificaciones típicas que consisten en dividir los documentos a clasificar según su temática o su autor, por el gran uso que se hace hoy en día de herramientas como las redes sociales o los blogs y la cantidad de opiniones o críticas que los usuarios publican en ellos resulta interesante el estudio de sistemas que permitan clasificar todos estos textos publicados en Internet según el perfil de los autores o según las emociones que los textos expresan, ya que ello permitiría a los usuarios, por ejemplo, detectar los comentarios malos sobre un determinado producto que están interesados en adquirir. Este Proyecto Fin de Carrera estudiará los diferentes algoritmos de clasificación y las características del lenguaje que es necesario tener en cuenta para el desarrollo de un sistema de clasificación automática de textos según el sentimiento que expresan o según el perfil de los autores, así como las fases de las que consta el diseño de estos sistemas. Por último, se presentarán los resultados de algunos trabajos llevados a cabo en este campo por diferentes grupos de investigación.Due to the large amount of information available on the Internet nowadays it is necessary to develop new methods that allow to classify this documents automatically. In addition to the classical classifications that consist on classifying the documents according to its theme or author it is interesting to study new systems that allow to classify the texts that the users publish on social networks or blogs according to their age or genre or according to the sentiments that express their opinions on this texts. These systems would help the users for detecting bad reviews about a product they are interested in. The aim of this project is the study of the different classification algorithms and the language characteristics that are necessary for the development of an automatic texts classification system according to the sentiments of the texts and according to the author’s profile, as well as the different steps for the design of these systems. Finally, the results of some studies carried out in this field by different research groups will be presented.Ingeniería de Telecomunicació

Universidad Carlos III de Madrid e-Archivo

Atención de consultas del usuario usando el procesamiento del lenguaje natural en el ámbito de soporte técnico

Author: Lapoint Ruiz Guillermo Eduardo
Publication venue: 'Baishideng Publishing Group Inc.'
Publication date: 01/01/2018
Field of study

En este proyecto de investigación se presenta un sistema de búsqueda de respuesta que busca procesar adecuadamente las consultas del usuario en lenguaje natural basada en texto para mejorar el tipo de respuesta esperada en el ámbito de soporte técnico. El problema que afronta esta investigación es buscar la mejor técnica que permita obtener una comprensión a nivel textual de este tipo de atenciones y brindar respuestas en tiempos reducidos y con un mayor nivel de precisión, es por ello que el objetivo se puede definir con el siguiente texto “procesar adecuadamente las consultas del usuario en lenguaje natural basada en texto para mejorar el tipo de respuesta esperada en el ámbito de soporte técnico”. Para cumplir con este objetivo se estudiaron diversas técnicas de procesamiento de lenguaje natural, que pasaron desde las técnicas ontológicas hasta la de búsqueda en corpus, de las cuales se tuvo que seleccionar la técnica que mejor se adecuó a la investigación tomando la de Levenshtein para aplicar a la misma a la cual se le complementó con otro algoritmo (LCS) que mejoró el motor de búsqueda y que hizo de ésta una herramienta evolucionada por sus características. Una vez establecida la base teórica se describe el diseño de la herramienta considerando que se realizó usando las metodologías RUP y UML orientada a objetos, así como también se hace una descripción técnica detallada de los algoritmos usados mostrando el código relevante o Core de la herramienta del motor de búsqueda y se hace una descripción de la herramienta implementada como una aplicación web. Los resultados experimentales son alentadores ya que se logró hacer uso de esta técnica con tiempos de respuesta de un promedio de 113.93 milisegundos dependiendo de la complejidad de la consulta y acercamiento a la pregunta almacenada teniendo nuestro motor de búsqueda una precisión del 93.33%. Por lo tanto, se puede concluir mencionando que esta investigación brinda aportes significativos en la aplicación este tipo de herramientas de este campo de estudio que aún no toma la relevancia que amerita.Tesi

Repositorio institucional - Universidad Señor de Sipán

Adquisición y representación del conocimiento mediante procesamiento del lenguaje natural

Author: Fernández Gavilanes Milagros
Publication venue
Publication date: 01/01/2012
Field of study

[Resumen] Este trabajo introduce un marco para la recuperación de información combinando el procesamiento del lenguaje natural y conocimiento de un dominio, abordando la totalidad del proceso de creación, gestión e interrogación de una colección documental. La perspectiva empleada integra automáticamente conocimiento lingüístico en un modelo formal de representación semántica, directamente manejable por el sistema. Ello permite la construcción de algoritmos que simplifican las tareas de mantenimiento, proporcionan un acceso más flexible al usuario no especializado, y eliminan componentes subjetivas que lleven a comportamientos difícilmente predecibles. La adquisición de conocimientos lingüísticos parte de un análisis de dependencias basado en un formalismo gramatical suavemente dependiente del contexto. Conjugamos de este modo eficacia computacional y potencia expresiva. La interpretación formal de la semántica descansa en la noción de grafo conceptual, sirviendo de base para la representación de la colección y para las consultas que la interrogan. En este contexto, la propuesta resuelve la generación automática de estas representaciones a partir del conocimiento lingüístico adquirido de los textos y constituyen el punto de partida para su indexación. Luego, se utilizan operaciones sobre grafos así como el principio de proyección y generalización para calcular y ordenar las respuestas, de tal manera que se considere la imprecisión intrínseca y el carácter incompleto de la recuperación. Además, el aspecto visual de los grafos permiten la construcción de interfaces de usuario amigables, conciliando precisión e intuición en su gestión. En este punto, la propuesta también engloba un marco de pruebas formales.[Resumo] Este traballo introduce un marco para a recuperación de información combinando procesamento da linguaxe natural e o coñecemento dun dominio, abordando a totalidade do proceso de creación, xestión e interrogación dunha colección documental. A perspectiva empregada integra automáticamente coñecementos lingüísticos nun modelo formal de representación semántica, directamente manexable polo sistema. Isto permite a construción de algoritmos que simplifican as tarefas de mantemento, proporcionan un acceso máis flexible ao usuario non especializado, e eliminan compoñentes subxectivos que levan a comportamentos difícilmente predicibles. A adquisición de coñecementos lingüísticos parte duhna análise de dependencias basada nun formalismo gramatical suavemente dependente do contexto. Conxugamos deste modo eficacia computacional e potencia expresiva. A interpretación formal da semántica descansa na noción de grafo conceptual, servindo de base para a representación da colección e para as consultas que a interrogan. Neste contexto, a proposta resolve a xeración automática destas representacións a partires do coñecemento lingüístico adquirido dos textos e constitúe o punto de partida para a súa indexación. Logo, empréganse operacións sobre grafos así como o principio de proxección e xeneralización para calcular e ordenar as respostas, de tal maneira que se considere a imprecisión intrínseca e o carácter incompleto da recuperación. Ademáis, o aspecto visual dos grafos permiten a construción de interfaces de usuario amigables, conciliando precisión e intuición na súa xestión. Neste punto, a proposta tamén engloba un marco de probas formais.[Abstract] This thesis introduces a framework for information retrieval combining natural language processing and a domain knowledge, dealing with the whole process of creation, management and interrogation of a documental collection. The perspective used integrates automatically linguistic knowledge in a formal model of semantic representation directly manageable by the system. This allows the construction of algorithms that simplify maintenance tasks, provide more flexible access to non-specialist user, and eliminate subjective components that lead to hardly predictable behavior. The linguistic knowledge adquisition starts from a dependency parse based on a midly context-sensitive grammatical formalism. In this way, we combine computational efficiency and expressive power. The formal interpretation of the semantics is based on the notion of conceptual graph, providing a basis for the representation of the collection and for queries that interrogate. In this context, the proposal addresses the automatic generation of these representations from linguistic knowledge acquired from texts and constitute the starting point for indexing. Then operations on graphs are used and the principle of projection and generalization to calculate and manage replies, so that is considered the inherent inaccuracy and incompleteness of the recovery. In addition, the visual aspect of graphs allow the construction of user-friendly interfaces, balancing precision and intuition in management. At this point, the proposal also includes a framework for formal testing

Repositorio da Universidade da Coruña

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje natural

Author: Graña Gil Jorge
Publication venue: Universidade da Coruña. Departamento de Computación
Publication date: 01/01/2000
Field of study

[Resumen] El objetivo último que persigue el Procesamiento del Lenguaje Natural es el perfecto análisis y entendimiento de los lenguajes humanos. Actualmente, estamos todavía lejos de conseguir este objetivo. Por esta razón, la mayoría de los esfuerzos de investigación de la lingiiística computacional han sido dirigidos hacia tareas intermedias que dan sentido a alguna de las múltiples características estructurales inherentes a los lenguajes, sin requerir un entendimiento completo. Una de esas tareas es la asignación de categorías gramaticales a cada una de las palabras del texto. Este proceso se denomina también etiquetación. La eliminación de ambigiiedades es una tarea crucial durante el proceso de etiquetación de un texto en lenguaje natural. Si tomamos aisladamente, por ejemplo, la palabra sobre, vemos que puede tener varias categorías posibles en español: sustantivo, preposición o verbo. Sin embargo, si examinamos el contexto en el que aparece dicha palabra, seguramente sólo una de ellas es posible. Por otra parte, el interés se centra también en asignar una etiqueta a todas aquellas palabras que aparecen en los textos, pero que no están presentes en nuestro diccionario, y garantizar de alguna manera que ésa es la etiqueta correcta. Un buen rendimiento en esta fase asegura la viabilidad de procesamientos posteriores tales como los análisis sintáctico y semántico. Tradicionalmente, el problema de la etiquetación se aborda a partir de recursos lingiiísticos bajo la forma de diccionarios y textos escritos, previamente etiquetados o no. Esta línea de desarrollo se denomina lingiiística basada en corpus. Dichos textos se utilizan para ajustar los parámetros de funcionamiento de los etiquetadores. Este proceso de ajuste se denomina entrenamiento. Las técnicas tradicionales engloban métodos estocásticos, tales como los modelos de Markov ocultos, los árboles de decisión o los modelos de máxima entropía, y también aproximaciones basadas en reglas, tales como el aprendizaje de etiquetas basado en transformaciones y dirigido por el error. La mayoría de las herramientas basadas en estos paradigmas de etiquetación resultan ser de propósito general, en el sentido de que pueden ser aplicadas a textos en cualquier idioma. Ésta es una idea muy atractiva, pero surge la duda de si un etiquetador diseñado especialmente para una lengua dada puede ofrecer mejores rendimientos o no. Por tanto, el primer objetivo del presente trabajo consiste en implementar una nueva herramienta de etiquetación que permita integrar información específica para el español, y posteriormente realizar una evaluación exhaustiva de todos estos modelos. Este estudio es de gran interés ya en sí mismo, dado que los recursos lingiiísticos disponibles para el español no abundan, y por tanto existen todavía muy pocas cifras concretas que proporcionen una idea clara del comportamiento de los etiquetadores sobre nuestro idioma. Aún con todo esto, un pequeño porcentaje de palabras etiquetadas erróneamente (2-3%) es una característica que está siempre presente en los sistemas de etiquetación puramente estocásticos. Por esta razón, apoyamos la idea del uso de estos sistemas en combinación con información sintáctica, esto es, con técnicas de análisis sintáctico robusto, y éste es precisamente el segundo de los objetivos del presente trabajo. Cuando una frase es correcta, pero la gramática no es capaz de analizarla, todavía es posible considerar los subárboles correspondientes a los análisis parciales de fragmentos válidos de la frase. El posterior estudio de estos subárboles puede ser utilizado, por ejemplo, para completar la gramática, generando automáticamente las reglas sintácticas necesarias para analizar la frase. Éste es precisamente el objetivo más ambicioso del análisis sintáctico robusto. En nuestro caso particular, resulta de especial interés la consideración de las etiquetas de las palabras de dichos subárboles como información adicional de apoyo para las técnicas tradicionales de etiquetación. La estrategia consiste en combinar esas subsecuencias de etiquetas para generar varias etiquetaciones completas posibles de la frase en cuestión, y posteriormente aplicar un filtro estadístico para elegir la secuencia global más probable.[Abstract] The ultimate goal of research on Natural Language Processing is to parse and understand human languages. Currently, we are still far from achieving this goal. For this reason, much research in computational linguistics has focussed on intermediate tasks that make sense of some of the structure inherent in language without requiring complete understanding. One such task is part-of-speech tagging, or simply tagging. Elimination of lexical ambiguities is a crucial task during the process of tagging a text in natural language. If we take in isolation, for instance, the word time, we can see that it has several possible tags in English: substantive, adjective or verb. However, if we examine the context in which the word appears, only one of the tags is possible. In addition, we are also interested in being able to give a tag to all the words that appear in a text, but are not present in our dictionary, and to guarantee somehow that this tag is the correct one. A good performance at this stage will improve the viability of syntactic and semantic analysis. Traditionally, the starting point for tagging is linguistic resources like dictionaries and written texts, previously tagged or not. This research line is called corpus-based linguistics. These corpora are used to tune the running parameters of the taggers. This tuning process is called training. Traditional techniques involve stochastic methods, such as hidden Markov models, decision trees or maximum entropy models, and also rule-based approaches, such as transformation-based error-driven learning of tags. Most tools based on these tagging paradigms are general purpose, to the eífect that they can be applied to texts in any language. This is a very attractive idea, but begs the question of whether a tagger specifically designed for a particular language is able to provide better performance. Therefore, the first goal of the present work is to implement a new tagger able to integrate specific information on Spanish, and then to perform an exhaustive evaluation of all the above-mentioned models. This study is in itself very interesting, because there are very few available linguistic resources for Spanish and very few concrete data about the behaviour of taggers on our language. However, a small percentage of wrongly tagged words (2-3%) is a feature that is always present in pure stochastic taggers. For this reason we support the idea of using these in combination with syntactic information, that is, with robust parsing techniques, and this is the second goal of the present work. When a sentence is correct and the grammar is not able to parse it, it is still possible to consider all subtrees corresponding to all partial analyses of valid fragments of the sentence. A later study of these subtrees can be used, for instance, to complete the grammar by automatically generating all the syntactic rules we need to parse the sentence. This is in fact the most ambitious goal in robust parsing. In our particular case, it is important to consider all the word tags of the subtrees in question as additional information that can be useful for traditional techniques of tagging. Our strategy combines these subsequences of tags in order to generate several complete taggings for a given sentence, and then applies a probabilistic filter to choose the most probable one

Repositorio da Universidade da Coruña

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Implantación de un modelo para Clasificación Automática de Textos en Grupo Coril

Author: Vargas Salas Jose Fernando
Publication venue: 'Universidad Cesar Vallejo'
Publication date: 01/01/2018
Field of study

Las tecnologías de la información y la comunicación en los últimos tiempos han permitido al ser humano tener una cantidad excesiva de documentos en lenguaje natural. Dentro de toda la información que se genera hoy en día, podemos encontrar una nueva forma de comunicación, este trabajo de tesis surge con la necesidad de brindar una solución a los problemas que son el procesamiento del lenguaje natural y la ingeniería de software. Generalmente para el diseño de un sistema de clasificación de información se recurren a una gran variedad de recursos lingüísticos el resultado son sistemas de gran portabilidad en diferentes idiomas. Podemos encontrar textos sobre productos, política, noticias, personas famosas, etcétera. Sin embargo, la capacidad del ser humano para analizar la información de estos textos tiene un tope, el cual en cierta forma, mediante el lenguaje de procesamiento natural se puede maximizar. En la presente tesis se propone una metodología y se desarrolla una aplicación que permite el análisis de textos, clasificándolos en un repositorio de base de datos. Enfocándonos en textos cortos del idioma español y considerando una de las herramientas más importantes el NLTK

Repositorio Institucional Universidad César Vallejo: Página de inicio

Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano

Author: Montero Martínez Juan Manuel
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2003
Field of study

En esta Tesis se abordan tres subproblemas relacionados con la variedad y la naturalidad en la conversión texto habla en castellano: el procesado lingüístico orientado a prosodia, el modelado de la frecuencia fundamental en un dominio restringido y el análisis, modelado y conversión texto a voz con emociones. El capítulo del estado de la cuestión recoge con detalle los principales progresos en cada módulo de un conversor. El primer apartado destacable está dedicado al análisis gramatical y sintáctico, cubriendo las técnicas de normalización del texto, los corpora anotados, las bases de datos léxicas disponibles en castellano, las técnicas de desambiguación contextual y de análisis sintáctico y los sistemas disponibles en castellano. En cuanto al modelado prosódico, se tratan los modelos empleados tanto para la frecuencia fundamental como el ritmo, las duraciones y el pausado, las principales escuelas de análisis de la curva de frecuencia fundamental y las técnicas avanzadas de diseño de las bases de datos. En el apartado dedicado a la voz emotiva se describen y comentan los principales sistemas internacionales desarrollados y las bases de datos disponibles. Como en general la síntesis por formantes ha dominado este campo, se describe esta técnica, para finalizar con una revisión de las alternativas de evaluación empleadas en síntesis de voz con emociones. En el capítulo dedicado a las investigaciones en procesado lingüístico del texto se comienza describiendo en detalle los corpora empleado en la experimentación, tanto en normalización como en etiquetado. La técnica desarrollada en normalización emplea reglas de experto, con muy buenos resultados tanto en precisión como en cobertura, destacando el empleo de reglas de silabicación para la detección precisa de palabras extranjeras. Al afrontar la desambiguación gramatical, se comparan tres técnicas: reglas de experto, aprendizaje automático de reglas y modelado estocástico, obteniéndose los mejores resultados con esta última técnica, debido a su capacidad de procesar más adecuadamente textos fuera del dominio de entrenamiento. Finalmente se aborda el análisis sintáctico por medio de gramática de contexto libre como un proceso en dos fases:, una primera sintagmática y una segunda relacional básica, a fin de maximizar la cobertura del análisis. Para la resolución de las ambigüedades que nos permiten alcanzar gran cobertura se adapta el principio de mínima longitud de descripción con notables resultados. Las gramáticas desarrolladas se encuentran comentadas y ejemplificadas en un apéndice. Para el modelado de F0 en un dominio restringido se emplean perceptrones multicapa. En una primera etapa se describe y evalúa una nueva técnica de diseño de base de datos basada en un algoritmo voraz moderado mediante subobjetivos intermedios. La exhaustiva experimentación con los diversos parámetros de predicción, la configuración de la red y las subdivisiones de la base de datos ocupa la mayor parte del capítulo, destacando la aportación de un parámetro específico del dominio restringido (el número de la frase portadora del texto que sintetizar) junto a otros más clásicos (acentuación, tipo de grupo fónico y posición en el mismo). El capítulo dedicado a la voz emotiva comienza detallando el proceso de creación de una nueva voz castellana masculina en síntesis por formantes con modelo mejorado de fuente (reglas y metodología), evaluando las posibilidades de personalización de voz que ofrece. Para trabajar con voz con emociones se diseña, graba y etiqueta una base de datos de voz en la que un actor simula tristeza, alegría, sorpresa, enfado y también una voz neutra. Por medio de técnicas paramétricas (modelo de picos y valles en tono, y multiplicativo en las duraciones) se analiza prosódicamente la base de datos y se establece una primera caracterización de la voz en las distintas emociones. Empleando como base la voz personalizable se desarrolla el sistema completo de conversión texto a voz con emociones y se evalúa, destacando la rápida adaptación de los usuarios en cuanto a la identificación de la emoción expresada. Finalmente se experimenta con síntesis por concatenación y síntesis por copia, llegando a las siguientes conclusiones: la voz sorprendida se identifica prosódicamente, las características segmentales son las que caracterizan al enfado en frío; y, finalmente, la tristeza y la alegría son de naturaleza mixta

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Archivo Digital UPM

Estudio comparativo de herramientas para tareas de Procesamiento de Lenguaje Natural

Author: Díaz Roussel Nicolás
Publication venue: 'Universitat Politecnica de Valencia'
Publication date: 08/09/2020
Field of study

[ES] En este trabajo se analizarán y compararán diferentes herramientas de Procesamiento de Lenguaje Natural. En concreto se evaluarán los resultados obtenidos en las tareas de análisis de sentimiento y resumen automático. Para ello se uti- lizarán APIs de acceso gratuito y una librería. Las herramientas que se emplearán son MeaningCloud, Google Cloud Natural Language, Microsoft Azure Text Analytics y la librería sumy. Para el análisis de sentimiento se usarán los corpora de la competición TASS 2019, mientras que para el resumen automático emplearemos las respuestas a unas encuestas sobre aspectos a favor y a mejorar de varias asignaturas.[EN] In this paper, different natural language processing tools will be analyzed and compared. In particular, the results obtained in the tasks of sentiment analysis and automatic summarization will be evaluated. For this purpose, free access APIs and a library will be used. The tools that will be used are MeaningCloud, Google Cloud Natural Language, Microsoft Azure Text Analytics and the sumy library. For the sentiment analysis we will use the corpora of the TASS 2019 competition, while for the automatic summarization we will use the answers to a survey on the pro and to improve aspects of several subjects.[CA] En este treball s’analitzaran i compararan diferents eines de processament de llenguatge natural. En concret s’avaluaran els resultats obtinguts en les tasques d’anàlisi de sentiment i resum automàtic. Per a això s’utilitzaran APIs d’accés gratuït i una llibreria. Les eines que s’empraran són MeaningCloud, Google Cloud Natural Language, Microsoft Azure Text Analytics i la llibreria sumy. Per a l’anàlisi de sentiment s’usaran els corpora de la competició TASS 2019, mentres que per al resum automàtic emprarem les respostes a unes enquestes sobre aspectes a favor i a millorar de diverses assignatures.Díaz Roussel, N. (2020). Estudio comparativo de herramientas para tareas de Procesamiento de Lenguaje Natural. http://hdl.handle.net/10251/149603TFG

RiuNet

Lingüística computacional y anáfora

Author: Tordera Illescas Juan Carlos
Publication venue
Publication date: 01/01/2010
Field of study

Los objetivos de esta tesis, como se puede colegir del propio título, Lingüística computacional y anáfora, son harto complejos y ambiciosos. En primer lugar, porque nos vemos abocados a pincelar qué es la propia Lingüística, para llegar a definir qué es la Lingüística computacional. Y definir qué es la Lingüística computacional no es una tarea fácil, cuando ni los propios investigadores se ponen de acuerdo ni en su denominación ni en su objeto de estudio. Por ello, el primer y segundo capítulo de este trabajo responden al propósito de definir qué es la Lingüística computacional y, sobre todo, qué no es Lingüística computacional, cuáles son las subdisciplinas de la Lingüística computacional y, como disciplina aplicada, cuáles son sus aplicaciones. El siguiente paso que hemos querido tratar es un fenómeno lingüístico que ha suscitado el interés de la Lingüística computacional: la anáfora. Y, como la anáfora, fenómeno pragmático, ha estado íntimamente ligada al pronombre, categoría sintáctica, las cuestiones que se han tenido que abordar también han sido considerables. En primer lugar, se ha dedicado el capítulo tercero a una descripción y revisión crítica de las principales aportaciones lingüísticas sobre este tema. Como se podrá comprobar, aunque existen ideas muy heterogéneas, también existen denominadores comunes, como la consideración del pronombre como sustituto del nombre, la identificación del pronombre por sus propiedades deícticas y anafóricas/catafóricas… En segundo lugar, hemos dedicado el capítulo cuarto, a dos objetivos. El primero persigue definir desde la Lingüística qué es el pronombre, y siendo una categoría sintáctica, no se puede llevar a cabo esta empresa a expensas del resto de categorías. Como es bien conocido por el Estructuralismo clásico, no se puede definir el valor de un elemento per se, sino en oposición al resto de elementos. Así pues, hemos creído conveniente que se debía definir el pronombre frente al resto de categorías sintácticas. Una vez identificado el pronombre como categoría sintáctica, se han descrito sus propiedades semánticas y pragmáticas. Una vez que se han definido las propiedades sintácticas, semánticas y pragmáticas del pronombre, hemos tratado de ofrecer dos teorías formales, la LFG y la SDRT, que creemos que se ajustan a nuestros presupuestos teóricos y que, además, tienen la ventaja de tener una implementación formal.The objectives of this thesis, as can be deduced from its title, Computational linguistics and anaphora, are very complex and ambitious. In the first place, we have tried to define in a clear and exclusive way what we understand as computational linguistics. The following topic that we have intended to analyze is a linguistic phenomenon that has raised the interest of computational linguistics: the anaphora and its grammatical equivalent, the pronoun. In the first place, we have devoted the third chapter to a critical description and revision of the main linguistic contributions on this topic. As the reader will be able to see, even though different heterogeneous ideas exist there are also common denominators, such as the consideration of the pronoun as a substitute of the noun, the identification of the pronoun by its deictic and anaphoric/cataphoric properties, etc. In the second place, we have devoted the fourth chapter to two objectives. The first one aspires to define what a pronoun is from the perspective of Linguistics, showing that as a syntactic category it cannot be described at the expense of the rest of categories. As it is well known since classic Structuralism, we cannot define the value of an element per se, but in opposition to the rest of elements. Therefore, we have found convenient to define the pronoun in opposition to the rest of syntactic categories. Once the pronoun was defined as a syntactic category, we described its semantic and pragmatic properties. After its syntactic, semantic and pragmatic properties were defined, we presented two formal theories, the LFG and the SDRT, which we believe adjust to our theoretical assumptions and which also have the advantage of having a formal implementation

Repositori d'Objectes Digitals per a l'Ensenyament la Recerca i la Cultura