14 research outputs found

    El lenguaje económico en los tiempos de la crisis global: un estudio longitudinal de análisis de sentimiento

    Get PDF
    El siguiente paso fue el análisis de datos, en el cual se realiza el análisis de sentimiento los conjuntos de datos. El análisis consta de tres partes: (a) una tabla de resultados estadísticos descriptivos longitudinales relativos a las puntuaciones de sentimiento, (b) una tabla anual de colocaciones y (c) una discusión sobre los hallazgos en el corpus a partir de la observación de rankings anuales de colocaciones, con la intención de triangular los datos obtenidos. Principalmente, se evidencian dos hechos: (1) Los términos se convierten en palabras evento dado el enorme aumento de su frecuencia de uso debido a los eventos clave de la crisis. A partir de este fenómeno se producen cambios significativos en el uso (la orientación semántica de colocaciones varía) y frecuentemente suelen tiene un nivel menor de especialización. (2) Las medias anuales de la orientación semántica de un término contextualizado permiten observar fluctuaciones importantes en el sentimiento embebido en el discurso. Una triangulación de los datos cuantitativos con sus colocaciones más significativas y los eventos relacionados con la Gran Recesión permite concluir que la orientación semántica de los términos del dominio económico-financiero es muy susceptible de variar a medida que se desarrollaron los hechos de la crisis financiera. Fecha de lectura de Tesis Doctoral: 20 de septiembre 2019Esta tesis se centra en el estudio longitudinal de la influencia de los eventos en la forma en la orientación semántica en la terminología económica. En este caso se estudiará el periodo de la Gran Recesión, un acontecimiento de primer orden que generó una gran cantidad de información textual que se ha aprovechado como fuente de datos susceptibles de ser analizados automáticamente. El análisis de sentimiento es una disciplina del procesamiento del lenguaje natural que se ocupa del tratamiento computacional de la opinión de la subjetividad en los textos. Por ello, el objetivo general de esta tesis es analizar las fluctuaciones en la orientación semántica de una serie de términos económicos dentro del período 2007-2015 a través de la caracterización del impacto de los eventos de mayor orden en las variaciones semánticas de las unidades léxicas. Entre sus objetivos específicos están: (1) recopilar un lexicón de sentimiento de dominio económico-financiero en lengua inglesa a partir de un corpus de noticias económicas diseñado ad-hoc, (2) definir un conjunto de datos longitudinal en forma de oraciones que contienen los términos de estudio y que serán el input del análisis de sentimiento, (3) tras analizar los una serie de términos económicos-financieros, identificar los eventos que han acompañado a cambios en su orientación semántica y (4) analizar las posibles variaciones en la prosodia semántica. Para llevar a cabo el análisis automático, se desarrolló LexiEcon, un lexicón plug-in de dominio específico para la lengua inglesa adaptado para la suite Lingmotif. Dada su amplitud, los resultados de cobertura y exhaustividad de su evaluación fueron muy satisfactorios (F1 0,735). Esta cifra supone alrededor de un 20% más que los resultados que ofrece Lingmotif sin léxico específico cuando clasifica los textos del dominio económico-financiero

    Lingüística de corpus: de los datos textuales a la teoría lingüística

    Get PDF
    In this paper a general presentation of Corpus Linguistics is provided by explaining what a linguistic corpus is, how it is related to other types of data, why it is necessary to annotate it, and what the annotation process is like. Some of the more common tasks in corpus-based linguistic research are also reviewed, such as obtaining frequency lists, exploring concordances, or finding co-occurrences (collocations) and other types of contextual information. Throughout the text, an attempt is made to show the relevance of this type of data for linguistic theory, in particular for use-based models, such as the cognitive and functional ones.Este artículo es una presentación general de la lingüística de corpus en el que se expone qué es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué es necesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunas de las tareas más comunes en la investigación lingüística basada en corpus, tales como la obtención de listados de frecuencias, la exploración de concordancias o la búsqueda de coapariciones (colocaciones) y otros tipos de información contextual. A lo largo del texto se intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, en particular, para los modelos basados en el uso, como los cognitivos y funcionales

    Lingüística de corpus

    Get PDF
    Este artículo es una presentación general de la lingüística de corpus en el que se expone qué es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué es necesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunas de las tareas más comunes en la investigación lingüística basada en corpus, tales como la obtención de listados de frecuencias, la exploración de concordancias o la búsqueda de coapariciones (colocaciones) y otros tipos de información contextual. A lo largo del texto se intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, en particular, para los modelos basados en el uso, como los cognitivos y funcionales.Este artículo es una presentación general de la lingüística de corpus en el que se exponequé es un corpus lingüístico, qué relación tiene con otros tipos de datos, por qué esnecesario anotarlo y cómo es el proceso de anotación. También se pasa revista a algunasde las tareas más comunes en la investigación lingüística basada en corpus, tales como laobtención de listados de frecuencias, la exploración de concordancias o la búsqueda decoapariciones (colocaciones) y otros tipos de información contextual. A lo largo del textose intenta mostrar la relevancia de este tipo de datos para la teoría lingüística, enparticular, para los modelos basados en el uso, como los cognitivos y funcionales.In this paper a general presentation of Corpus Linguistics is provided by explaining whata linguistic corpus is, how it is related to other types of data, why it is necessary toannotate it, and what the annotation process is like. Some of the more common tasks incorpus-based linguistic research are also reviewed, such as obtaining frequency lists,exploring concordances, or finding co-occurrences (collocations) and other types ofcontextual information. Throughout the text, an attempt is made to show the relevance ofthis type of data for linguistic theory, in particular for use-based models, such as thecognitive and functional ones

    Komposita in the specialised lexicon. Teaching methods and comprehension of compound words in the course of Technical Translation (German-Spanish)

    Get PDF
    Esta tesis doctoral es un trabajo empírico-experimental descriptivo que se inscribe en los estudios de teoría de la traducción y tiene como objetivo la definición y delimitación de los métodos de enseñanza-aprendizaje de léxico especializado, concretamente de Komposita o compuestos plurilexemáticos alemanes de tipo sustantivo+sustantivo, en el aula de traducción técnica de la Universidad de Córdoba en la combinación alemán-español. La motivación de esta investigación reside en la necesidad de elaborar métodos de enseñanza-aprendizaje adecuados al proceso neuroarquitectónico de traducción y a los modelos psicolingüísticos de reconocimiento y procesamiento de unidades léxicas. El punto de partida de este estudio es la dificultad de detectar por parte de hablantes no nativos de alemán las relaciones semánticas que se establecen entre los formantes de un Kompositum. La hipótesis de esta investigación se centra en la necesidad de diferenciar entre el proceso de aprendizaje de léxico especializado en segundas lenguas y el proceso de aprendizaje de léxico especializado en la segunda lengua para traducción. En este trabajo consideramos que en el proceso de aprendizaje de segundas lenguas, la traducción se emplea como un medio para comprender la estructura y vocabulario de la nueva lengua que se estudia, sin embargo, en el aprendizaje de segundas lenguas para traducción, la traducción no se debe entender como un medio sino como una finalidad, y por tanto, las destrezas y competencias que se tendrán que desarrollar para una finalidad traductológica distarán de aquellas con una finalidad comunicativa, como es el caso del aprendizaje de segundas lenguas. Para comprobar esta hipótesis se ha delimitado desde el plano lingüístico el contexto en el que se analizan los Komposita, se han estudiado las relaciones semánticas que pueden establecerse entre los formantes de un Kompositum, así como los procedimientos de formación de nuevas unidades léxicas en las lenguas de especialidad. Además, se han examinado desde un punto de vista psicolingüísticos, los modelos para la incorporación de unidades léxicas al sistema lingüístico, se han analizado desde una perspectiva neurocognitiva, los modelos de adquisición de léxico tanto en L1 como en L2 para traductores, constituyéndose así la fundamentación teórica sobre la que se asentará el estudio empírico. Para la constatación de hipótesis se han realizado tres ejercicios. El primer ejercicio está enfocado al aprendizaje de léxico especializado en segundas lenguas, los 19 alumnos que participaron en este primer ejercicio se apoyan en la traducción proporcionada por distintos recursos para comprender el concepto. Este ejercicio simula el proceso de aprendizaje de segundas lenguas, en el que el alumnado se apoya de la traducción para entender el concepto. Con este ejercicio analizamos cada una de las respuestas de los alumnos y realizamos un análisis cualitativo de ellas, observando la adecuación de sus respuestas cuando la traducción la consideramos como un fin y no como un medio. El segundo ejercicio se ha diseñado con fundamento en dos modelos psicolingüísticos de procesamiento léxico: el modelo de listado exhaustivo y la doble ruta. Para ello se dividió la clase en dos grupos compuestos por seis alumnos cada uno, el objetivo de este ejercicio es comprobar, dependiendo de si han empleado el modelo de listado o el de doble ruta, qué grupo obtiene un mejor resultado en la fase de comprensión para traducción. El tercer ejercicio se subdivide en tres actividades: una primera actividad de pre-traducción, en la que el alumnado debe detectar los afijos técnicos alemanes e indicar la carga semántica que aportan cada uno de ellos, la segunda actividad de pre-traducción consiste en reconocer las relaciones semánticas de los conceptos señalados y, por último, la tercera actividad de traducción en la que se analiza cada una de sus traducciones y la repercusión que ha podido ocasionar cada uno de los métodos en la misma. La finalidad de este trabajo es la mejora de la comprensión de los Komposita técnicos en el aula de traducción técnica en la combinación alemán-español, los resultados que se arrojan de esta investigación apuntan a que el grupo que ha seguido el modelo de doble ruta para el procesamiento y comprensión de los compuestos plurilexemáticos alemanes ha obtenido un mejor resultado aplicado a la traducción que el grupo que ha empleado el modelo de listado exhaustivo, como se verá en el desarrollo de esta investigación.This research work is a descriptive empirical-experimental research in theory translation studies, whose main goal is to define and determine teaching-learning methods of specialised vocabulary, precisely the teaching-learning of Komposita or German compunds noun+noun in the course of Technical Translation at the University of Córdoba (Spain) in the language combination German-Spanish. The motivation of this research resides in the need of designing teachinglearning methods of specialised vocabulary adapted to the neuro-architecture of translation and psycholinguist models of recognition and word processing. The starting point of this study is the difficulty to detect from non-native German speakers the semantic relationships that are built between the components of a Kompositum. The hypothesis of this research focuses on the need to differentiate between the learning process of specialised vocabulary in second languages and the learning process of specialised vocabulary in second language for translation. In this work we consider that in the learning process of second languages, the translation is used as a means to understand the structure and vocabulary of the new language that is beeing studied. However, in second language learning for translation, translation should not be understood as a means but end, and therefore the skills and competences that should be developed for a translation end will be different from the skills and competences with a communicative end, which is the case of second language learning. To prove this hypothesis from a linguistic level, the context of Komposita, the semantic relationships that can be built between the components of a Kompositum will be examined, as well as the new word formation processes in specialised languages. From a psycholinguist perspective the models for the incorporation of lexical units to the linguistic system have been examined and from a neurocognitive point of view the models of lexical acquisition in L1 and L2 for translation have been analysed. All these points of view constitute the theoretical foundation on which the empirical study will be based. To verify the hypothesis three exercises have been carried out. The first exercise focuses on specialised language learning in second languages, 19 students took part. The students uses the lexical equivalent for translation, found in different resources to understand the concept. With this exercise we analyse each of the answers provided by the students and we carry out a qualitative-quantitative analysis, looking into the adequacy of each of the answers when the translation is considered as end and not as means. The design of the second exercise is based on two psycholinguist models of lexical process: full listing and the double route. For this reason, the class has been divided into two groups of six students each one. The goal of this exercise is to check which group obtains a better result in the comprehension phase for translation. The third exercise is subdivide in three activities: a first pretranslation activity in which the students should detect the German technical affixes and indicate the semantic load that each one presents; the second pre-translation activity consists in recognising the semantic relationships of the concepts underlined; and the translation activity in which each of the translated fragments have been analysed and examined the repercussion that each one of the methods could have had on each translation. The main aim of this work is to improve the understanding of technical Komposita in the course of Technical Translation in the combination German- Spanish. The results that can be drawn from this research is that the group that has followed the double route hypothesis has obtained a better result in the process and comprehension of German compounds for translation than the group that applies the full listing, as we will develop in this research

    Automatic Generation of Text Summaries - Challenges, proposals and experiments

    Get PDF
    Los estudiantes e investigadores en el área de procesamiento deenguaje natural, inteligencia artificial, ciencias computacionales y lingüística computacional serán quizá los primeros interesados en este libro. No obstante, también se pretende introducir a público no especializado en esta prometedora área de investigación; por ello, hemos traducido al español algunos tecnicismos y anglicismos, propios de esta disciplina, pero sin dejar de mencionar, en todo momento, su término en inglés para evitar confusiones y lograr que aquellos lectores interesados puedan ampliar sus fuentes de conocimiento.Este libro presenta un método computacional novedoso, a nivel internacional, para la generación automática de resúmenes de texto, pues supera la calidad de los que actualmente se pueden crear. Es decir, es resultado de una investigación que buscó métodos y modelos computacionales lo menos dependientes del lenguaje y dominio

    El modelo cortical HTM y su aplicación al conocimiento lingüístico

    Get PDF
    El problema que aborda este trabajo de investigación es encontrar un modelo neurocomputacional de representación y comprensión del conocimiento léxico, utilizando para ello el algoritmo cortical HTM, que modela el mecanismo según el cual se procesa la información en el neocórtex humano. La comprensión automática del lenguaje natural implica que las máquinas tengan un conocimiento profundo del lenguaje natural, lo que, actualmente, está muy lejos de conseguirse. En general, los modelos computacionales para el Procesamiento del Lenguaje Natural (PLN), tanto en su vertiente de análisis y comprensión como en la de generación, utilizan algoritmos fundamentados en modelos matemáticos y lingüísticos que intentan emular la forma en la que tradicionalmente se ha procesado el lenguaje, por ejemplo, obteniendo la estructura jerárquica implícita de las frases o las desinencias de las palabras. Estos modelos son útiles porque sirven para construir aplicaciones concretas como la extracción de datos, la clasificación de textos o el análisis de opinión. Sin embargo, a pesar de su utilidad, las máquinas realmente no entienden lo que hacen con ninguno de estos modelos. Por tanto, la pregunta que se aborda en este trabajo es si, realmente, es posible modelar computacionalmente los procesos neocorticales humanos que regulan el tratamiento de la información de tipo semántico del léxico. Esta cuestión de investigación constituye el primer nivel para comprender el procesamiento del lenguaje natural a niveles lingüísticos superiores..

    Normalización de términos multipalabra mediante pares de dependencia sintáctica

    No full text
    En este artículo se presentan dos nuevas técnicas para la indexación de textos escritos en español. A nivel de palabra, proponemos la utilización de la morfología derivativa para obtener conjuntos de palabras relacionadas semánticamente. Esta técnica se combina, a nivel de frase, con la utilización de una gramática aproximada, lo que nos permitirá normalizar a una forma base común las variantes sintácticas y morfosintácticas de un término multipalabra. Dichos métodos han sido evaluados sobre un corpus de documentos periodísticos, obteniendo unos resultados que muestran una mejora considerable con respecto a los métodos clásicos de indexación.Este trabajo ha sido financiado en parte por el Plan Nacional de Investigación Científica, Desarrollo e Innovación Tecnológica (TIC2000-0370-C02-01), los fondos FEDER de la UE (1FD97-0047-C04-02) y la Xunta de Galicia (PGIDT99XI10502B)

    Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje natural

    Get PDF
    [Resumen] El objetivo último que persigue el Procesamiento del Lenguaje Natural es el perfecto análisis y entendimiento de los lenguajes humanos. Actualmente, estamos todavía lejos de conseguir este objetivo. Por esta razón, la mayoría de los esfuerzos de investigación de la lingiiística computacional han sido dirigidos hacia tareas intermedias que dan sentido a alguna de las múltiples características estructurales inherentes a los lenguajes, sin requerir un entendimiento completo. Una de esas tareas es la asignación de categorías gramaticales a cada una de las palabras del texto. Este proceso se denomina también etiquetación. La eliminación de ambigiiedades es una tarea crucial durante el proceso de etiquetación de un texto en lenguaje natural. Si tomamos aisladamente, por ejemplo, la palabra sobre, vemos que puede tener varias categorías posibles en español: sustantivo, preposición o verbo. Sin embargo, si examinamos el contexto en el que aparece dicha palabra, seguramente sólo una de ellas es posible. Por otra parte, el interés se centra también en asignar una etiqueta a todas aquellas palabras que aparecen en los textos, pero que no están presentes en nuestro diccionario, y garantizar de alguna manera que ésa es la etiqueta correcta. Un buen rendimiento en esta fase asegura la viabilidad de procesamientos posteriores tales como los análisis sintáctico y semántico. Tradicionalmente, el problema de la etiquetación se aborda a partir de recursos lingiiísticos bajo la forma de diccionarios y textos escritos, previamente etiquetados o no. Esta línea de desarrollo se denomina lingiiística basada en corpus. Dichos textos se utilizan para ajustar los parámetros de funcionamiento de los etiquetadores. Este proceso de ajuste se denomina entrenamiento. Las técnicas tradicionales engloban métodos estocásticos, tales como los modelos de Markov ocultos, los árboles de decisión o los modelos de máxima entropía, y también aproximaciones basadas en reglas, tales como el aprendizaje de etiquetas basado en transformaciones y dirigido por el error. La mayoría de las herramientas basadas en estos paradigmas de etiquetación resultan ser de propósito general, en el sentido de que pueden ser aplicadas a textos en cualquier idioma. Ésta es una idea muy atractiva, pero surge la duda de si un etiquetador diseñado especialmente para una lengua dada puede ofrecer mejores rendimientos o no. Por tanto, el primer objetivo del presente trabajo consiste en implementar una nueva herramienta de etiquetación que permita integrar información específica para el español, y posteriormente realizar una evaluación exhaustiva de todos estos modelos. Este estudio es de gran interés ya en sí mismo, dado que los recursos lingiiísticos disponibles para el español no abundan, y por tanto existen todavía muy pocas cifras concretas que proporcionen una idea clara del comportamiento de los etiquetadores sobre nuestro idioma. Aún con todo esto, un pequeño porcentaje de palabras etiquetadas erróneamente (2-3%) es una característica que está siempre presente en los sistemas de etiquetación puramente estocásticos. Por esta razón, apoyamos la idea del uso de estos sistemas en combinación con información sintáctica, esto es, con técnicas de análisis sintáctico robusto, y éste es precisamente el segundo de los objetivos del presente trabajo. Cuando una frase es correcta, pero la gramática no es capaz de analizarla, todavía es posible considerar los subárboles correspondientes a los análisis parciales de fragmentos válidos de la frase. El posterior estudio de estos subárboles puede ser utilizado, por ejemplo, para completar la gramática, generando automáticamente las reglas sintácticas necesarias para analizar la frase. Éste es precisamente el objetivo más ambicioso del análisis sintáctico robusto. En nuestro caso particular, resulta de especial interés la consideración de las etiquetas de las palabras de dichos subárboles como información adicional de apoyo para las técnicas tradicionales de etiquetación. La estrategia consiste en combinar esas subsecuencias de etiquetas para generar varias etiquetaciones completas posibles de la frase en cuestión, y posteriormente aplicar un filtro estadístico para elegir la secuencia global más probable.[Abstract] The ultimate goal of research on Natural Language Processing is to parse and understand human languages. Currently, we are still far from achieving this goal. For this reason, much research in computational linguistics has focussed on intermediate tasks that make sense of some of the structure inherent in language without requiring complete understanding. One such task is part-of-speech tagging, or simply tagging. Elimination of lexical ambiguities is a crucial task during the process of tagging a text in natural language. If we take in isolation, for instance, the word time, we can see that it has several possible tags in English: substantive, adjective or verb. However, if we examine the context in which the word appears, only one of the tags is possible. In addition, we are also interested in being able to give a tag to all the words that appear in a text, but are not present in our dictionary, and to guarantee somehow that this tag is the correct one. A good performance at this stage will improve the viability of syntactic and semantic analysis. Traditionally, the starting point for tagging is linguistic resources like dictionaries and written texts, previously tagged or not. This research line is called corpus-based linguistics. These corpora are used to tune the running parameters of the taggers. This tuning process is called training. Traditional techniques involve stochastic methods, such as hidden Markov models, decision trees or maximum entropy models, and also rule-based approaches, such as transformation-based error-driven learning of tags. Most tools based on these tagging paradigms are general purpose, to the eífect that they can be applied to texts in any language. This is a very attractive idea, but begs the question of whether a tagger specifically designed for a particular language is able to provide better performance. Therefore, the first goal of the present work is to implement a new tagger able to integrate specific information on Spanish, and then to perform an exhaustive evaluation of all the above-mentioned models. This study is in itself very interesting, because there are very few available linguistic resources for Spanish and very few concrete data about the behaviour of taggers on our language. However, a small percentage of wrongly tagged words (2-3%) is a feature that is always present in pure stochastic taggers. For this reason we support the idea of using these in combination with syntactic information, that is, with robust parsing techniques, and this is the second goal of the present work. When a sentence is correct and the grammar is not able to parse it, it is still possible to consider all subtrees corresponding to all partial analyses of valid fragments of the sentence. A later study of these subtrees can be used, for instance, to complete the grammar by automatically generating all the syntactic rules we need to parse the sentence. This is in fact the most ambitious goal in robust parsing. In our particular case, it is important to consider all the word tags of the subtrees in question as additional information that can be useful for traditional techniques of tagging. Our strategy combines these subsequences of tags in order to generate several complete taggings for a given sentence, and then applies a probabilistic filter to choose the most probable one

    Estudio de métodos semisupervisados para la desambiguación de sentidos verbales del español

    Get PDF
    Esta tesis explora el uso de técnicas semisupervisadas para la desambigación de sentidos verbales del español. El objetivo es el estudio de como la información de datos no etiquetados, que son mayores en tamaño, puede ayudar a un clasificador entrenado desde un conjunto de datos etiquetados pequeño. La tesis comienza desde la tarea completamente supervisada de desambiguación de sentidos verbales y estudia las siguientes técnicas semisupervisadas comparando su impacto en la tarea original: uso de vectores de palabras (o word embeddings), autoaprendizaje, aprendizaje activo y redes neuronales en escalera
    corecore