62 research outputs found

    El treebank del español "IPROCOLDI": componente anotado del corpus CODIMEP-CR

    Get PDF
    This paper describes the process followed in order to create a Spanish treebank in the framework of the research project No. 745-B1-244 Interfaz para el procesamiento de corpus lingüísticos digitales – IPROCOLDI (Interface for the processing of digital language corpora). The data for the treebank was extracted from the Corpus de Mensajes Presidenciales Costarricenses (CODIMEP- CR). The interface and the treebank are located at http://163.178.116.145/iprocoldi/.En este artículo se describe el proceso que se siguió para crear el componente anotado con información lingüística (treebank) del Corpus de Mensajes Presidenciales Costarricenses (CODIMEP-CR), en el marco del proyecto No. 745-B1-244 Interfaz para el procesamiento de corpus lingüísticos digitales-IPROCOLDI. Ambos corpus se albergan en la interfaz IPROCOLDI (http://163.178.116.145/iprocoldi/)

    Enhancing the expressiveness of linguistic structures

    Get PDF
    In the information society large amounts of information are being generated and transmitted constantly, especially in the most natural way for humans, i.e., natural language. Social networks, blogs, forums, and Q&A sites are a dynamic Large Knowledge Repository. So, Web 2.0 contains structured data but still the largest amount of information is expressed in natural language. Linguistic structures for text recognition enable the extraction of structured information from texts. However, the expressiveness of the current structures is limited as they have been designed with a strict order in their phrases, limiting their applicability to other languages and making them more sensible to grammatical errors. To overcome these limitations, in this paper we present a linguistic structure named ?linguistic schema?, with a richer expressiveness that introduces less implicit constraints over annotations

    Reconocimiento y clasificación automatizada de entidades nombradas en documentos medievales (s. XIV): Libro Becerro de las Behetrías

    Get PDF
    Mención Internacional en el título de doctorLos seres humanos utilizamos el lenguaje como medio de comunicación, lo que ha favorecido el desarrollo y organización de la sociedad en las diferentes épocas de la historia. Reflejo de ello son los innumerables testimonios textuales que tuvieron su auge en la época medieval, momento de transición de una sociedad de transmisión básicamente oral a otra en la que imperaba lo escrito. El desarrollo de técnicas computacionales ha pasado a formar parte del escenario de investigación en las Humanidades. En el ámbito de estudio de los testimonios textuales de la época medieval, las técnicas de procesamiento del lenguaje natural (PLN) han transformado significativamente los métodos, abriendo la posibilidad de generar nuevas preguntas de investigación. El procesamiento del lenguaje natural (PLN) ofrece diferentes aplicaciones como la traducción automática, recuperación y extracción de información, reconocimiento del habla, minería de textos entre otras. Dentro de la extracción de información (Information Extraction- IE) se define la subtarea de reconocimiento y clasificación de entidades nombradas EN (Named Entities- NE) cuyo objetivo es principalmente la identificación de nombres propios de personas, lugares y organizaciones. Los sistemas para el reconocimiento y clasificación de EN (NERC- Named Entity Recognition and Classification) utilizan habitualmente técnicas basadas en gramáticas lingüísticas, métodos estadísticos y gazetteers o listados de términos. En esta tesis se propone un método para la explotación de corpus de documentación medieval mediante sistemas de PLN, con el objetivo de la identificación y clasificación automatizada de las EN y relaciones para su posterior puesta a disposición, en abierto, a través de una plataforma web. Para ello, se ha llevado a cabo un estudio de caso utilizando la aplicación Freeling para español estándar y la variante diacrónica del español de los siglos XII al XVI en un corpus formado por los documentos que componen el Libro Becerro de la Behetrías de Castilla, del siglo XIV. Mediante el análisis de los problemas surgidos en la anotación automática se elabora una propuesta de adaptación para el etiquetado de las EN que no contienen triggers denominadas simples y se diseña una aplicación para la identificación de las entidades anidadas o complejas y sus relaciones. Para la evaluación de los resultados obtenidos fue necesaria la elaboración de un corpus anotado de forma manual que constituyese un gold standard, que con los niveles obtenidos de precisión, cobertura y medida F (F-measure), permitieron elaborar de forma semiautomática los gazetters de personas, lugares y organizaciones. Para su almacenamiento se diseñó una base de datos relacional en MySQL que permitiese su publicación en una plataforma web en PHP. Esta plataforma ofrece una interfaz de consulta para los usuarios en general e investigadores de diferentes disciplinas, que cuenta además con la opción de descarga de los programas desarrollados y gazetteers elaborados. Esto la convierte a su vez en una fuente de información para la reutilización e integración de los mismos en otros proyectos dentro de las Humanidades Digitales. Los resultados obtenidos en este estudio de caso ponen de manifiesto que la aplicación de este método abre las posibilidades de investigación, con otros sistemas de PLN, en corpus de documentación medieval para el reconocimiento y extracción de ENs.Computer science developments are currently an integral part of Digital Humanities scholarship. In the field of medieval text analysis, Natural Language Processing research (NLP) is significantly transforming the methods of study, opening up the possibilities to ask new research questions. Natural Language Processing (NLP) techniques facilitate, among others, automatic translation, information extraction and retrieval, speech recognition, and text mining. This thesis proposes a method for applying NLP methods to a medieval document corpus using information extraction (IE) tasks, including named entity (NE) recognition, which aims to identify mainly proper names of persons, places and organizations and their classification. Named Entity Recognition and Classification methods (NERC) often use techniques based on linguistic grammars, statistic methods and gazetteers or term lists. The method proposed in this thesis facilitates the automatic identification and classification of named entities and their relationships, presenting a case study in which the application “Freeling” for standard Spanish, and the diachronic variant for Spanish language from the XII to XVI centuries have been used. The corpus consists of the documents from the “Libro Becerro de la Behetrías de Castilla”, from the XIV century. Via the analysis of the issues emerging from the automatic annotation of this corpus, this investigation proposes an adaptation for labeling the simple named entities, and presents an application developed for the identification of the nested and complex entities and their relationships. The results obtained in this work have been evaluated using a manually annotated corpus (gold standard), analyzing precision, coverage and variance (F values). The evaluated results facilitated the semi-automatic creation of gazetters for persons, places, and organizations. In addition to the method resulting from this investigation, the software and gazetters developed during this work are offered in a web service for free download and can be consulted by specialized or non-specialized researchers from different disciplines via a user-friendly interface. Together, the method, the data, and this implementation aim to open up the possibilities for further medieval documents research and experimentationPrograma Oficial de Doctorado en Documentación: Archivos y Bibliotecas en el Entorno DigitalPresidente: María Isabel C. Jular Pérez-Alfaro.- Secretario: Diego Navarro Bonilla.- Vocal: Francisco Carlos Palett

    Lingüística computacional y anáfora

    Get PDF
    Los objetivos de esta tesis, como se puede colegir del propio título, Lingüística computacional y anáfora, son harto complejos y ambiciosos. En primer lugar, porque nos vemos abocados a pincelar qué es la propia Lingüística, para llegar a definir qué es la Lingüística computacional. Y definir qué es la Lingüística computacional no es una tarea fácil, cuando ni los propios investigadores se ponen de acuerdo ni en su denominación ni en su objeto de estudio. Por ello, el primer y segundo capítulo de este trabajo responden al propósito de definir qué es la Lingüística computacional y, sobre todo, qué no es Lingüística computacional, cuáles son las subdisciplinas de la Lingüística computacional y, como disciplina aplicada, cuáles son sus aplicaciones. El siguiente paso que hemos querido tratar es un fenómeno lingüístico que ha suscitado el interés de la Lingüística computacional: la anáfora. Y, como la anáfora, fenómeno pragmático, ha estado íntimamente ligada al pronombre, categoría sintáctica, las cuestiones que se han tenido que abordar también han sido considerables. En primer lugar, se ha dedicado el capítulo tercero a una descripción y revisión crítica de las principales aportaciones lingüísticas sobre este tema. Como se podrá comprobar, aunque existen ideas muy heterogéneas, también existen denominadores comunes, como la consideración del pronombre como sustituto del nombre, la identificación del pronombre por sus propiedades deícticas y anafóricas/catafóricas… En segundo lugar, hemos dedicado el capítulo cuarto, a dos objetivos. El primero persigue definir desde la Lingüística qué es el pronombre, y siendo una categoría sintáctica, no se puede llevar a cabo esta empresa a expensas del resto de categorías. Como es bien conocido por el Estructuralismo clásico, no se puede definir el valor de un elemento per se, sino en oposición al resto de elementos. Así pues, hemos creído conveniente que se debía definir el pronombre frente al resto de categorías sintácticas. Una vez identificado el pronombre como categoría sintáctica, se han descrito sus propiedades semánticas y pragmáticas. Una vez que se han definido las propiedades sintácticas, semánticas y pragmáticas del pronombre, hemos tratado de ofrecer dos teorías formales, la LFG y la SDRT, que creemos que se ajustan a nuestros presupuestos teóricos y que, además, tienen la ventaja de tener una implementación formal.The objectives of this thesis, as can be deduced from its title, Computational linguistics and anaphora, are very complex and ambitious. In the first place, we have tried to define in a clear and exclusive way what we understand as computational linguistics. The following topic that we have intended to analyze is a linguistic phenomenon that has raised the interest of computational linguistics: the anaphora and its grammatical equivalent, the pronoun. In the first place, we have devoted the third chapter to a critical description and revision of the main linguistic contributions on this topic. As the reader will be able to see, even though different heterogeneous ideas exist there are also common denominators, such as the consideration of the pronoun as a substitute of the noun, the identification of the pronoun by its deictic and anaphoric/cataphoric properties, etc. In the second place, we have devoted the fourth chapter to two objectives. The first one aspires to define what a pronoun is from the perspective of Linguistics, showing that as a syntactic category it cannot be described at the expense of the rest of categories. As it is well known since classic Structuralism, we cannot define the value of an element per se, but in opposition to the rest of elements. Therefore, we have found convenient to define the pronoun in opposition to the rest of syntactic categories. Once the pronoun was defined as a syntactic category, we described its semantic and pragmatic properties. After its syntactic, semantic and pragmatic properties were defined, we presented two formal theories, the LFG and the SDRT, which we believe adjust to our theoretical assumptions and which also have the advantage of having a formal implementation

    Las colocaciones en el español jurídico y su tratamiento en el aula de español para extranjeros

    Get PDF
    Ante la falta de estudios que aborden las colocaciones en el español jurídico la tesis “Las colocaciones en el español jurídico y su tratamiento en el aula de Español para extranjeros” trata de forma combinada dos aspectos; de un lado, la detección y clasificación de las colocaciones en los subámbitos del Derecho Civil y Penal español a partir de un corpus de creación propia y de otro, la aplicación de herramientas que faciliten la enseñanza-aprendizaje de las colocaciones del español jurídico en el marco del Español con fines profesionales. El trabajo se desarrolla en tres grandes bloques: el marco epistemológico, la metodología de trabajo y una serie de aplicaciones junto con los resultados; por último, se exponen las conclusiones. En primer lugar, tras la introducción, en el segundo capítulo, se ofrece una perspectiva general de las lenguas de especialidad; a continuación se desarrolla el español jurídico detallando los rasgos gramaticales y léxicos, así como los géneros discursivos que lo caracterizan (Borja, 2000; Alcaraz y Hughes, 2009). Posteriormente exponemos el concepto de las colocaciones desde diferentes perspectivas, como la estadística (Firth, 1957; Halliday, 1961), la semántica (Coseriu, 1967; Mitchell, 1971; Benson et alii; 1986; Hausmann, 1989; Mel'čuk et alii, 1992) o las aportaciones hechas desde las lenguas de especialidad (Béjoint y Thoiron, 1992; Aguilar-Amat, 1993; Meyer y Mackintosh, 1994; Kjaer, 1999; Tercedor, 1999; L'Homme, 2000; Cabré, 2005) . Tras diferenciar las colocaciones de otras unidades léxicas, se ofrece una propuesta de definición aplicable al español jurídico. Todo ello acaba con las taxonomías de las colocaciones hechas desde la Filología española (Corpas, 1996; Koike, 2001). Para finalizar el marco epistemológico nos centramos en la Lingüística aplicada a nuestro objeto de estudio. El tercer capítulo, donde nos ocupamos de la metodología, se estructura, en tres partes: cómo se ha obtenido el corpus, cómo hemos diseñado la base de datos y la clasificación estructural de las colocaciones. A partir de la definición que hemos adoptado como punto de partida, procedemos a la detección de 3403 colocaciones en un corpus de especialidad, el corpus PENCIV. Tras la creación de la base de datos hemos diseñado en el capítulo cuarto dos tipos de aplicaciones, que constituyen la principal aportación original del trabajo: por un lado, el buscador de colocaciones que hemos insertado en una página web y las fichas de colocaciones y, por otro, el diseño de 48 actividades para la clase del español jurídico. Todo el trabajo realizado se sintetiza en unas conclusiones finales, donde se destacan las ideas más importantes, se evalúan los objetivos y se proponen líneas para la investigación futura. Cierran nuestra investigación el conjunto de referencias bibliográficas utilizadas en la realización del trabajo, así como una serie ejemplos de fichas terminológicas y muestras de ejercicios de aprendizaje autónomo que forman parte de la página electrónica diseñada en esta investigación.There is a lack of studies dealing with collocations in legal Spanish and therefore the thesis “Las colocaciones en el español jurídico y su tratamiento en el aula de Español para extranjeros” deals with two aspects: on the one hand, the identification and classification of collocations in two subdomains: Spanish Civil Law and Spanish Criminal Law in a corpus made by myself, and on the other hand, the tools which improve the teaching and learning of collocations in Legal Spanish within Spanish for Professional Purposes. The work is developed through three main blocks: status quaestionis, methodology and applications and results; finally the conclusions are developed. Firstly, after the introduction, in the second chapter, a general perspective of the specialized languages is given; then Legal Spanish is developed detailing the grammatical and lexical features as well as the discursive genres (Borja, 2000; Alcaraz y Hughes, 2009). Later, collocations are stated from different perspectives such as the statistical perspective (Firth, 1957; Halliday, 1961) the semantic perspective (Coseriu, 1967; Mitchell, 1971; Benson et alii; 1986; Hausmann, 1989; Mel'čuk et alii, 1992) or the contributions made from specialized languages (Béjoint y Thoiron, 1992; Aguilar-Amat, 1993; Meyer y Mackintosh, 1994; Kjaer, 1999; Tercedor, 1999; L'Homme, 2000; Cabré, 2005). After differentiating collocations from other lexical units, a proposal for a definition for Legal Spanish is given. This finishes with the classification of collocations made from Spanish Philology (Corpas, 1996; Koike, 2001). Finally, we focus on Applied Linguistics to the object of study. The third chapter deals with the methodology and it is structured in three parts: how the corpus has been obtained, how the database has been designed, and the structural classification of collocations. Following the definition offered as starting point, 3403 collocations are found in a specialized corpus, corpus PENCIV. After creating the database in chapter four, two tools have been designed. These tools are the main original contribution in the thesis: on one hand the search tool inserted in the webpage and the collocation sheets and, on the other hand, 48 activities for the Legal Spanish class. All the research is summarized in the final conclusions, where the main ideas are outlined, the objectives assessed and some research lines for the future are suggested. The investigation finishes with the bibliography used in this thesis, some collocation sheets and some examples of autonomous learning activities, which are part of the webpage designed in this research

    La noción de colocación en las partes introductorias de algunos diccionarios monolingües del español

    Get PDF
    [Resumo] Neste artigo revisamos, en primeiro lugar, as mencións explícitas e implícitas que algúns dicionarios de lingua española realizan nas súas partes introdutorias sobre o conceito de colocacióa. Esta análise permitiunos determinar se os dicionarios empregan denominacións específicas para referirse ás colocacións e se as diferencian doutros tipos de combinacións léxicas. En segundo lugar, identificamos qué mecanismos utilizan os dicionarios na súa microestructura para incluir unha colocación.[Resumen] En este artículo revisamos, en primer lugar, las menciones explícitas e implícitas que algunos diccionarios de la lengua española realizan sobre el concepto de colocación en sus partes introductorias. Este análisis nos ha permitido determinar si los diccionarios emplean denominaciones específicas para referirse a las colocaciones y si las diferencian de otros tipos de combinaciones léxicas. En segundo lugar, identificamos qué mecanismos utilizan los diccionarios en su microestructura para incluir una colocación.[Abstract] This paper reviews the explicit and implicit statements on the concept of collocation included by some Spanish language dictionaries in their introductory sections. This analysis has allowed us to determine if dictionaries use specific denominations when referring to collocation and if they differentiate these from other types of lexical combinations. Secondly, we identify the mechanisms used by these dictionaries in their microstructure, when including a collocatio

    La terminología de la gastronomía puertorriqueña y su traducción al inglés

    Get PDF
    [ES] La cocina se presenta como un espacio en el que los alimentos se transforman en cultura. La receta, particularmente, aquella que se enmarca en el contexto de un libro vinculado a una cocina nacional, se configura como un acto de comunicación especializada en el que se integran el conocimiento técnico y la definición de la identidad. Estudiamos el entramado que subyace a la terminología utilizada en cinco libros de recetas de Puerto Rico, en su versión original y en su traducción al inglés. Los textos de los que extraemos los términos objeto de análisis se publicaron en momentos clave de la historia puertorriqueña: la década de los cincuenta del siglo XX, marcada por los cambios políticos en la isla con respecto a su relación con Estados Unidos, y la primera década del siglo XXI, momento en que el movimiento “foodie” se encuentra en auge. A fin de representar los términos en una base de datos terminológica que dé cuenta de las categorías y relaciones conceptuales del dominio, combinamos el estudio de corpus paralelos con fuentes de referencia, estudios semánticos y ontologías que describen el dominio culinario desde diferentes perspectivas. El estudio se inserta en los Estudios de Traducción y en la Terminología. [EN] In the kitchen, food transforms into culture. Recipes, particularly those framed in the context of recipe books linked to a national cuisine, stand as an act of specialized communication that combines technical knowledge with the definition of identity. We describe the framework that underlies the terminology used in a sample of recipes from five iconic Puerto Rican cookbooks, both in their original version in Spanish and in their English translation. The texts included in the corpus were published during key periods in Puerto Rican history, the fifties of the 20th century, an era marked by political changes on the island dealing with its relationship to the United States, and the first decade of the 21st century, a decade characterized by a “foodie boom”. In order to create a terminological database that gives an adequate account of the categories and conceptual relations of this domain, we combine the analysis of parallel corpora with lexicographic resources, semantic studies, and ontologies that describe the culinary domain from different points of view. The theoretical framework includes literature from both Translation Studies and Terminology

    Aproximación a la lingüística computacional

    Get PDF
    520 p.Esta tesis surge con el objetivo de intentar dar respuesta, desde la perspectiva de la Lingüística, a una serie de preguntas básicas planteadas a raíz de una primera toma de contacto con el campo de la Lingüística Computacional. En primer lugar, buscando delimitar el objeto, finalidad, líneas de investigación e historia de la disciplina. En segundo lugar, analizando las implicaciones del tratamiento computacional del lenguaje a través de sus principales áreas de trabajo, así como algunas de las aplicaciones de la LC. Por último, incidiendo en uno de los aspectos que más interés han suscitado, el de la recopilación de grandes muestras textuales de uso de la lengua, o corpus. Todos estos puntos se han articulado en sendos materiales en línea que sirven desde hace algunos años como apoyo de la docencia de las asignaturas correspondientes de la licenciatura en Lingüística y que son de consulta libre para todos aquellos que quieran utilizarlo

    Fraseologia : enfoques contrastivos e especializados

    Get PDF

    La enseñanza del léxico español del fútbol a estudiantes chinos de ELE

    Get PDF
    En aquesta tesi em plantejo com a objectiu últim elaborar una proposta de materials didàctics centrats en el lèxic del futbol per a estudiants xinesos d'ELE (Espanyol com a Llengua Estrangera) interessats a desenvolupar la seva tasca professional en l'àmbit futbolístic. Per aconseguir aquest objectiu, he anat desenvolupant diferents objectius específics, que m'han conduït a poder presentar les següents aportacions. En primer lloc, he elaborat el marc teòric per tal circumscriure els termes del futbol en alguna de les teories terminològiques existents. En segon lloc, he confeccionat un corpus de futbol de més d'un 1.328.683 paraules, corpus explotat amb l'estació de treball terminològica Terminus 2.0, gràcies a la qual puc comptar amb una llista de 1000 candidats a terme extrets de la meva corpus de futbol, base fonamental per a la continuació d'aquesta recerca. En tercer lloc, he ordenat, classificat i agrupat en diferents grups els termes del futbol seleccionats per tal de comptar amb els termes vàlids per analitzar les seves característiques lexicològiques. En quart lloc, he establert criteris objectius per agrupar cada un dels termes del futbol sota el seu nivell de referència corresponent (A1-C2). I, en cinquè lloc, abans de plantejar la proposta de l'elaboració de materials didàctics, he estudiat quin mètode o enfocament s’ha d’aplicar per ensenyar amb èxit el lèxic del futbol a estudiants xinesos d'ELE interessats a desenvolupar la seva tasca professional en l'àmbit futbolístic. Tot això ha estat fonamental tant per a l'elaboració d'un glossari bilingüe del lèxic del futbol com per a l'elaboració d'una unitat didàctica de mostra orientada a ensenyar l’esmentat lèxic a estudiants xinesos d'ELE interessats a desenvolupar la seva tasca professional en l'àmbit futbolístic.En esta tesis me planteo como objetivo último elaborar una propuesta de materiales didácticos centrados en el léxico del fútbol para estudiantes chinos de ELE (Español como Lengua Extranjera) interesados en desarrollar su labor profesional en el ámbito futbolístico. Para lograr este objetivo, he ido desarrollando diferentes objetivos específicos, que me han conducido a poder presentar las siguientes aportaciones. En primer lugar, he elaborado el marco teórico con el fin circunscribir los términos del fútbol en alguna de las teorías terminológicas existentes. En segundo lugar, he confeccionado un corpus de fútbol de más de un 1.328.683 palabras, corpus explotado con la estación de trabajo terminológica Terminus 2.0, gracias a la cual puedo contar con una lista de 1000 candidatos a término extraídos de mi corpus de fútbol, base fundamental para la continuación de esta investigación. En tercer lugar, he ordenado, clasificado y agrupado en distintos grupos los términos del fútbol seleccionados con el fin de contar con los términos válidos para analizar sus características lexicológicas. En cuarto lugar, he establecido criterios objetivos para agrupar cada uno de los términos de fútbol bajo su nivel de referencia correspondiente (A1-C2). Y, en quinto lugar, antes de plantear la propuesta de la elaboración de materiales didácticos, he estudiado qué método o enfoque debe aplicarse para que se pueda enseñar con éxito el léxico del fútbol a estudiantes chinos de ELE interesados en desarrollar su labor profesional en el ámbito futbolístico. Todo ello ha sido fundamental tanto para la elaboración de un glosario bilingüe del léxico del fútbol como para la elaboración de una unidad didáctica de muestra orientada a enseñar dicho léxico estudiantes chinos de ELE interesados en desarrollar su labor profesional en el ámbito futbolístico.In this thesis I offer, as ultimate goal, a proposal of didactic materials focused on the lexicon of football for Chinese students of ELE (Spanish as a Foreign Language) interested in developing their profession in the field of football. To achieve this goal, I have developed different specific goals, which have led me to present the following contributions. In the first place, I have elaborated the theoretical framework in order to circumscribe the terms of football according to some of the existing terminological theories. Secondly, I have made a corpus of more than 1,328,683 words of football, which was exploited with the terminology workstation Terminus 2.0. Thanks to such application, a list of 1000 candidates of football terms was extracted, which is the fundamental basis for the continuation of this research. Thirdly, I have ordered, classified and grouped the selected football terms in order to obtain valid terms to analyze their lexicological characteristics. Fourth, I have established objective criteria for grouping the football terms into their corresponding reference levels (A1-C2). And, fifthly, considering the development of teaching materials, I have studied what method or approach should be applied, so that the lexicon of football can be successfully taught to Chinese students of ELE who are interested in developing their profession in the field of football. All these have been fundamental not only for the preparation of a bilingual glossary of the lexicon of football, but also for the elaboration of a didactic unit, as a sample, aimed to teach the lexicon of football to Chinese students of ELE interested in developing their profession in the field of football
    corecore