47 research outputs found

    Propuesta de procedimiento para la construcción semiautomática de tesauros en Bibliotecas Universitarias

    Get PDF
    Objetivo Se proponen procedimientos de índole teóricos en la indización, y a la vez introduciéndose en parcelas de las Ciencias de la Computación para resolver problemas de la Red TIC del Proyecto VLIR desde una óptica multidisciplinar, dada las características imponen el reto  de  intentar desarrollar cualquier proceso normativo en el terreno de la indización para un entorno complejo y pluridisciplinar, siendo la primera vez que se asume un trabajo en Ciencias de la Información en la Universidad Central “Marta Abreu” de Las Villas (UCLV). Diseño/Metodología/Enfoque se utilizaron las técnicas de origen matemático: la Ley de Zip, TF-IDF, N-grams y Stop World Elimination, aportando un enfoque mixto predominantemente cuantitativo. La descripción sirve de guía para la construcción de léxicos especializados, al incluir los mecanismos de construcción basados en las reglas exigidas a nivel internacional. Resultados/Discusión: Desde el  diagnóstico de los Procesos de Indización en las Bibliotecas asociadas a la Red TIC del Proyecto VLIR, se aplicaron  métodos y técnicas en la recopilación de información permitieron obtener resultados relacionados a la experiencia en los procesos de indización y construcción de tesauros en las diversas universidades del país. Conclusiones: La creación de un procedimiento que proporcione la transformación de los vocabularios controlados en un lenguaje interoperable, facilita la indización y la recuperación eficiente de la información. Originalidad/Valor: El impacto social de uso estriba en que al contener datos estandarizados en formato SKOS, las plataformas que usa y desarrolla la red podrán interpretar con otras plataformas con fines similares dando visibilidad a la ciencia de la Red TIC

    Tipología textual y cohesión en la traducción biomédica inglés-español: un estudio de corpus

    Get PDF
    Este trabajo se ha elaborado dentro del marco del proyecto de investigación OncoTerm: Sistema bilingüe de información y recursos oncológicos, financiado por la DGICYT (código PB98-1342). Su objetivo es el de poner al alcance de pacientes y profesionales de la medicina y la traducción especializada información relacionada con el cáncer. El sistema consta de una ontología y una base de datos terminológica y textual en inglés y español, recursos que estarán integrados entre sí en Internet.El propósito principal de esta tesis ha sido investigar dos elementos generadores de textualidad, el tipo textual y la cohesión léxica, para indagar los efectos que esta relación trae consigo en la traducción biomédica ingles-español. Para poder relacionar estos prámetros se plantean tres hipótesis:1) Existe una correlación entre el tipo textual y los recursos cohesivos que lo materializan. 2) Existen diferencias con respecto a la cohesión entre las lenguasinglesa y española que tienen una importante repercusión en la traducción. 3) La cohesión léxica activada en los textos médicos refleja en gran medida la compleja red conceptual que sustenta ese campo del saber. La parte de revisión bibliográfica gira en torno a las tipologías textuales, la cohesión y la lingüística de corpus. Se parte de un modelo congnitivo de la traducción para explicar los elementos que intervienen en la comprensión y producción de tipos textuales. Se aborda el concepto de tipología textual desde los estudios de traducción y se aclara el significado de términos relacionados como tipo textual, registro y género. Dentro de los tipos de cohesión, nos hemos centrado en la cohesión léxica, que consiste en la repetición de elementos léxicos en el plano paradigmático y sintagmático destinada a que el lector perciba el texto como una unidad conceptual. De las distintas aproximaciones al fenómeno cohesivo, hemos puesto el énfasis principalmente en Hoey(1991,1995), Morris y Hirst(1991), la Teoría Sentido Texto(Melćuk et al. 1984) y Ellman(1999,2000). A partir de estas fuentes, se ha diseñado un método de análisis destinado a computar y clasificar las relaciones cohesivas dentro de textos pertenecientes a un corpus comparable y paraleloingles-español sobre oncología. Esta metodología se fundamenta en la premisa de que la cohesión es un fenómeno interoracional e intraoracional que activa un universo léxico de relaciones paradigmáticas y sintagmáticas que se pordrían representar en forma de marcos conceptuales. Este universo léxico activa un universo textual, crea textura. Después de proponer categorías para describir los tipos de cohesión léxica y una taxonomía de funciones léxicas cohesivas, se conjuga una doble metodología aplicable no sólo a fragmentos de texto o textos breves(análisis intensivo), sino también a textos completos y extensos (análisis extensivo), gracias a herramientas informáticas que ayudan a detectar las cadenas léxicas de los textos. Los resultados del análisis ponen de manifiesto la utilidad de la lingüística de corpus en terminología y las diferencias cohesivas entre textos en inglés y español, entre textos dirigidos a un destinatario distinto y entre textos originales y traducidos. Del análisis se infiere que existe una conexión entre las cadenas léxicas construidas a partir de los lexemas del texto y las áreas conceptuales más activadas en el mismo. Se presentan las diferencias cohesivas, conceptuales y terminológicas entre las cadenas léxicas identificadas en textos para especialistas y textos para pacientes, y también, los recursos lingüisticos que hacen explícita la cohesión en estos dos tipos textuales, que difieren con respecto al destinatario y su conocimiento sobre medicina. Asimismo, se indaga sobre el papel que la frecuencia de determinadas unidades léxicas puede jugar en la configuración de cadenas léxicas, en el reconocimiento de unidades fraseológicas y en la activación conceptual. Por última se señalan cambios cohesivos entre textos originales en inglés y su traducción al español y se citan los factores que pueden explicar esta fenómeno.Tesis Univ. Granada. Departamento de Traducción e Interpretació

    Una aproximación basada en aprendizaje automático para diversos problemas de procesamiento de lenguaje natural en redes sociales

    Full text link
    [EN] This work is focused on solving several Natural Language Processing tasks, for which an approach based on machine learning algorithms was used. The tasks addressed were: language identification, sentiment analysis and author profi- ling. These tasks were proposed by international competitions which have led to publish several papers. A data set of social media texts were used in these tasks, mainly from Twitter. Overall, these texts present some characteristics (short and ungramatical texts) that are challenging for Natural Language Processing techniques. For each task, the state-of-the-art is studied and a model to solve the task is proposed. In order to create a valid model, several resources and supervised machine learning tech- niques were used. Finally, the results obtained were analyzed and improvements to the model were proposed to enhance the behavior of the model.[ES] Este trabajo se centra en la resolución de distintas tareas propias del procesamiento automático del lenguaje natural, para lo cual se emplea una aproximación basada en aprendizaje automático. Las tareas consideradas son: la detección del idioma, el análisis de sentimientos y la creación de perfiles de usuario. Se trata de tareas propuestas en competiciones internacionales y que han dado lugar a diversas publicaciones. Todas estas tareas se plantearon utilizando datos extraídos de redes sociales, en particular textos de Twitter. En general, los textos que pueden encontrarse en estos medios poseen una serie de características (textos cortos y agramaticales) que plantean nuevos retos para el procesamiento del lenguaje natural. En cada caso, se estudia el estado del arte y se propone un modelo que se ajuste a los requisitos de la tarea. Para ello, se emplean los recursos y los algoritmos de aprendizaje automático supervisado más adecuados. Finalmente, se ha analizado los resultados y se plantean futuras modificaciones que mejoren el comportamiento de los sistemas planteados.Giménez Fayos, MT. (2016). Una aproximación basada en aprendizaje automático para diversos problemas de procesamiento de lenguaje natural en redes sociales. http://hdl.handle.net/10251/64031TFG

    YourtTerm FEM: Glosario terminológico bilingüe español-italiano sobre los derechos de las mujeres en el trabajo

    Get PDF
    La tesis consiste en la creación de un glosario terminológico en italiano y español. El ámbito general se refiere a la igualdad de género y, en particular, el subdominio incluye los derechos de la mujer en el lugar de trabajo. El trabajo comenzó con la búsqueda de textos en ambos idiomas y, tras encontrarlos, se pudieron crear los corpus, uno en italiano y otro en español, que se subieron a Sketch Engine. En este punto, se realizó la extracción terminológica y se identificaron 150 términos para cada idioma, uno de los cuales era la traducción del otro. Por último, se compilaron las fichas terminológicas en FAIRterm en ambas lenguas para cada término elegido

    La enseñanza del léxico español del fútbol a estudiantes chinos de ELE

    Get PDF
    En aquesta tesi em plantejo com a objectiu últim elaborar una proposta de materials didàctics centrats en el lèxic del futbol per a estudiants xinesos d'ELE (Espanyol com a Llengua Estrangera) interessats a desenvolupar la seva tasca professional en l'àmbit futbolístic. Per aconseguir aquest objectiu, he anat desenvolupant diferents objectius específics, que m'han conduït a poder presentar les següents aportacions. En primer lloc, he elaborat el marc teòric per tal circumscriure els termes del futbol en alguna de les teories terminològiques existents. En segon lloc, he confeccionat un corpus de futbol de més d'un 1.328.683 paraules, corpus explotat amb l'estació de treball terminològica Terminus 2.0, gràcies a la qual puc comptar amb una llista de 1000 candidats a terme extrets de la meva corpus de futbol, base fonamental per a la continuació d'aquesta recerca. En tercer lloc, he ordenat, classificat i agrupat en diferents grups els termes del futbol seleccionats per tal de comptar amb els termes vàlids per analitzar les seves característiques lexicològiques. En quart lloc, he establert criteris objectius per agrupar cada un dels termes del futbol sota el seu nivell de referència corresponent (A1-C2). I, en cinquè lloc, abans de plantejar la proposta de l'elaboració de materials didàctics, he estudiat quin mètode o enfocament s’ha d’aplicar per ensenyar amb èxit el lèxic del futbol a estudiants xinesos d'ELE interessats a desenvolupar la seva tasca professional en l'àmbit futbolístic. Tot això ha estat fonamental tant per a l'elaboració d'un glossari bilingüe del lèxic del futbol com per a l'elaboració d'una unitat didàctica de mostra orientada a ensenyar l’esmentat lèxic a estudiants xinesos d'ELE interessats a desenvolupar la seva tasca professional en l'àmbit futbolístic.En esta tesis me planteo como objetivo último elaborar una propuesta de materiales didácticos centrados en el léxico del fútbol para estudiantes chinos de ELE (Español como Lengua Extranjera) interesados en desarrollar su labor profesional en el ámbito futbolístico. Para lograr este objetivo, he ido desarrollando diferentes objetivos específicos, que me han conducido a poder presentar las siguientes aportaciones. En primer lugar, he elaborado el marco teórico con el fin circunscribir los términos del fútbol en alguna de las teorías terminológicas existentes. En segundo lugar, he confeccionado un corpus de fútbol de más de un 1.328.683 palabras, corpus explotado con la estación de trabajo terminológica Terminus 2.0, gracias a la cual puedo contar con una lista de 1000 candidatos a término extraídos de mi corpus de fútbol, base fundamental para la continuación de esta investigación. En tercer lugar, he ordenado, clasificado y agrupado en distintos grupos los términos del fútbol seleccionados con el fin de contar con los términos válidos para analizar sus características lexicológicas. En cuarto lugar, he establecido criterios objetivos para agrupar cada uno de los términos de fútbol bajo su nivel de referencia correspondiente (A1-C2). Y, en quinto lugar, antes de plantear la propuesta de la elaboración de materiales didácticos, he estudiado qué método o enfoque debe aplicarse para que se pueda enseñar con éxito el léxico del fútbol a estudiantes chinos de ELE interesados en desarrollar su labor profesional en el ámbito futbolístico. Todo ello ha sido fundamental tanto para la elaboración de un glosario bilingüe del léxico del fútbol como para la elaboración de una unidad didáctica de muestra orientada a enseñar dicho léxico estudiantes chinos de ELE interesados en desarrollar su labor profesional en el ámbito futbolístico.In this thesis I offer, as ultimate goal, a proposal of didactic materials focused on the lexicon of football for Chinese students of ELE (Spanish as a Foreign Language) interested in developing their profession in the field of football. To achieve this goal, I have developed different specific goals, which have led me to present the following contributions. In the first place, I have elaborated the theoretical framework in order to circumscribe the terms of football according to some of the existing terminological theories. Secondly, I have made a corpus of more than 1,328,683 words of football, which was exploited with the terminology workstation Terminus 2.0. Thanks to such application, a list of 1000 candidates of football terms was extracted, which is the fundamental basis for the continuation of this research. Thirdly, I have ordered, classified and grouped the selected football terms in order to obtain valid terms to analyze their lexicological characteristics. Fourth, I have established objective criteria for grouping the football terms into their corresponding reference levels (A1-C2). And, fifthly, considering the development of teaching materials, I have studied what method or approach should be applied, so that the lexicon of football can be successfully taught to Chinese students of ELE who are interested in developing their profession in the field of football. All these have been fundamental not only for the preparation of a bilingual glossary of the lexicon of football, but also for the elaboration of a didactic unit, as a sample, aimed to teach the lexicon of football to Chinese students of ELE interested in developing their profession in the field of football

    EL TRATAMIENTO TERMINOGRÁFICO DE LAS EXPRESIONES IDIOMÁTICAS EN LOS DICCIONARIOS Y GLOSARIOS DE ECONOMÍA EN LÍNEA EN INGLÉS Y ESPAÑOL. SU UTILIDAD PARA EL TRADUCTOR

    Get PDF
    This paper is part of a broader study of business  idioms,  in which I explore the treatment of these units in terminographical  resources in paper and digital format (dictionaries, glossaries, terminological  databases). The study aims to discover which of these systems offers the most complete treatment of idioms and, therefore, would be most  useful  to the translator-user.  The present  article  studies  the entries  of five business idioms in sixteen on-line business dictionaries  and glossaries, monolingual, bilingual  and  multilingual.  It  analyses  whether  these  specialized  dictionaries  and glossaries  have  fully  developed  the  terminographical  possibilities  of the  electronic format,  and compares  the qualities  and limitations  of these resources  with those of dictionaries  on paper.Este artículo se encuadra en un estudio más amplio de las expresiones idiomáticas (EI, locuciones)  de la economía  que examina  el tratamiento  de estas unidades en recursos terminográficos en formato papel y digital (diccionarios, glosarios y bases de datos terminológicas)  para descubrir  cuáles  de ellos ofrecen  un tratamiento  más completo de las EI y serían, por tanto, más útiles a los usuarios traductores.  El presente trabajo se centra en el análisis de las entradas de cinco locuciones en dieciséis diccionarios y glosarios de economía en línea (monolingües, bilingües y multilingües). Analiza si estos diccionarios  y glosarios especializados  han desarrollado  plenamente las ventajas  terminográficas  del formato  electrónico  y compara  las cualidades  y limitaciones  de estos recursos con las de los diccionarios  en formato  papel

    Construcción de sistemas de recuperación de información sobre córpora textuales estructurados de grandes dimensiones

    No full text
    En este trabajo se evalúan las principales tecnologías para el desarrollo de sistemas de recuperación de información basados en córpora estructurados de grandes dimensiones: Oracle (Oracle Corporation, 8/3/2005) y Tamino (Software AG Company, 8/3/2005).In this paper we evaluate main technologies to develop Information Retrieval Systems based on large text structured corpora: Oracle (Oracle Corporation, 8/3/2005) and Tamino (Software AG Company, 8/3/2005).Parcialmente financiado por el Ministerio de Educación y Ciencia (MEC) y FEDER (TIN2004-07246-C02-01 y TIN2004-07246-C02-02), por MEC (HF2002-81), y por la Xunta de Galicia (PGIDIT02PXIB30501PR, PGIDIT02SIN01E y PGIDIT03DIN30501PR)

    El lenguaje económico alemán y español de la prensa especializada : análisis basado en un corpus de la crisis económica (CRISCORP)

    Get PDF
    Programa de Doctorado en Lenguas Modernas, Traducción y Español como Lengua ExtranjeraEn esta tesis se analiza el lenguaje especializado de la crisis económica procedente de textos de la prensa especializada mediante la explotación de un corpus comparable alemán-español que hemos compilado de forma cronológica (mismo suceso en ambas lenguas) y que hemos denominado CrisCorp. El estudio arroja similitudes y diferencias del lenguaje de la crisis económica en cada uno de los códigos lingüísticos, y pone el foco en aquellos aspectos definitorios que más sobresalen: las metáforas, los extranjerismos y las expresiones cuantitativas. Tratamos de conocer el comportamiento del par de lenguas de nuestro interés en cuanto a los fenómenos léxicos mediante el análisis contrastivo y la ayuda del programa de análisis y tratamiento de corpus, Sketch Engine. Esta tesis se inscribe en la lingüística contrastiva, pero también en la lingüística descriptiva y la lingüística de corpus.Universidad Pablo de Olavide. Departamento de Filología y Traducció

    Aproximación al Diseño y Elaboración de un Diccionario Sanitario Trilingüe en Línea (Español-Rumano-Inglés)

    Get PDF
    Esta Tesis Doctoral presenta un estudio sobre los recursos terminológicos especializados del ámbito de la salud en la combinación de lenguas español-rumano-inglés y tiene como principal objetivo ofrecer una aproximación a un modelo de diseño y elaboración de un diccionario de términos sanitarios trilingüe en línea aplicando herramientas de diferentes tipos tanto para su diseño y elaboración como para su incorporación a una página web. Para conseguir los objetivos marcados, en primer lugar se lleva a cabo una introducción del tema presentando el estado de la cuestión sobre los recursos terminológicos del ámbito sanitario en general y de la atención primaria en particular en la combinación de lenguas indicada. En segundo lugar, se investiga sobre las disciplinas tan imprescindibles en la construcción de un diccionario, como la lexicología y la terminología con sus respectivas rama aplicadas y se presenta la utilidad de diferentes tipos de herramientas disponibles para la elaboración de un glosario especializado que se pueda convertir en un diccionario especializado: bases de datos de uso general y de enfoque lingüístico, herramientas de gestión terminológica, de etiquetado y extracción de terminología, de creación de ontologías. Finalmente, se presenta una propuesta metodológica de bajo coste para la creación de un modelo de diccionario sanitario trilingüe en línea. En cuanto a su estructura, la Tesis Doctoral tiene dos partes: una teórica y otra práctica, desarrolladas a lo largo de seis capítulos: los tres primeros capítulos están dedicados a la teoría y los dos siguientes (capítulos cuatro y cinco) a la aplicación práctica. En la parte teórica, por un lado, se lleva a cabo un estudio más detallado sobre lexicología, terminología, lexicografía y terminografía, presentando, de forma paralela, las relaciones entre estas disciplinas y el multilingüismo y la traducción. Por otro lado, se analizan los conceptos relacionados con bases de datos, herramientas y programas informáticos al servicio de la terminología y terminografía para cumplir con los objetivos propuestos en este trabajo. Ya en la parte práctica, se dedica una primera fase a la creación de un modelo de corpus real y se investiga sobre los sistemas sanitarios de España, Rumanía y el Reino Unido, especialmente el área de atención primaria y de la historia clínica digital. En la segunda fase, se diseña un modelo de base de datos utilizando MySql y una página web. Finalmente, el capítulo seis ofrece una visión de conjunto del trabajo realizado. La principal conclusión derivada del mismo indica la escasez de materiales de este tipo y la necesidad de desarrollar programas que faciliten la comunicación especializada dentro del ámbito sanitario a nivel europeo
    corecore