183 research outputs found

    Evaluación comparativa de corpus usados en el entrenamiento de un motor de TAE para la traducción de guías docentes de la Universidad Autónoma de Barcelona

    Get PDF
    En este trabajo de fin de máster se lleva a cabo la creación de seis motores de traducción automática estadística (EN>ES) mediante la plataforma de MTradumática, entrenados con corpus de entrenamiento y optimización reunidos a partir de guías docentes de programas del área de Humanidades de la Universidad Autónoma de Barcelona. Se realiza una comparación entre las traducciones realizadas con dichos motores, así como entre ellas y las traducciones creadas con el motor de traducción automática Google Translate, para lo cual se usa el sistema de evaluación BLEU. Así se pretende establecer si un motor de traducción automática estadística personalizado ofrece mejores resultados a la hora de traducir las guías docentes de la UAB que un motor de traducción automática neuronal de carácter general tal como Google Translate, e igualmente se pretende discernir cuál es el mejor de los motores especializados y qué características deben cumplir un corpus de entrenamiento y un corpus de optimización.For this Master's Degree Dissertation, six statistical machine translation engines (EN>ES) were created using the MTradumática platform, trained with training and optimization corpus gathered from syllabi for programs in the Humanities area of the Universidad Autónoma de Barcelona. A comparison is made between the translations created with those engines, as well as between them and the translations created with the Google Translate machine translation engine; using the BLEU evaluation system. The aim is to establish whether a customized statistical machine translation engine offers better results when translating the UAB syllabi than a general neural machine translation engine such as Google Translate, and also to discern which is the best of the specialized engines, and what features should a training corpus and an optimization corpus have

    Traducción automática, análisis, contraste y aceptación

    Get PDF
    Treball Final de Grau en Traducció i Interpretació. Codi: TI0983. Curs: 2014/2015Este proyecto gira en torno a la investigación y aceptación de la traducción automática en diferentes tipologías textuales (expresiva, informativa y operativa). Como parte del estudio, se presenta un análisis mediante el Baremo de corrección de traducciones utilizado en la Universitat Jaume I para estudiar los errores que comete una herramienta de traducción automática, y otro análisis contrastivo mediante el método WER para determinar la calidad de la traducción automática en comparación con la traducción profesional. Asimismo, y a modo investigación social, se diseña y aplica una encuesta a un amplio abanico de receptores para determinar el grado de aceptación de las herramientas de traducción automática actuales y el nivel de confianza que se deposita en ellas. En dicha encuesta, aparecen diferentes preguntas respecto a la traducción automática para concretar la opinión que el público tiene acerca de la profesión de la traducción y las nuevas tecnologías aplicadas a la traducción

    Traducción Automática Interactiva Basada en Segmentos de Palabras

    Full text link
    Current interactive machine translation systems are based on the validation / correction by an human of the successive prefixes of the translations and the generation of the corresponding suffixes by the machine translation systems. This approach has the disadvantage that sometimes one correction by the human causes the system to generate a suffix of poorer quality than existed before correction. This work presents an efficient implementation of an interactive-predictive machine translation system in which the human validates all desired segments of the automatic generated translations and introduces a correction, the system must fill with new suggestions the segments not validated by the human. This implementation will be validated through a series of experiments in various translation tasks.Los sistemas actuales de traducción interactiva están basados en la validación/corrección por parte del humano de sucesivos prefijos de las traducciones y en la generación de los correspondientes sufijos por parte del traductor automático. Esta aproximación tiene el inconveniente de que en ocasiones una correción del humano provoca que el sistema genere un sufijo de peor calidad que el que existía antes de la corrección. En este trabajo se propone una implementación eficiente de un sistemas de traducción interactivo-predictivo en el que el humano valida todos los segmentos que desee de las traducciones generadas por el traductor automático e introduce una corrección donde crea oportuno y el sistema debe rellenar con nuevas sugerencias los segmentos no validados por el humano. Esta implementación será validada mediante una serie de experimentos en varias tareas de traducción.[CA] Els sistemes actuals de traducció interactiva estan basats en la validació/correcció per part d’un humà dels successius prefixes de les traduccions i en la generació dels corresponents sufixes per part del traductor automàtic. Aquesta aproximació té l’inconvenient de que requereix massa esforç per part de l’usuari, superant a aproximacions no interactives. En aquest treball, es proposa una implementació eficient d’un sistema de traducció interactiva-predictiva en el que l’humà valida tots els segments que desitge de les traduccions generades pel traductor automàtic i introdueix una correcció on crega oportú, de manera que el sistema deurà emplenar amb nous suggeriments els segments no validats per l’humà. Aquesta implementació serà validada mitjançant una sèrie d’experiments en diverses tasques de traducció.Torres Badia, G. (2016). Traducción Automática Interactiva Basada en Segmentos de Palabras. http://hdl.handle.net/10251/76842TFG

    科大讯飞翻译机在医疗领域的应用及其特点分析(西汉)

    Get PDF
    En consonancia con el Instituto Nacional de Estadística (INE) de España, desde 1988, el número de inmigrantes chinos en España ha aumentado significativamente, pasando de 12.306 a 223.591 hasta el 1 de enero de 2022.1 Además, la cantidad de turistas chinos que visitan a España ha incrementado, con 699.108 llegadas en 2019, siendo los principales destinos Cataluña, Madrid y Andalucía. 2 Aunque la pandemia de coronavirus había disminuido de cierta manera el número de inmigrantes y turistas, con la apertura de las políticas y el alivio de las restricciones de viaje, la cantidad sigue creciendo rápidamente. Es por esto que ha generado una gran mayor necesidad de traducción en el ámbito sanitario. No obstante, la traducción humana tradicional no puede satisfacer la demanda de los usuarios. Como líder de empresas de tecnología de traducción, iFLYTEK ha desarrollado una serie de traductores que cuenta con funciones de traducción e interpretación en tiempo real, reconocimiento de dialectos y acentos, traducción e interpretación sin conexión de internet, terminologías en campos específicos, conocimientos profesionales, etc. El objetivo de esta tesis consiste en analizar la aplicación del traductor iFLYTEK en el ámbito sanitario y explorar sus ventajas y limitaciones. Para realizarlo, se ha creado un corpus bilingüe concentrándose en la tuberculosis como ejemplo y se traduce el texto español al chino utilizando iFLYTEK. Además, se aplican dos métricas: BLUE (Bilingual Evaluation underestudy) y TAUS (Translation Automation User Association) para realizar la evaluación automática y le evaluación humana de este texto traducido. Esta metodología requiere una base teórica: 1) La definición de traducción especializada 2) Características del lenguaje médico español y chino 3) Rasgos y dificultades de traducción sanitaria en España y China 4) La tipología de traducción automática 5) Evaluación automática y evaluación humana En resumen, el análisis de la calidad de traducción muestra que el iFLYTEK tiene varios problemas en la traducción en el ámbito sanitario. Dada la capacidad limitada de la evaluación humana, este estudio toma como ejemplo el tema de la tuberculosis. Por lo tanto, aún queda mucho camino por recorrer para la investigación de la aplicación del traductor iFLYTEK en el ámbito sanitario根据西班牙国家统计局(NIE)数据显示,自 1998 年以来,截至 2022 年 1 月 1 日,居 住在西班牙的中国移民数量从 12036 人增加到 223591 人。2019 年,中国游客入境西班 牙次数高达 699108 次,其中主要目的地是加泰罗尼亚,马德里和安达卢西亚。尽管受 疫情影响,这两年游客人数有所下降,但随着各国政策的放宽和疫情的缓解,移民西班 牙的中国人以及前往西班牙旅游的人数仍在迅速增长。因此,在医疗领域存在着很大的 翻译需求。 然而,传统的人工翻译无法完全满足这种需求。作为翻译的龙头企业,科大讯飞开发的 翻译机具有实时翻译、方言翻译、口音识别、离线翻译,配有专业领域术语库及专业知 识等多种功能。本论文旨在探讨科大讯飞翻译机在西班牙语和中文之间医疗领域的应用, 以及其特点优劣。 为此,本文以结核病为例,创建了双语语料库, 然后应用科大讯飞对文本进行西班牙 语到中文的翻译。并使用 BLEU(双语评价研究)和 TAUS(翻译自动化用户协会)分别 对译文进行自动评价和人工评价,对比两种评价方式的特点,分析翻译文本的质量。应 用此研究方法需要足够的理论支撑: 1) 定义特定领域的翻译 2) 分析西班牙语和中文医学语言的特点 3) 总结两个医疗领域翻译的特点以及遇到的难点 4) 分析机器翻译系统的分类 5) 研究两种评价译文的方式 6) 介绍科大讯飞翻译机的特点 最后,通过文本翻译质量的分析,科大讯飞在医疗领域的翻译仍然存在许多问题。鉴于 人工评价的能力有限,本文对于医疗文本翻译的研究以结核病为例,研究范围不够广泛, 多样。因此,对于科大讯飞的翻译功能仍有待进一步研究。Máster Universitario en Comunicación Intercultural, Interpretación y Traducción en los Servicios Públicos. Especialidad en CHI-ESP (M196

    La traducción automática con realidad aumentada y la posedición: un caso práctico

    Get PDF
    Universidad de Granada. Grado en Traducción e Interpretació

    Creación de un motor de traducción automática estadístico (EN>ES) para textos del ámbito farmacéutico. Comparación con otros motores de traducción automática neuronal existentes

    Get PDF
    En aquest treball de fi de màster es duu a terme la creació d'un motor de traducció automàtica estadística (EN>ES) especialitzat en l'àmbit farmacèutic mitjançant la plataforma KantanMT. S'ofereixen pinzellades dels detalls clau dels diferents sistemes de traducció automàtica més populars, així com també es parla de la importància de la posedició en el món de la TA i de l'ús de sistemes TAE en petites i mitjanes empreses de traducció espanyoles. D'altra banda, es mostren, a més, els passos a seguir a l'hora d'entrenar un motor de traducció automàtica estadística propi en el núvol, incloent el procés de cerca i creació de corpus. D'aquesta forma, es pretén comprovar si un motor de traducció automàtica estadística especialitzat en l'àmbit farmacèutic ofereix millors resultats en aquest àmbit d'especialització que alguns dels motors de traducció automàtica neuronals de caràcter genèric disponibles en la web. Aquesta comparació ve donada per la creixent popularitat que ha guanyat la traducció automàtica neuronal en els últims anys.En este trabajo de fin de máster se lleva a cabo la creación de un motor de traducción automática estadística (EN>ES) especializado en el ámbito farmacéutico mediante la plataforma KantanMT. Se ofrecen pinceladas de los detalles clave de los diferentes sistemas de traducción automática más populares, así como también se habla de la importancia de la posedición en el mundo de la TA y del uso de sistemas TAE en pequeñas y medianas empresas de traducción españolas. Por otro lado, se muestran, además, los pasos a seguir a la hora de entrenar un motor de traducción automática estadística propio en la nube, incluyendo el proceso de búsqueda y creación de corpus. De esta forma, se pretende comprobar si un motor de traducción automática estadística especializado en el ámbito farmacéutico ofrece mejores resultados en dicho ámbito de especialización que algunos de los motores de traducción automática neuronales de carácter general disponibles en la web. Esta comparación viene dada por la creciente popularidad que ha ganado la traducción automática neuronal en los últimos años.The aim of this Master's Degree Dissertation is the creation of a statistical machine translation engine (EN>ES) specialised in the pharmaceutical field by means of the KantanMT platform. It presents the key details of the different most popular machine translation systems, as well as the importance of post-editing in the world of MT and the use of MT systems in small and medium-sized Spanish translation companies. On the other hand, it also shows the steps to follow when training a statistical machine translation engine in the cloud, including the corpus search and creation processes. In this way, the aim is to check whether a statistical machine translation engine specialising in the pharmaceutical field offers better results in this area of specialisation than some of the generic neuronal machine translation engines available on the web. This comparison is due to the growing popularity of neural machine translation in recent years

    Evaluación de la calidad de la traducción español-chino de DEEPL y NIUTRANS en un texto jurídico (español-chino)

    Get PDF
    La traducción jurídica es una rama derivada de la traducción en los servicios públicos, es un campo que surge para adaptar la necesidad de las sociedades multiculturales. Las traducciones automáticas neuronales son herramientas con las técnicas más avanzada en el campo de traducción automática. El objetivo del presente trabajo es investigar la traducción jurídica y las traducciones automáticas neuronales, buscar hasta donde ha alcanzado esta tecnología y averiguar si las traducciones automáticas neuronales pueden servir de ayuda para los profesionales que trabajan en el ámbito jurídico entre español y chino. Las traducciones automáticas neuronales que se investigan en este proyecto son Deepl y Niutrans. El texto elegido para la traducción es el capítulo 1 y el capítulo 2 que se encuentran en el Real Decreto 902/2020, de 13 de octubre, de igualdad retributiva entre mujeres y hombres, tiene 908 palabras en total. Las hipótesis que se plantea son: 1). las traducciones automáticas neuronales no puedes ser herramientas cien por cien fiables para los profesionales que trabajan en el ámbito jurídico entre español y chino; 2) las traducciones realizadas por Deepl es mejor que las traducciones realizadas por Niutrans. La lengua española y la lengua china que utilizo en este trabajo se refieren únicamente a la castellana que se utiliza en España y el chino que se utiliza en la China continental. La metodología optada para este trabajo es evaluar la calidad de traducción proporcionada por dos Deepl y Niutrans mediante una métrica de evaluación de calidad, el modelo DQF-MQM. Según los resultados obtenidos, quedan confirmadas las dos hipótesis planteadas al principio de este trabajo, puesto que en la traducción de Deepl hay 38 errores, y en la traducción de Niutrans hay 52 errores, pero podemos emplear la posedición en la traducción jurídica entre español y chino para mejorar la calidad de la traducción y ahorrar el tiempo⌅律㘫䈁ᱟ公共ᴽ务㘫䈁Ⲵ一个分支,ᱟ为了䘲应多元文化⽮会Ⲵ䴰㾱㘼出⧠ Ⲵ一个亶域。⾎㓿ᵪ器㘫䈁具ᴹᵪ器㘫䈁亶域ᴰ先䘋Ⲵ技ᵟ。ᵜ䇪文ⲴⴞⲴᱟ ⹄ウ⌅律㘫䈁和⾎㓿ᵪ器㘫䈁,了䀓⾎㓿ᵪ器㘫䈁技ᵟ已㓿䘋↕到何⿽〻度, 并⹄ウ⾎㓿ᵪ器㘫䈁ᱟ否可以为㾯⨝⢉䈝和≹䈝亶域Ⲵ⌅律䈁㘵提供帮助。 ᵜ亩ⴞ中⹄ウⲴ⾎㓿ᵪ器㘫䈁ᱟ Deepl 和 Niutrans。䘹择㘫䈁Ⲵ文ᵜᱟ 10 ᴸ 13 日出台Ⲵ关于⭧女同工同䞜Ⲵㅜ 902/2020 号ⲷ家⌅令Ⲵㅜ一ㄐ和ㅜ二ㄐ,共 908 字。䈕䇪文提出Ⲵ假䇮ᴹ两⛩:1)⾎㓿ᵪ器㘫䈁不㜭成为从事㾯文和中文 之䰤⌅律亶域工作䈁㘵ⲴⲮ分之Ⲯ可䶐Ⲵ工具;2)Deepl Ⲵ㘫䈁䍘䟿∄ Niutrans Ⲵ㘫䈁䍘䟿ᴤ好。 ᵜ文中使⭘Ⲵ㾯⨝⢉䈝和中文仅指在㾯⨝⢉使⭘Ⲵ㾯⨝⢉䈝和在中国大䱶使⭘ Ⲵ中文。ᵜ文䟷取Ⲵ⹄ウ方⌅ᱟ䙊䗷㘫䈁䍘䟿䇴价指ḷ DQF-MQM ⁑型ᶕ䇴价 Deepl 和 Niutrans Ⲵ㘫䈁䍘䟿。ṩ据所得到Ⲵ㔃᷌,ᵜ文开头所䈤Ⲵ两个假䇮得 到了䇱实,因为 Deepl Ⲵ㘫䈁中ᴹ 38 处䭉䈟,Niutrans Ⲵ㘫䈁中ᴹ 52 处䭉䈟, 但我们可以在㾯≹⌅律㘫䈁中使⭘后ᵏ㕆䗁ᶕ提儈㘫䈁䍘䟿,㢲ⴱ时䰤Máster Universitario en Comunicación Intercultural, Interpretación y Traducción en los Servicios Públicos. Especialidad en chi-esp (M196

    Data augmentation and subword segmentation for spell-checking in amazonian languages

    Get PDF
    En el Perú se han identificado 48 lenguas originarias, según la información extraída de la Base de Datos oficial de Pueblos Indígenas u originarios (BDPI). Estas son de tradición oral [BDPI, 2020]. Por lo que no había una forma oficial de enseñanza. El Instituto Linguistico de Verano (ILV) recopiló y documentó diversas lenguas nativas [Faust, 1973], como un primer intento para tener un documento formal para la enseñanza de una lengua originaria. Fue después que el Gobierno Peruano con su estrategia de inclusión social “Incluir para crecer” creó una guía oficial para la enseñanza de las lenguas originarias en su intento de normalizar el uso de estas lenguas [Jara Males, Gonzales Acer, 2015]. Como se menciona en [Forcada, 2016], el uso de tecnologías del lenguaje permite obtener una normalidad, incremento de literatura, estandarización y mayor visibilidad. En el caso de Perú, ha habido iniciativas, como analizadores morfológicos [Pereira-Noriega, et al., 2017] o correctores ortográficos [Alva, Oncevay, 2017], enfocados en las lenguas originarias de escasos recursos computacionales que pretenden apoyar el esfuerzo de revitalización, la educación indígena y la documentación de las lenguas [Zariquiey et al., 2019]. Enfocándose en lenguas amazónicas se realizó un proyecto utilizando redes neuronales para desarrollar un corrector ortográfico enfocado en las lenguas originarias con buenos resultados a nivel de precisión [Lara, 2020]. En ese trabajo, al disponer de poca cantidad de datos se generaron datos sintéticos con un método aleatorio los cuales al ser evaluados con las métricas CharacTER [Wang, et al., 2016] y BLEU [Papineni, et al., 2002] obtuvieron resultados bastante bajos. Además, las lenguas amazónicas al ser ricas a nivel morfológico y tener un vocabulario extenso es difícil representar palabras fuera del vocabulario, por lo que es recomendable usar sub-palabras como término medio [Wu, Zhao, 2018]. El presente proyecto desarrolla distintos métodos de generación de datos, diferentes al aleatorio, que son más robustos al considerar errores que son más cercanos a la realidad. A su vez, para reducir el costo computacional y mantener la capacidad de generar un vocabulario abierto, adicionalmente se entrena redes neuronales que reciban como entrada sub-palabras tales como sílabas y segmentos divididos por byte pair encoding (BPE). Finalmente, de los experimentos concluimos que hubo mejoras con los métodos y la segmentación propuesta y se tienen más recursos computacionales para nuestras lenguas amazónicas

    Análisis del tratamiento de la terminología en la traducción automática: implicaciones para la evaluación

    Get PDF
    This paper presents a methodology for the comparative analysis of human and machine translation at a lexical-terminological level. This proposal is applied to an English-Spanish parallel corpus of specialized texts in the medical domain. The main aim of the study is to explore systematic linguistic differences between machine and human translation in the light of the problem of automatic system evaluation. The specific objectives are: a) detect differences in the distribution of terminological units between human and machine translation, b) identify the conditions under which such differences occur considering original texts and strategies for human and machine translation. The study methodology involves, on the one hand, the use of stylometry techniques to characterize the language of machine translation versus human translation and, on the other hand, the classification of translation shifts performed by human translators and modifications made by machine translation systems to the original text. The research results indicate that the differences between machine translation and human translation related to optional translation shifts performed by translators and the differences related to the lack of obligatory changes in machine translation are not equally important to assess the quality of the latter.En este artículo se presenta una propuesta metodológica para el análisis comparativo de Traducciones Automáticas [TAs] y Traducciones Humanas [THs] a nivel léxico-terminológico. El objetivo general de la investigación es estudiar las diferencias lingüísticas sistemáticas entre la TA y la TH de cara a la problemática de la evaluación automática de sistemas de TA. Los objetivos específicos son: a) detectar las diferencias en la distribución de unidades terminológicas entre la TA y la TH; b) identificar las condiciones en las que se producen dichas diferencias teniendo en cuenta los Textos Originales [TOs] y las estrategias de traducción. La metodología del estudio incluye las fases siguientes: selección de dos sistemas de TA basados en estrategias diferentes, constitución de un corpus paralelo inglés-español de textos especializados del ámbito médico, análisis estilométrico de los Textos Traducidos [TTs] para caracterizar el lenguaje de la TA en oposición al de la TH y, finalmente, clasificación de las modificaciones que realizan con respecto al TO los sistemas de TA y los traductores humanos. Los resultados de la investigación indican que las diferencias relacionadas con las modificaciones opcionales realizadas por los traductores y las diferencias que se deben a la falta de modificaciones obligatorias en la TA no tienen la misma relevancia para evaluar la calidad de esta última.Este trabalho apresenta uma metodologia para a análise comparativa de traduções humanas e automáticas no plano léxico-terminológico. Esta proposta é aplicada a um corpus inglês-espanhol paralelo de textos especializados na área médica. O objetivo geral da pesquisa é estudar as diferenças sistemáticas lingüísticas entre tradução automática e tradução humana no contexto do problema de avaliação automática de sistemas. Os objetivos específicos são: a) detectar diferenças na distribuição das unidades terminológicas entre a tradução humana e traduções automáticas de sistemas baseados em estratégias diferentes; b) identificar as condições em que essas diferenças ocorrem considerando os textos originais e as estratégias de tradução humana e automática. A metodologia do estudo envolve, em primeiro lugar, a utilização de técnicas estilométricas para caracterizar a linguagem da tradução automática contra o da tradução humana e, por outro lado, a classificação das alterações em relação o texto original feitas por tradutores humanos e sistemas de tradução automática. Os resultados da pesquisa indicam que as diferenças entre tradução automática e tradução humana relacionadas com modificações opcionais feitas por tradutores e as diferenças que se devem à falta de mudanças obrigatórias na tradução automática não são igualmente importantes para avaliar a qualidade desta última
    corecore