609 research outputs found

    Machine translation based on neural network language models

    Get PDF
    Este trabajo describe un sistema de traducción que integra n-gramas conexionistas en la etapa de decodificación, motivado por los buenos resultados obtenidos en los últimos años usando estos modelos de lenguaje. Hasta el momento todos los resultados publicados delegan el modelo de lenguaje conexionista a una segunda etapa desacoplada en la que se repuntúan listas de N-best o bien se utilizan sobre grafos de palabras que contienen las N-best. Nuestro objetivo es mostrar la viabilidad de utilizar estos modelos de lenguaje dentro de un sistema totalmente acoplado.This paper describes a Machine Translation system that integrates a Neural Network Language Model in the decoding process. This work is motivated by the excellent performance of these connectionist language models. So far, the use of Neural Network Language Models in the translation systems is uncoupled: they are used in a second stage to rerank a N-best hypothesis list or to parse a word graph containing the N-best list. Our goal is to show the feasibility of using these language models within a fully integrated system

    Hibridación en lenguas distantes

    Full text link
    [ES] Aplicación de reglas a sistemas de traducción automáticos estadísticos en lenguas gramaticalmente muy distintas[EN] Application of rules to statistical machine translation systems in grammatically very different languagesHelle Salcedo, AJ. (2013). Hibridación en lenguas distantes. http://hdl.handle.net/10251/37112Archivo delegad

    Generación de corpus paralelos para la implementación de un traductor automático estadístico entre shipibo-konibo y español

    Get PDF
    Actualmente, existe información que debe estar disponible para todos los habitantes de nuestro país, tales como textos educativos, leyes y noticias. Sin embargo, a pesar que el Perú es un país multilingüe, la mayoría de textos se encuentran redactados únicamente en español. Una de las razones por las que no se traducen estos textos a otras lenguas habladas en nuestro país es porque el proceso es costoso y requiere de mucho tiempo. Por este motivo se propone desarrollar un traductor automático basado en colecciones de textos, también llamados corpus, que utilice métodos estadísticos y pueda servir de apoyo una plataforma de software de traducción automática de texto entre el español y el shipibo-konibo. Para implementar un método estadístico, es necesario contar con corpus paralelos en los idiomas a traducir. Esto representa un problema, pues existen muy pocos textos escritos en shipibokonibo, y la mayoría de estos no cuenta con una traducción al español. Por este motivo es necesario construir corpus paralelos en base a dos procesos: la traducción de textos del shipibo-konibo al español (y viceversa) y la alineación semi-automática de los textos bilingües disponibles. Con los corpus paralelos obtenidos, se puede entrenar y validar un traductor automático, a fin de encontrar los parámetros que generan las mejores traducciones. Además, en base a los resultados obtenidos, se determinará la etapa en la que el traductor estadístico se integrará a la plataforma de software de traducción automática que será implementada por investigadores del Grupo de Reconocimiento de Patrones e Inteligencia Artificial Aplicada (GRPIAA) y el departamento de lingüística de la PUCP.Tesi

    Los tipos de traducción automática y su evaluación mediante perífrasis verbales y expresiones idiomáticas (alemán-español)

    Get PDF
    El present treball de fi de màster té com a objectiu avaluar la traducció automàtica entre el parell de llengües alemany-castellà. Atès que s'hi poder avaluar moltes qüestions idiomàtiques, en aquest treball es duu a terme l'avaluació mitjançant perífrasis verbals i expressions idiomàtiques. S'hi ofereix un marc teòric sobre la traducció automàtica, els tipus de traducció automàtica i els motors escollits per dur a terme l'avaluació. Així mateix, s'hi expliquen amb detall cadascunes de les perífrasis verbals i les diferències que presenten en relació amb la llengua alemanya i les expressions idiomàtiques amb les que es treballa. Una vegada obtinguts tots els resultats dels motors, amb la mètrica BLEU es determina quin motor proporciona millors resultats. Finalment, amb l'anàlisi de les dades, s'arriba a unes determinades conclusions incloent-hi la confirmació / refutació de les hipòtesis de partida.El presente trabajo final de máster tiene como objetivo evaluar la traducción automática entre el par de lenguas alemán-español. Dado que pueden evaluarse muchas cuestiones idiomáticas, en este trabajo se lleva a cabo la evaluación mediante perífrasis verbales y expresiones idiomáticas. A lo largo del trabajo se ofrece un marco teórico relacionado con la traducción automática, los tipos de traducción automática y los motores seleccionados para llevar a cabo la evaluación. Asimismo, se explican con detalle cada una de las perífrasis verbales y sus diferencias en relación con la lengua alemana, así como las expresiones idiomáticas con las que se trabaja. Una vez obtenidos los resultados de los motores, con la métrica BLEU se determina qué motor proporciona mejores resultados. Finalmente, con el análisis de los datos, se obtiene una serie de conclusiones que incluyen la confirmación / refutación de las hipótesis de partida.The aim of this Master's Degree Dissertation is to evaluate the results of the different translation engines in order to determine which of them offers the best results in relation to verbal periphrases and idiomatic expressions between German and Spanish. A theoretical explanation about machine translation and an account of the existing machine translation systems are provided. Verbal periphrases and their differences in relation to the German language are also explained in detail, and the same procedure is applied to the idiomatic expressions used in the work. Once the results of the engines are obtained, the BLEU automatic quality metric is implemented to determines which engine provide the best results. Finally, with the analysis of the data, a series of conclusions are obtained that include the confirmation / refutation of the starting hypotheses

    Incorporación de información sintáctico-semántica en la traducción de voz a lengua de signos

    Get PDF
    Este artículo presenta un conjunto de experimentos para evaluar la mejora obtenida cuando se incorpora información sintáctico-semántica en la traducción estadística de voz a lengua de signos. La traducción se realiza utilizando dos alternativas tecnológicas: la primera basada en modelos de subsecuencias de palabras y la segunda basada en traductores de estados finitos (“FST”). En cuanto a la evaluación de dichos resultados, se utilizan varias métricas, como WER (tasa de error de palabras), BLEU y NIST. Las pruebas realizadas incluyen experimentos con las frases de referencia en castellano y Lengua de Signos y con frases obtenidas del reconocedor de voz. Para evaluar la mejora obtenida se muestran los resultados con y sin información sintáctico-semántica. Los mejores resultados se obtuvieron con la solución de traductores de estados finitos con unas tasas de error de 26,06% para las frases de referencia y de 33,01% para las salidas del reconocedor cuando se incorpora información sintáctico-semántica

    Implementación de un sistema de traducción automática basado en modelos estadísticos para la traducción de la lengua de señas colombiana al español

    Get PDF
    Los humanos, en condición de seres sociales, necesitan comunicarse. La comunicación es el intercambio de ideas mediante un código de conocimiento mutuo. No siempre la comunicación se da de forma exitosa, existen condiciones que limitan el proceso comunicativo tales como: la codificación del mensaje (idiomas o lenguas) o las habilidades limitadas de transmisión o emisión, como es el caso de las discapacidades sensoriales. Las discapacidades sensoriales son la ceguera, sordera y dificultad del habla. La disminución gradual o total de la capacidad auditiva es uno de los factores que influye en el aprendizaje de la lengua, lo que conlleva a buscar formas alternativas de comunicación como lo es la lengua de señas. Para el caso de los sordos colombianos, la Lengua de Señas Colombiana (LSC) es una lengua transmitida por medio del movimiento de las extremidades superiores y representada de forma escrita por glosas. La LSC es un código de comunicación para la población no oyente, pero actualmente, existen dificultades para entablar una comunicación efectiva con las personas oyentes, debido a que un alto porcentaje de la población colombiana no conoce o no sabe la LSC. Dicha problemática trasciende en temas como lo es el acceso a la educación, ya que en los centros educativos no se cuenta con suficientes intérpretes que abarquen todos los puntos y aulas de la instalación

    Evaluación comparativa de modelos de traducción estadística y neuronal

    Get PDF
    En este trabajo evaluaremos la implementación de un sistema de traducción automática en un una empresa privada con necesidades particulares: el Correo Suizo, cuyo departamento de servicios lingüísticos está interesado en agregar traducción automática a su flujo de trabajo para diferentes tareas, y así eventualmente reducir costos y acelerar tiempos de publicación. Se analizaron distintas opciones como el desarrollo in-house o la contratación de un proveedor del servicio y se realizaron distintas evaluaciones para determinar cuál sería la solución más apropiada para este cliente

    Traducción automática para las lenguas románicas de la península ibérica

    Get PDF
    En este estudio presentamos una comparación de tres estrategias de traducción automática aplicadas a diversas lenguas románicas de la península ibérica: español, portugués, gallego, catalán, aranés, aragonés y asturiano. En nuestro estudio analizaremos sistemas con el español como lengua de partida. El objetivo del trabajo es evaluar los sistemas de transferencia sintáctica superficial para estos pares de lenguas y determinar si se dispone de corpus paralelos libres de tamaño y calidad suficientes para entrenar sistemas de traducción automática estadísticos y neuronales que puedan ofrecer una calidad similar o superior. Las preguntas de investigación de este trabajo son: ¿Qué calidad ofrece el sistema de traducción Apertium para los pares de lenguas analizados? ¿Cuántos corpus están disponibles libremente para el entrenamiento de sistemas estadísticos y neuronales? ¿Qué calidad se obtiene con los sistemas estadísticos y neuronales entrenados con los corpus disponibles y con los corpus sintéticos

    El par alemán-español en la plataforma de traducción automática Apertium. Análisis de dificultades

    Get PDF
    Apertium es una plataforma de traducción automática de código abierto para la que a día de hoy no se ha implementado el par de lenguas español–alemán. El presente Trabajo de Fin de Grado tiene por objetivo elaborar una relación de aquellas diferencias lingüísticas entre ambos idiomas que supongan un problema a la hora de realizar una traducción automática del alemán al español. Para ello, se llevan a cabo dos traducciones de un texto original alemán: una traducción palabra por palabra realizada mediante un sistema automático (modelo cero) y otra realizada por un traductor. Mediante la comparación de ambas traducciones se identificarán en el texto original aquellos elementos o factores lingüísticos que causen los errores de traducción que genera el modelo cero. A continuación se realizará un análisis cuantitativo de los mismos, con el que se pretende establecer una prioridad con respecto a qué problemas convendría abordar primero si se quiere introducir el par de lenguas en Apertium. Además, se ofrecerá una propuesta de solución para cada uno de los problemas
    corecore