Similar Language Translation

Abstract

Translating between pairs of similar languages is a particularly interesting topic in MT. It poses challenges, given that the amount of available parallel data is often very limited, but also opportunities, as systems can take advantage of the similarity between languages to produce more accurate output. We want to explore different statistical and neural-based techniques in this context.Similar Languages are an interesting line of research within Machine Translation since it settles the perfect scenario to exploit the commonalities that present these similar languages. This contrasts other Machine Translation tasks on languages that are more distant and can not exploit such similarities. In this project, we work with the similar languages pairs of Czech-Polish and Spanish-Portuguese. In this work, we are comparing two of the most popular approaches in automatic translation: statistical and neural-based systems. The latter is the current approach that is used by important companies like Google. During the project execution, we successfully participated in the 1st WMT Similar Language Translation Task with the submission of the TALP-UPC system using both statistical and neural systems, which was placed 1st for Czech-Polish and 2nd for Spanish-Portuguese in the official evaluation. To improve the results obtained, it is proposed and analyzed the use of a combination of both systems mentioned with back-translation as a metric measure. Obtaining in the Spanish-Portuguese case a result 6 BLEU points greater with statistic model than neural, while in Czech-Polish the neural outperforms by 2 BLEU points the statistical. Be- tween both systems, there is a difference of about 40 BLEU points in quality. With the obtained results it is concluded that both analyzed systems achieve very similar results which perfor- mances depend on the language pair analyzed. Also is inferred that our proposed system combination doesn?t contribute with any substan- tial improvement, actually sometimes it could worsen the obtained results. It is due to back- translation not being able to be considered a good metric to evaluate a translation system know- ing, among other reasons, the low correlation values between the quality of the obtained trans- lation and the quality of its back-translation.La traducción de lenguas similares es una sección en la traducción automática que siempre ha generado interés en investigación para buscar la forma de aprovechar la similitud que presentan estas lenguas delante otras más lejanas gramaticalmente. En este proyecto se trabaja con los pares de lenguajes similares Xeco-Polaco y Español-Portugues. En aquest treball comparem dos dels enfocaments més populars en traducció automàtica: els sistemes estadístic i neuronal. El segon és l?enfocament utilitzat actualment per grans compa- nyies com Google. En este trabajo comparamos dos de los enfoques mas populares en traducción automática: los sistemas estadístico y neuronal. El segundo es el enfoque usado actualmente por grandes com- pañias como Google. Durante la ejecución del proyecto también se participa en la 1a Tasca de Traducción de Lenguas Similares en WMT con la sumisión del sistema TALP-UPC usando ambos sistemas, tanto el es- tadístico como el neuronal, obteniendo un 1r puesto en Xeco-Polaco y un 2o puesto en Español- Portugues en la evaluación oficial. Para mejorar los resultados obtenidos, se propone y se analiza el uso de una combinación de los dos sistemas mencionados usando back-traducción como métrica de mesura. Obteniéndose en el caso Español-Portugues un resultado 6 puntos BLEU mayor con el modelo estadístico que con el neuronal, mientras en Xeco-Polaco el neuronal supera por 2 puntos BLEU el estadístico. Entre los dos sistemas se obtiene una diferencia de aproximadamente 40 puntos BLEU en calidad. Con los resultados obtenidos se concluye que los dos sistemas analizados obtienen un resultado muy similar siendo su desempeño dependiente en gran mesura de el par de lenguajes analizados. También se infiere que la utilización de la combinación de sistemas no aporta ninguna mejora substancial, de hecho puede llegar a empeorar, a los resultados obtenidos, debido a que no se puede considerar la back-traducción como una buena métrica para evaluar un sistema de traducción sabiendo, entre otras razones, la mala correlación entre la calidad de la traducción obtenida y la calidad de su back-traducción.La traducció de llengües similars és una secció en la traducció automàtica que sempre ha generat interès en recerca per tal de buscar la forma d?aprofitar la similitud que presenten aquestes llengües envers altres de més llunyanes gramaticalment. En aquest projecte es treballa amb els parells de llenguatges similars Xec-Polac i Espanyol-Portuguès. En aquest treball comparem dos dels enfocaments més populars en traducció automàtica: els sistemes estadístic i neuronal. El segon és l?enfocament utilitzat actualment per grans compa- nyies com Google. Durant l?execució del projecte també es participa en la 1a Tasca de Traducció de Llengües Simi- lars en WMT amb la submissió del sistema TALP-UPC utilitzant ambdós sistemes, tant estadístic com neuronal, obtenint un 1r lloc en Xec-Polac i un 2n lloc en Espanyol-Portuguès en la avalu- ació oficial. Per tal de millorar els resultats obtinguts, es proposa i s?analitza l?ús de la combinació dels dos sistemes mencionats utilitzant back-traducció com a mètrica de mesura. Obtenint-se en el cas Espanyol-Portuguès un resultat 6 punts BLEU major amb el model estadís- tic que amb el neuronal, mentre en Xec-Polac el neuronal supera per 2 punts BLEU l?estadístic. Entre els dos sistemes s?obté una diferència d?aproximadament 40 punts BLEU en qualitat. Amb els resultats obtinguts es conclueix que els dos sistemes analitzats obtenen resultats molt simi- lars sent el seu rendiment dependent en gran mesura del parell de llengües analitzades. També s?infereix que la utilització de la combinació de sistemes no aporta cap millora substan- cial, de fet pot arribar a empitjorar, als resultats obtinguts, degut a que no es pot considerar la back-traducció com a una bona mètrica per avaluar un sistema de traducció sabent, entre al- tres raons, la mala correlació entre la qualitat de la traducció obtinguda i la qualitat de la seva back-traducció

    Similar works