Traduction assistée par ordinateur et corpus comparables : contributions à la traduction compositionnelle

Abstract

Financement : projet ANR Metricc (subvention ANR-08-CORD-013), ANRT (CIFRE n° 2010/270), société Lingua et MachinaOur work deals with the extraction of bilingual lexicons from comparable corpora with an application to specialized translation. We started by evaluating classical methods based on the distributional hypothesis (the more two terms appear in similar contexts, the more likely they are translations of each other) in a user-oriented fashion. This evaluation raised the fact that translators feel very uncomfortable with this kind of lexicon: they feel correct translations are uneasy to spot in the lists of candidate translations and would rather use a smaller lexicon but with higher precision rates. Based on this observation, we turned to another approach for term translation which has been recently and successfully experimented on comparable corpora and produce lexicons that meet the demands of the translators: compositional translation. In this framework, the translation of a term is composed of the translation of its parts. We concentrated on the translation of monolexical terms : the source term is decomposed into morphemes, morphemes are translated into the target language and recomposed as a target term. We investigated three lines of research: generation of fertile translations (cases in which the target term has more lexical words than the source term), independence to morphological structure and candidate translation ranking.Notre travail concerne l'extraction de lexiques bilingues à partir de corpus comparables, avec une application à la traduction spécialisée. Nous avons d'abord évalué les méthodes classiques d'acquisition de lexiques en corpus comparables (basées l'hypothèse distributionnelle : plus deux termes apparaissent dans des contextes similaires, plus il y a de chances qu'ils soient des traductions) d'un point de vue applicatif. L'évaluation a montré que les traducteurs sont mal à l'aise avec les lexiques extraits : la traduction correcte est trop souvent noyée dans une liste de traductions candidates et ils préfèreraient utiliser un lexique plus petit mais plus précis. Partant de ce constat, nous nous sommes orientés vers une autre approche qui a fait récemment ses preuves pour l'exploitation des corpus comparables et produit des lexiques plus adaptés aux besoins des traducteurs : la traduction compositionnelle (la traduction du terme source est fonction de la traduction de ses parties). Nous nous sommes concentrés sur la traduction d'unités monolexicales : le terme source est découpé en morphèmes, les morphèmes sont traduits puis recomposés en un terme cible. Dans ce cadre, nous avons poursuivi trois axes de recherche : la génération de traductions fertiles (cas où le terme cible contient plus de mots lexicaux que le terme source), l'indépendance aux structures morphologiques et l'ordonnancement des traductions candidates

Similar works

Full text

thumbnail-image
oai:HAL:tel-00905930v1Last time updated on 11/8/2016

This paper was published in Thèses en Ligne.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.