Learning Morphological Normalization for Translation from Morphologically Rich Languages


Learning Morphological Normalization for Translation from Morphologically Rich Languages When translating from a morphologically rich language into English, source side word forms encode grammatical information that can be considered as redundant with respect to English, leading to data sparsity issues. A well-known way to mitigate this problem is to remove irrelevant information from the source through normalization. This pre-processing is usually performed in a deterministic fashion, using hand-crafted rules. This normalization is, in essence, suboptimal and needs to be adapted for each new language pair. We introduce here a simple way to automatically search for an optimal normalization of the source morphology with respect to the target-side language and show that it can improve machine translation.Lorsqu'ils sont traduits depuis une langue à morphologie riche vers l'anglais, les mots-formes sources contiennent des marques d'informations grammaticales pouvant être jugées redondantes par rapport à l'anglais, causant une variabilité formelle qui nuit à l'estimation des modèles probabilistes. Un moyen bien documenté pour atténuer ce problème consiste à supprimer l'information non pertinente de la source en la normalisant. Ce pré-traitement est généralement effectué de manière déterministe, à l'aide de règles produites manuellement. Une telle normalisationest, par essence, sous-optimale et doit être adaptée pour chaque paire de langues. Nous présentons, dans cet article, une méthode simple pour rechercher automatiquement une normalisation optimale de la morphologie source par rapport à la langue cible et montrons que celle-ci peut améliorer la traduction automatique

    Similar works