4 research outputs found

    Une alternative aux modèles de traduction statistique d'IBM : Les triggers inter-langues

    Get PDF
    National audienceDans cet article, nous présentons une nouvelle approche pour la traduction automatique fondée sur les triggers inter-langues. Dans un premier temps, nous expliquons le concept de triggers inter-langues ainsi que la façon dont ils sont déterminés. Nous présentons ensuite les différentes expérimentations qui ont été menées à partir de ces triggers afin de les intégrer au mieux dans un processus complet de traduction automatique. Pour cela, nous construisons à partir des triggers inter-langues des tables de traduction suivant différentes méthodes. Nous comparons par la suite notre système de traduction fondé sur les triggers inter-langues à un système état de l'art reposant sur le modèle 3 d'IBM (Brown93). Les tests menés ont montré que les traductions automatiques générées par notre système améliorent le score BLEU (Papineni01) de 2,4% comparé à celles produites par le système état de l'art

    Amélioration des systèmes de traduction par analyse linguistique et thématique (Application à la traduction depuis l'arabe)

    Get PDF
    La traduction automatique des documents est considérée comme l une des tâches les plus difficiles en traitement automatique des langues et de la parole. Les particularités linguistiques de certaines langues, comme la langue arabe, rendent la tâche de traduction automatique plus difficile. Notre objectif dans cette thèse est d'améliorer les systèmes de traduction de l'arabe vers le français et vers l'anglais. Nous proposons donc une étude détaillée sur ces systèmes. Les principales recherches portent à la fois sur la construction de corpus parallèles, le prétraitement de l'arabe et sur l'adaptation des modèles de traduction et de langue.Tout d'abord, un corpus comparable journalistique a été exploré pour en extraire automatiquement un corpus parallèle. Ensuite, différentes approches d adaptation du modèle de traduction sont exploitées, soit en utilisant le corpus parallèle extrait automatiquement soit en utilisant un corpus parallèle construit automatiquement.Nous démontrons que l'adaptation des données du système de traduction permet d'améliorer la traduction. Un texte en arabe doit être prétraité avant de le traduire et ceci à cause du caractère agglutinatif de la langue arabe. Nous présentons notre outil de segmentation de l'arabe, SAPA (Segmentor and Part-of-speech tagger for Arabic), indépendant de toute ressource externe et permettant de réduire les temps de calcul. Cet outil permet de prédire simultanément l étiquette morpho-syntaxique ainsi que les proclitiques (conjonctions, prépositions, etc.) pour chaque mot, ensuite de séparer les proclitiques du lemme (ou mot de base). Nous décrivons également dans cette thèse notre outil de détection des entités nommées, NERAr (Named Entity Recognition for Arabic), et nous examions l'impact de l'intégration de la détection des entités nommées dans la tâche de prétraitement et la pré-traduction de ces entités nommées en utilisant des dictionnaires bilingues. Nous présentons par la suite plusieurs méthodes pour l'adaptation thématique des modèles de traduction et de langue expérimentées sur une application réelle contenant un corpus constitué d un ensemble de phrases multicatégoriques.Ces expériences ouvrent des perspectives importantes de recherche comme par exemple la combinaison de plusieurs systèmes lors de la traduction pour l'adaptation thématique. Il serait également intéressant d'effectuer une adaptation temporelle des modèles de traduction et de langue. Finalement, les systèmes de traduction améliorés arabe-français et arabe-anglais sont intégrés dans une plateforme d'analyse multimédia et montrent une amélioration des performances par rapport aux systèmes de traduction de base.Machine Translation is one of the most difficult tasks in natural language and speech processing. The linguistic peculiarities of some languages makes the machine translation task more difficult. In this thesis, we present a detailed study of machine translation systems from arabic to french and to english.Our principle researches carry on building parallel corpora, arabic preprocessing and adapting translation and language models. We propose a method for automatic extraction of parallel news corpora from a comparable corpora. Two approaches for translation model adaptation are explored using whether parallel corpora extracted automatically or parallel corpora constructed automatically. We demonstrate that adapting data used to build machine translation system improves translation.Arabic texts have to be preprocessed before machine translation and this because of the agglutinative character of arabic language. A prepocessing tool for arabic, SAPA (Segmentor and Part-of-speech tagger for Arabic), much faster than the state of the art tools and totally independant of any other external resource was developed. This tool predicts simultaneously morphosyntactic tags and proclitics (conjunctions, prepositions, etc.) for every word, then splits off words into lemma and proclitics.We describe also in this thesis, our named entity recognition tool for arabic, NERAr, and we focus on the impact of integrating named entity recognition in the preprocessing task. We used bilingual dictionaries to propose translations of the detected named entities. We present then many approaches to adapt thematically translation and language models using a corpora consists of a set of multicategoric sentences.These experiments open important research perspectives such as combining many systems when translating. It would be interesting also to focus on a temporal adaptation of translation and language models.Finally, improved machine translation systems from arabic to french and english are integrated in a multimedia platform analysis and shows improvements compared to basic machine translation systems.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Les Triggers Inter-langues pour la Traduction Automatique Statistique

    No full text
    During my Ph.D. study, I conducted research in Machine Translation (MT), i.e. finding a possible target translation of a source sentence without any human interference. My works focused on statistical approach of MT which consists in using different probabilistic models trained on large amount of parallel corpora to retrieve the most likelihood translation given a source sentence. My thesis addresses two issues related to Statistical Machine Translation (SMT) : the collect of aligned parallel corpora and the estimation of translation models given these corpora. An SMT system extracts the knowledge necessary to perform automatic translation from parallel corpora where each source sentence is aligned with its translation in a target language. Most researches dealing with SMT use as parallel corpora the proceedings of the European Parliament available in many languages. Such corpora are not convenient for spontaneous speech translation. That's why I decided to use movie subtitles in order to achieve a more realistic machine translation system. Movie subtitles are considered as difficult data and cannot be used as parallel corpora for SMT without processing. I proposed an original algorithm based on Dynamic Time Wrapping to automatically align movie subtitles. Thus, I obtained parallel corpora that constitute a rich resource to train SMT system. In SMT, different statistical models are trained on parallel corpora such as alignment model, translation table, or distortion model. The translation table is the major model needed by an SMT system to perform the process. It gives the translation probability between target and source words. Existing methods usually estimate these tables based on word alignment which is obtained through complex and thus time consuming algorithms. My principal purpose was to rethink the problem and to prospect new options for generating the translation tables, at word and phrase level, which are totally different from state-of-the-art solutions. I proposed an original approach based on inter-lingual triggers, which does not require any alignment at word level. Inter-lingual triggers allow revealing highly correlated source and target word sequences by computing Mutual Information (MI) between them. The idea behind this concept is that if a source sequence is strongly correlated with a target one in terms of MI then we suppose that the occurrence of the first triggers the occurrence of the last and vice versa. I proposed to use inter-lingual triggers on parallel corpora in order to retrieve probable translations of word sequences and thus constitute a translation table. MI is a co-occurrence measure easily computable in one pass on parallel corpora. For selecting inter-lingual triggers, we assume that two sequences co-occur if they appear in at least one pair of sentences of the parallel corpora. Thus, the method that I proposed does not require alignment at word level but only at sentence level. The use of inter-lingual triggers makes my approach to estimate translation tables less complex but as efficient as existing approaches. At word level, the translation table obtained with interlingual triggers conducted to automatic translations with better quality, in terms of BLEU score, than those produced with a word translation table estimated by the well-know IBM model 3. At phrase level, the translation table based on inter-lingual triggers leads to automatic translations with a BLEU score greater than 34 and very close to those obtained by a phrase translation table estimated with a state-of-the-art method which requires word alignment on the parallel corpora. Keywords: Statistical Machine Translation, Inter-lingual Triggers, phrase-based Machine TranslationLes recherches menées dans le cadre de mon doctorat concernent le domaine de la Traduction Automatique (TA), ou comment traduire d'une langue source vers une langue cible sans aucune intervention humaine. Mes travaux se sont plus particulièrement concentrés sur l'approche statistique de la TA qui consiste à utiliser différents modèles probabilistes appris sur des quantités importantes de corpus parallèles alignés afin de trouver la traduction la plus vraisemblable d'une phrase source. Deux problèmes étroitement liés à l'approche statistique de la TA sont abordés dans ce manuscrit : la collecte de corpus parallèles et l'estimation de modèles de traduction à partir de ces corpus. Un système de TA statistique extrait la connaissance dont il a besoin pour produire des traductions à partir de corpus parallèles dans lesquels chaque phrase source est associée à sa traduction dans la langue cible. De nombreux travaux utilisent comme corpus parallèle les actes du Parlement Européen disponibles gratuitement en différentes langues. De tels corpus ne sont pas adéquats pour la traduction de parole spontanée, c'est pourquoi j'ai décidé de construire des corpus parallèles à partir de sous-titres de films afin de construire un système de traduction plus réaliste. Les sous-titres sont des données complexes, ils ne peuvent constituer un corpus parallèle aligné dans leur état brut. Ils nécessitent une phase de pré-traitement et d'alignement. J'ai pour cela proposé une méthode originale basée sur la Programmation Dynamique qui aligne automatiquement les sous-titres. J'ai ainsi constitué une ressource importante et riche pour l'apprentissage des systèmes de TA statistique. La TA statistique repose sur l'utilisation de plusieurs modèles statistiques comme le modèle d'alignement, la table de traduction ou encore le modèle de distortion. La table de traduction est le modèle le plus indispensable à un système de TA statisque pour calculer la traduction la plus vraisemblable d'une phrase source. En effet, celle-ci donne les probabilités de traduction entre les couples de mots sources et cibles. Il existe différentes méthodes permettant l'estimation de ces tables de traduction. Elles ont habituellement recours à un alignement des mots obtenu automatiquement sur les corpus parallèles. Cette tâche d'alignement est une étape longue et fastidieuse qui fait appel à des algorithmes complexes. Le coeur de mon travail a été de repenser le problème et d'explorer de nouvelles pistes pour estimer les tables de traduction de mots et de séquences de mots, totalement différentes des méthodes état-de-l'art. J'ai proposé une approche originale basée sur le concept de triggers inter-langues qui ne nécessite aucun alignement des mots au sein des corpus parallèles. Les triggers inter-langues permettent de mettre en évidence des unités fortement corrélés en se basant sur l'Information Mutuelle. Dans notre cas les unités sont des séquences de mots sources et cibles. L'idée derrière ce concept est que si une séquence de mots sources est fortement corrélée à une séquence de mots cibles en termes d'IM, alors nous pouvons supposer que la présence de la première dans une phrase source déclenchera la présence de la seconde dans sa traduction et vice versa. J'ai proposé d'utiliser les triggers inter-langues sur les corpus parallèles dans le but de trouver les traductions possibles de séquences de mots et ainsi constituer une table de traduction. L'Information Mutuelle est une mesure de co-occurence qui se calcule simplement en un seul passage sur le corpus parallèle. Pour sélectionner les triggers interlangues, nous supposons que deux séquences sources et cibles co-occurent si elles apparaissent dans une même paire de phrases du corpus parallèle. De ce fait, ma méthode ne requiert qu'un alignement au niveau des phrases et non au niveau des mots au sein du corpus parallèle. L'utilisation des triggers inter-langues pour estimer une table de traduction rend mon approche moins complexe mais tout aussi efficace que les approches existantes. Dans un contexte de traduction mot-à-mot, la table de traduction obtenue grâce aux triggers inter-langues conduit à des traductions automatiques de meilleur qualité, en termes de score BLEU, que celles produites avec une table de traduction de mots estimée selon le modèle 3 d'IBM. Dans un contexte de traduction par groupe de mots, la table de traduction basée sur les triggers inter-langues amènent à des traductions automatiques dont le score BLEU est supérieur à 34 et proche de celui des traductions automatiques produites par une table de traduction de séquences estimées à partir de l'alignement des mots suivant les approches état-de-l'art. Mots-clés: Traduction Automatique Statistique, Triggers Inter-langues, Traduction Automatique à base de séquence

    Les Triggers Inter-langues pour la Traduction Automatique Statistique

    No full text
    During my Ph.D. study, I conducted research in Machine Translation (MT), i.e. finding a possible target translation of a source sentence without any human interference. My works focused on statistical approach of MT which consists in using different probabilistic models trained on large amount of parallel corpora to retrieve the most likelihood translation given a source sentence. My thesis addresses two issues related to Statistical Machine Translation (SMT) : the collect of aligned parallel corpora and the estimation of translation models given these corpora. An SMT system extracts the knowledge necessary to perform automatic translation from parallel corpora where each source sentence is aligned with its translation in a target language. Most researches dealing with SMT use as parallel corpora the proceedings of the European Parliament available in many languages. Such corpora are not convenient for spontaneous speech translation. That's why I decided to use movie subtitles in order to achieve a more realistic machine translation system. Movie subtitles are considered as difficult data and cannot be used as parallel corpora for SMT without processing. I proposed an original algorithm based on Dynamic Time Wrapping to automatically align movie subtitles. Thus, I obtained parallel corpora that constitute a rich resource to train SMT system. In SMT, different statistical models are trained on parallel corpora such as alignment model, translation table, or distortion model. The translation table is the major model needed by an SMT system to perform the process. It gives the translation probability between target and source words. Existing methods usually estimate these tables based on word alignment which is obtained through complex and thus time consuming algorithms. My principal purpose was to rethink the problem and to prospect new options for generating the translation tables, at word and phrase level, which are totally different from state-of-the-art solutions. I proposed an original approach based on inter-lingual triggers, which does not require any alignment at word level. Inter-lingual triggers allow revealing highly correlated source and target word sequences by computing Mutual Information (MI) between them. The idea behind this concept is that if a source sequence is strongly correlated with a target one in terms of MI then we suppose that the occurrence of the first triggers the occurrence of the last and vice versa. I proposed to use inter-lingual triggers on parallel corpora in order to retrieve probable translations of word sequences and thus constitute a translation table. MI is a co-occurrence measure easily computable in one pass on parallel corpora. For selecting inter-lingual triggers, we assume that two sequences co-occur if they appear in at least one pair of sentences of the parallel corpora. Thus, the method that I proposed does not require alignment at word level but only at sentence level. The use of inter-lingual triggers makes my approach to estimate translation tables less complex but as efficient as existing approaches. At word level, the translation table obtained with interlingual triggers conducted to automatic translations with better quality, in terms of BLEU score, than those produced with a word translation table estimated by the well-know IBM model 3. At phrase level, the translation table based on inter-lingual triggers leads to automatic translations with a BLEU score greater than 34 and very close to those obtained by a phrase translation table estimated with a state-of-the-art method which requires word alignment on the parallel corpora. Keywords: Statistical Machine Translation, Inter-lingual Triggers, phrase-based Machine TranslationLes recherches menées dans le cadre de mon doctorat concernent le domaine de la Traduction Automatique (TA), ou comment traduire d'une langue source vers une langue cible sans aucune intervention humaine. Mes travaux se sont plus particulièrement concentrés sur l'approche statistique de la TA qui consiste à utiliser différents modèles probabilistes appris sur des quantités importantes de corpus parallèles alignés afin de trouver la traduction la plus vraisemblable d'une phrase source. Deux problèmes étroitement liés à l'approche statistique de la TA sont abordés dans ce manuscrit : la collecte de corpus parallèles et l'estimation de modèles de traduction à partir de ces corpus. Un système de TA statistique extrait la connaissance dont il a besoin pour produire des traductions à partir de corpus parallèles dans lesquels chaque phrase source est associée à sa traduction dans la langue cible. De nombreux travaux utilisent comme corpus parallèle les actes du Parlement Européen disponibles gratuitement en différentes langues. De tels corpus ne sont pas adéquats pour la traduction de parole spontanée, c'est pourquoi j'ai décidé de construire des corpus parallèles à partir de sous-titres de films afin de construire un système de traduction plus réaliste. Les sous-titres sont des données complexes, ils ne peuvent constituer un corpus parallèle aligné dans leur état brut. Ils nécessitent une phase de pré-traitement et d'alignement. J'ai pour cela proposé une méthode originale basée sur la Programmation Dynamique qui aligne automatiquement les sous-titres. J'ai ainsi constitué une ressource importante et riche pour l'apprentissage des systèmes de TA statistique. La TA statistique repose sur l'utilisation de plusieurs modèles statistiques comme le modèle d'alignement, la table de traduction ou encore le modèle de distortion. La table de traduction est le modèle le plus indispensable à un système de TA statisque pour calculer la traduction la plus vraisemblable d'une phrase source. En effet, celle-ci donne les probabilités de traduction entre les couples de mots sources et cibles. Il existe différentes méthodes permettant l'estimation de ces tables de traduction. Elles ont habituellement recours à un alignement des mots obtenu automatiquement sur les corpus parallèles. Cette tâche d'alignement est une étape longue et fastidieuse qui fait appel à des algorithmes complexes. Le coeur de mon travail a été de repenser le problème et d'explorer de nouvelles pistes pour estimer les tables de traduction de mots et de séquences de mots, totalement différentes des méthodes état-de-l'art. J'ai proposé une approche originale basée sur le concept de triggers inter-langues qui ne nécessite aucun alignement des mots au sein des corpus parallèles. Les triggers inter-langues permettent de mettre en évidence des unités fortement corrélés en se basant sur l'Information Mutuelle. Dans notre cas les unités sont des séquences de mots sources et cibles. L'idée derrière ce concept est que si une séquence de mots sources est fortement corrélée à une séquence de mots cibles en termes d'IM, alors nous pouvons supposer que la présence de la première dans une phrase source déclenchera la présence de la seconde dans sa traduction et vice versa. J'ai proposé d'utiliser les triggers inter-langues sur les corpus parallèles dans le but de trouver les traductions possibles de séquences de mots et ainsi constituer une table de traduction. L'Information Mutuelle est une mesure de co-occurence qui se calcule simplement en un seul passage sur le corpus parallèle. Pour sélectionner les triggers interlangues, nous supposons que deux séquences sources et cibles co-occurent si elles apparaissent dans une même paire de phrases du corpus parallèle. De ce fait, ma méthode ne requiert qu'un alignement au niveau des phrases et non au niveau des mots au sein du corpus parallèle. L'utilisation des triggers inter-langues pour estimer une table de traduction rend mon approche moins complexe mais tout aussi efficace que les approches existantes. Dans un contexte de traduction mot-à-mot, la table de traduction obtenue grâce aux triggers inter-langues conduit à des traductions automatiques de meilleur qualité, en termes de score BLEU, que celles produites avec une table de traduction de mots estimée selon le modèle 3 d'IBM. Dans un contexte de traduction par groupe de mots, la table de traduction basée sur les triggers inter-langues amènent à des traductions automatiques dont le score BLEU est supérieur à 34 et proche de celui des traductions automatiques produites par une table de traduction de séquences estimées à partir de l'alignement des mots suivant les approches état-de-l'art. Mots-clés: Traduction Automatique Statistique, Triggers Inter-langues, Traduction Automatique à base de séquence
    corecore