Sociedad Española para el Procesamiento del Lenguaje Natural
Abstract
En esta comunicación se presenta un sistema de traducción estocástica basado en el
modelado mediante N-gramas de la probabilidad conjunta de textos bilingües. La unidad básica
del modelo es la tupla, par de cadenas de palabras del lenguaje fuente (a traducir) y el lenguaje
destino (traducción). La traducción se lleva a cabo mediante la maximización de una
combinación lineal de los logaritmos de la probabilidad asignada a la traducción por el modelo
de traducción y otras características, siguiendo la aproximación de entropía máxima. Las
prestaciones del sistema de traducción son evaluadas con una tarea de traducción del habla: la
traducción entre inglés y español (y viceversa) de transcripciones de intervenciones de los
miembros del Parlamento Europeo. Los resultados alcanzados se encuentran al nivel del estado
del arte.This communication introduces a stochastic machine translation system based on Ngram
modelling of the joint probability of bilingual texts. The basic unit of this model is called a
tuple and consists of a pair of both source (to be translated) language and target language
(translation) word-strings. Translation is driven by a log-linear combination of the N-gram
model probability and other features, according to the maximum entropy language modelling
approach. The translation performance is evaluated by means of a speech-to-speech translation
tasks: translation from Spanish to English (and viceversa) of European Parliament speeches.
The system reaches a state-of-art performance.Este trabajo ha sido financiado parcialmente por
la CICYT a través del proyecto TIC2002-04447-C02 (ALIADO) y la Unión Europea
mediante el proyecto FP6-506738 (TC-STAR)