30 research outputs found
A Client mobile application for Chinese-Spanish statistical machine translation
This show and tell paper describes a client mobile application for Chinese-Spanish machine translation. The system combines a standard server-based statistical machine translation (SMT) system, which requires online operation, with different input modalities including text, optical character recognition (OCR) and automatic speech recognition (ASR). It also includes an index-based search engine for supporting off-line translation.Postprint (published version
Cross-language document retrieval by using non-linear semantic mapping
Se propone un procedimiento no-lineal de mapeado semántico para extraer información multilingüe. El método consiste en utilizar una técnica de reducción de espacio no-lineal para agrupar colecciones de documentos multilingües. En el método propuesto, se construyen para cada lengua agrupaciones independientes de la colección multilingüe y se usan las similitudes de las expresiones semánticas para extraer documentos multilingües. Se implementan dos variantes del método y se comparan con técnicas de extracción de información multilingüe. El método propuesto, para unas tareas especÃficas, mejora el convencional.A non-linear semantic mapping procedure is proposed for cross-language document retrieval. The method relays on a non-linear space reduction technique for constructing semantic embeddings of multilingual document collections. In the proposed method, an independent embedding is constructed for each language in the multilingual collection and the similarities among the resulting semantic representations are used for cross-language document retrieval. Two variants of the proposed method are implemented and compared with a state-of-the-art cross-language information retrieval technique. It is shown that, for some specific tasks, the proposed method outperforms the conventional one
Uso de mapas semánticos para la búsqueda crosslingue de oraciones paralelas
Este trabajo presenta el uso de una técnica de recuperación de infor-mación crossling¨ue basada en escalamiento multidimensional para la iden-tificación de oraciones paralelas entre lenguas diferentes. El método prop-uesto permite hacer una reducción no-lineal del espacio de representación de las oraciones que se puede aprovechar para identificar similitudes semánti-cas entre conjuntos de oraciones en distintas lenguas. La técnica se ilustra con una colección pentaling¨ue extrai´da de la Constitución Española, la cual está disponible en las cuatro lenguas oficiales del estado español e inglés. Presentamos una evaluación comparativa entre nuestro método y un sistema de búsqueda crossling¨ue basado en la traducción automática de las consultas. Los resultados muestran que nuestro sistema mejora consistentemente en las 20 direcciones experimentales de búsqueda crossling¨ue que permite nuestra colección de datosPostprint (published version
Using collocation segmentation to augment the phrase table
This paper describes the 2010 phrase-based statistical machine translation system developed at the TALP Research Center of the UPC1 in cooperation with BMIC2 and VMU3. In phrase-based SMT, the phrase table is the main tool in translation. It is created extracting phrases from an aligned parallel corpus and then computing translation model scores with them. Performing a collocation segmentation over the source and target corpus before the alignment causes that di erent and larger phrases are extracted from the same original documents. We performed this segmentation and used the union of this phrase set with the phrase set extracted from the nonsegmented corpus to compute the phrase table. We present the con gurations considered and also report results obtained with internal and o cial test sets.Postprint (published version
The TALP-UPC phrase-based translation system for EACL-WMT 2009
This study presents the TALP-UPC submission
to the EACL Fourth Worskhop on Statistical Machine Translation 2009 evaluation campaign. It outlines the architecture and configuration of the 2009 phrase-based statistical machine translation (SMT) system, putting emphasis on the major novelty of this year: combination of SMT systems implementing different word reordering algorithms. Traditionally, we have concentrated on the Spanish-to-English and English-to-Spanish News Commentary translation tasks.Postprint (published version
Modelo estocástico de traducción basado en N-gramas de tuplas bilingües y combinación log-lineal de caracterÃsticas
En esta comunicación se presenta un sistema de traducción estocástica basado en el
modelado mediante N-gramas de la probabilidad conjunta de textos bilingües. La unidad básica
del modelo es la tupla, par de cadenas de palabras del lenguaje fuente (a traducir) y el lenguaje
destino (traducción). La traducción se lleva a cabo mediante la maximización de una
combinación lineal de los logaritmos de la probabilidad asignada a la traducción por el modelo
de traducción y otras caracterÃsticas, siguiendo la aproximación de entropÃa máxima. Las
prestaciones del sistema de traducción son evaluadas con una tarea de traducción del habla: la
traducción entre inglés y español (y viceversa) de transcripciones de intervenciones de los
miembros del Parlamento Europeo. Los resultados alcanzados se encuentran al nivel del estado
del arte.This communication introduces a stochastic machine translation system based on Ngram
modelling of the joint probability of bilingual texts. The basic unit of this model is called a
tuple and consists of a pair of both source (to be translated) language and target language
(translation) word-strings. Translation is driven by a log-linear combination of the N-gram
model probability and other features, according to the maximum entropy language modelling
approach. The translation performance is evaluated by means of a speech-to-speech translation
tasks: translation from Spanish to English (and viceversa) of European Parliament speeches.
The system reaches a state-of-art performance.Este trabajo ha sido financiado parcialmente por
la CICYT a través del proyecto TIC2002-04447-C02 (ALIADO) y la Unión Europea
mediante el proyecto FP6-506738 (TC-STAR)
The TALP & I2R SMT Systems for IWSLT 2008
This paper gives a description of the statistical machine
translation (SMT) systems developed at the TALP Research
Center of the UPC (Universitat Polit`ecnica de Catalunya)
for our participation in the IWSLT’08 evaluation campaign.
We present Ngram-based (TALPtuples) and phrase-based
(TALPphrases) SMT systems. The paper explains the 2008
systems’ architecture and outlines translation schemes we
have used, mainly focusing on the new techniques that are
challenged to improve speech-to-speech translation quality.
The novelties we have introduced are: improved reordering
method, linear combination of translation and reordering
models and new technique dealing with punctuation marks
insertion for a phrase-based SMT system.
This year we focus on the Arabic-English, Chinese-Spanish and pivot Chinese-(English)-Spanish translation
tasks.Postprint (published version
CHISPA-MT: un consorcio para el desarrollo de sistemas de traducción automática entre las lenguas china y castellana
El presente proyecto de investigación pretende el estudio y desarrollo de tecnologÃas
para la traducción automática en sistemas de comunicación chino-castellano y castellano-chino.
El proyecto combina una lÃnea de investigación básica con una lÃnea de investigación aplicada
cuyo objetivo es la utilización de las tecnologÃas generadas en el desarrollo de herramientas
especÃficas para la comunicación bilingüe.The main goal of this research project is the study and development of machine
translation technologies for Chinese-to-Spanish and Spanish-to-Chinese communication systems.
The project combines a basic research activity along with an applied research work which
objective is the implementation of the developed machine translation technologies into specific
tools and systems for bilingual communications
Implementación de una segmentación estadÃstica complementaria para extraer unidades de traducción en un sistema de traducción estadÃstico basado en frases
Este artÃculo evalúa un nuevo método de segmentación en un sistema de traducción automática estadÃstico basado en frases. La técnica de segmentación se implementa tanto en la parte fuente como en la parte destino y se usa para extraer unidades de traducción. Los resultados mejoran el sistema de referencia en la tarea español-inglés del EuroParl.This report evaluates the impact of using a novel collocation segmentation method for phrase extraction in the standard phrase-based statistical machine translation approach. The collocation segmentation technique is implemented simultaneously in the source and target side. The resulting collocation segmentation is used to extract translation units. Experiments are reported in the Spanish-to-English EuroParl task and promising results are achieved in translation quality.This work has been partially funded by the Spanish Department of Education and Science through the Juan de la Cierva fellowship program. The authors also wants to thank the Barcelona Media Innovation Centre for its support and permission to publish this research
Evaluating indirect strategies for Chinese-Spanish statistical machine translation with English as pivot language
El chino y el castellano son los idiomas más hablados en el mundo como lenguas maternas. Sin embargo, no existe mucha actividad de investigación en traducción automática entre este par de lenguas. Este artÃculo se enfoca en la investigación del estado actual de la cuestión de la traducción automática estadÃstica entre chino-castellano, ya que hoy en dÃa constituye una de las aproximaciones más usadas dentro del área de la traducción automática. Con este propósito en mente, describimos los corpus paralelos disponibles como el BTEC (Basic Traveller Expressions Corpora), la Biblia y las Naciones Unidas (UN). Concretamente, experimentamos con diferentes estrategias de traducción automática estadÃstica directa e indirectas (denominadas pivotes). Entre las estrategias pivotes exploramos dos metodologÃas: la traducción de chino a pivote y de pivote a castellano; y el sistema entrenado con un pseudo-corpus chino-castellano, en el que el castellano se ha traducido previamente del pivote. Usamos el inglés como lengua pivote. Los resultados experimentales sugieren que el inglés podrÃa constituir una lengua óptima para la intermediación de la traducción entre chino y castellano. Asà pues, uno de los principales objetivos de este trabajo es motivar a la comunidad cientÃfica para investigar en este par de lenguas de alto impacto demográfico.Chinese and Spanish are the most spoken languages in the world. However, there is not much research done in machine translation for this language pair. This paper focuses on investigating the state-of-the-art of Chinese-Spanish Statistical Machine Translation, which nowadays is one of the more popular approaches in Machine Translation. For this purposes we report the details of the available parallel corpus which are the BTEC (Basic Traveller Expressions Corpora), Holy Bible and UN (United Nations). Additionally, we experiment with the biggest corpus (UN) to explore alternatives of SMT strategies which consist on using a pivot language. Two alternatives are shown for pivoting: translating from Chinese to Pivot and from Pivot to Spanish; and training on a Chinese-Spanish corpus, where the Spanish corpus has been previously translated from the Pivot language. We use English as Pivot language. Results show that English is quite a nice pivot language between Chinese and Spanish. One of the main objectives of this work is motivating and involving the research community to work in this important pair of languages given the demographic impact of these two languages.Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia e Innovación mediante un programa Juan de la Cierva y el proyecto BUCEADOR (TEC2009-14094-C04-01)