2 research outputs found
Does more data always yield better translations?
Nowadays, there are large amounts of data
available to train statistical machine translation
systems. However, it is not clear
whether all the training data actually help
or not. A system trained on a subset of such
huge bilingual corpora might outperform
the use of all the bilingual data. This paper
studies such issues by analysing two training
data selection techniques: one based
on approximating the probability of an indomain
corpus; and another based on infrequent
n-gram occurrence. Experimental
results not only report significant improvements
over random sentence selection but
also an improvement over a system trained
with the whole available data. Surprisingly,
the improvements are obtained with just a
small fraction of the data that accounts for
less than 0.5% of the sentences. Afterwards,
we show that a much larger room for
improvement exists, although this is done
under non-realistic conditions.The research leading to these results has received funding from the European Union Seventh Framework Programme (FP7/2007-2013) under
grant agreement nr. 287755. This work was also supported by the Spanish MEC/MICINN under the MIPRCV ”Consolider Ingenio 2010” program (CSD2007-00018), and iTrans2 (TIN2009-14511) project. Also supported by the Spanish MITyC under the erudito.com (TSI-020110-2009-439) project and Instituto Tecnológico de León, DGEST-PROMEP y CONACYT, México.Gascó Mora, G.; Rocha Sánchez, MA.; Sanchis Trilles, G.; Andrés Ferrer, J.; Casacuberta Nolla, F. (2012). Does more data always yield better translations?. Association for Computational Linguistics. 152-161. http://hdl.handle.net/10251/35214S15216
Building task-oriented machine translation systems
La principal meta de esta tesis es desarrollar sistemas de traduccion interactiva que presenten mayor
sinergia con sus usuarios potenciales. Por ello, el objetivo es hacer los sistemas estado del arte mas
ergonomicos, intuitivos y eficientes, con el fin de que el experto humano se sienta mas comodo al utilizarlos.
Con este fin se presentan diferentes t�ecnicas enfocadas a mejorar la adaptabilidad y el tiempo
de respuesta de los sistemas de traduccion automatica subyacentes, as�ÿ como tambien se presenta una
estrategia cuya finalidad es mejorar la interaccion hombre-m�aquina. Todo ello con el proposito ultimo
de rellenar el hueco existente entre el estado del arte en traduccion automatica y las herramientas que los
traductores humanos tienen a su disposici�on.
En lo que respecta al tiempo de respuesta de los sistemas de traducci�on autom�atica, en esta tesis se
presenta una t�ecnica de poda de los par�ametros de los modelos de traducci�on actuales, cuya intuici�on est�a
basada en el concepto de segmentaci�on biling¤ue, pero que termina por evolucionar hacia una estrategia de
re-estimaci�on de dichos par�ametros. Utilizando esta estrategia se obtienen resultados experimentales que
demuestran que es posible podar la tabla de segmentos hasta en un 97%, sin mermar por ello la calidad
de las traducciones obtenidas. Adem�as, estos resultados son coherentes en diferentes pares de lenguas,
lo cual evidencia que la t�ecnica que se presenta aqu�ÿ es efectiva en un entorno de traducci�on autom�atica
tradicional, y por lo tanto podr�ÿa ser utilizada directamente en un escenario de post-edici�on. Sin embargo,
los experimentos llevados a cabo en traducci�on interactiva son ligeramente menos convincentes, pues
implican la necesidad de llegar a un compromiso entre el tiempo de respuesta y la calidad de los sufijos
producidos.
Por otra parte, se presentan dos t�ecnicas de adaptaci�on, con el prop�osito de mejorar la adaptabilidad
de los sistemas de traducci�on autom�atica. La primeraSanchis Trilles, G. (2012). Building task-oriented machine translation systems [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/17174Palanci