1 research outputs found
Compilaci on de un corpus paralelo espa~nol{ingl es alineado a nivel de oraciones
Una de las l neas de investigaci on del Procesamiento de Lenguaje Natural
se enfoca en automatizar la alineaci on de textos paralelos. La utilidad
que presenta los textos paralelos alineados es que muestran de manera
explicita la relaci on que existe entre los elementos de un texto en un idioma
y los elementos del mismo texto traducido en otro idioma.
En este trabajo de tesis, se plantea un m etodo para la alineaci on de textos
paralelos a nivel de oraciones escritos en los idiomas espa~nol e ingl es, el
cu al utiliza informaci on l exica y estad stica bajo un enfoque de programaci on
din amica. El m etodo utiliza la informaci on l exica contenida en un diccionario
biling ue espa~nol{ingl es de prop osito general restringido (incompleto), as como,
la longitud de la oraci on medida en t erminos de palabras y en t erminos
de caracteres.
El m etodo propuesto se prob o en un corpus de textos literarios no balanceados
(textos en los que la frecuencia de aparici on de alineaciones m ultiples,
omisiones e inserciones es mayor), en el que report o una efectividad superior
al 90 %. Se compararon los resultados obtenidos por el m etodo propuesto contra
los obtenidos por el sistema Vanilla aligner (utiliza un enfoque estad stico)
utilizando el mismo corpus y se encontr o que el m etodo desarrollado es
superior, particularmente en los casos de alineaciones multiples, omisiones e
inserciones.
Por los resultados obtenidos se observa que el uso de la informaci on l exica
contenida en un diccionario biling ue de uso general e informaci on estad stica en el m etodo propuesto, hacen de este un m etodo robusto para realizar la
alineaci on a nivel de oraciones en textos que no presentan una traducci on
t ecnica con respecto a m etodos solamente estad sticos