9 research outputs found
Explotación de wikipedia para el enriquecimiento de un traductor automático
Este trabajo aprovecha la naturaleza multilingüe de Wikipedia para construir sistemas de traducción especializados en diferentes áreas de conocimiento. En él se describen los procedimientos seguidos para extraer corpus paralelos de los artÃculos de Wikipedia y los mecanismos para su evaluación
Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia
Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraÃdo los textos y demás datos necesarios para la caracterización de los artÃculos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos.Preprin
Explotación de wikipedia para el enriquecimiento de un traductor automático
Este trabajo aprovecha la naturaleza multilingüe de Wikipedia para construir sistemas de traducción especializados en diferentes áreas de conocimiento. En él se describen los procedimientos seguidos para extraer corpus paralelos de los artÃculos de Wikipedia y los mecanismos para su evaluación
Explotación de wikipedia para el enriquecimiento de un traductor automático
Este trabajo aprovecha la naturaleza multilingüe de Wikipedia para construir sistemas de traducción especializados en diferentes áreas de conocimiento. En él se describen los procedimientos seguidos para extraer corpus paralelos de los artÃculos de Wikipedia y los mecanismos para su evaluación
Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia
Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraÃdo los textos y demás datos necesarios para la caracterización de los artÃculos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos
Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia
Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraÃdo los textos y demás datos necesarios para la caracterización de los artÃculos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos
A factory of comparable corpora from Wikipedia
Multiple approaches to grab comparable data from the Web have been developed up to date. Nevertheless, coming out with a high-quality comparable corpus of a specific topic is not straightforward.
We present a model for the automatic extraction of comparable texts in multiple languages and on specific topics from Wikipedia. In order to prove the value of the model, we automatically extract parallel sentences from the comparable collections and use them to train statistical machine translation engines for specific domains. Our experiments on the English–Spanish pair in the domains of Computer Science, Science, and Sports show that our in-domain translator performs significantly better than a generic one when translating in-domain Wikipedia articles.
Moreover, we show that these corpora can help when translating out-of-domain textsPeer Reviewe
A factory of comparable corpora from Wikipedia
Multiple approaches to grab comparable data from the Web have been developed up to date. Nevertheless, coming out with a high-quality comparable corpus of a specific topic is not straightforward.
We present a model for the automatic extraction of comparable texts in multiple languages and on specific topics from Wikipedia. In order to prove the value of the model, we automatically extract parallel sentences from the comparable collections and use them to train statistical machine translation engines for specific domains. Our experiments on the English–Spanish pair in the domains of Computer Science, Science, and Sports show that our in-domain translator performs significantly better than a generic one when translating in-domain Wikipedia articles.
Moreover, we show that these corpora can help when translating out-of-domain textsPeer Reviewe
Midwives, infant and maternal health in Monmouthshire 1900-1938
SIGLEAvailable from British Library Document Supply Centre-DSC:DXN035597 / BLDSC - British Library Document Supply CentreGBUnited Kingdo