Search CORE

9 research outputs found

Explotación de wikipedia para el enriquecimiento de un traductor automático

Author: Boldoba Trapote Josu
Publication venue: Universitat Politècnica de Catalunya
Publication date: 22/06/2014
Field of study

Este trabajo aprovecha la naturaleza multilingüe de Wikipedia para construir sistemas de traducción especializados en diferentes áreas de conocimiento. En él se describen los procedimientos seguidos para extraer corpus paralelos de los artículos de Wikipedia y los mecanismos para su evaluación

UPCommons. Portal del coneixement obert de la UPC

Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

Author: Barrón-Cedeño Alberto
Boldoba Trapote Josu
España Bonet Cristina
Publication venue
Publication date: 01/01/2014
Field of study

Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos.Preprin

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Explotación de wikipedia para el enriquecimiento de un traductor automático

Author: Boldoba Trapote Josu
Publication venue: Universitat Politècnica de Catalunya
Publication date: 22/06/2014
Field of study

Explotación de wikipedia para el enriquecimiento de un traductor automático

Author: Boldoba Trapote Josu
Publication venue: Universitat Politècnica de Catalunya
Publication date
Field of study

RECERCAT

Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

Author: Barrón-Cedeño Alberto
Boldoba Trapote Josu
España Bonet Cristina
Publication venue
Publication date: 01/03/2014
Field of study

Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

Author: Barrón-Cedeño Alberto
Boldoba Trapote Josu
España Bonet Cristina
Publication venue
Publication date
Field of study

RECERCAT

A factory of comparable corpora from Wikipedia

Author: Barrón-Cedeño Alberto
Boldoba Trapote Josu
España Bonet Cristina
Márquez Villodre Luís
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date: 01/01/2015
Field of study

Multiple approaches to grab comparable data from the Web have been developed up to date. Nevertheless, coming out with a high-quality comparable corpus of a specific topic is not straightforward. We present a model for the automatic extraction of comparable texts in multiple languages and on specific topics from Wikipedia. In order to prove the value of the model, we automatically extract parallel sentences from the comparable collections and use them to train statistical machine translation engines for specific domains. Our experiments on the English–Spanish pair in the domains of Computer Science, Science, and Sports show that our in-domain translator performs significantly better than a generic one when translating in-domain Wikipedia articles. Moreover, we show that these corpora can help when translating out-of-domain textsPeer Reviewe

A factory of comparable corpora from Wikipedia

Author: Barrón-Cedeño Alberto
Boldoba Trapote Josu
España Bonet Cristina
Márquez Villodre Luís
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date
Field of study

RECERCAT

Midwives, infant and maternal health in Monmouthshire 1900-1938

Author: Barrón-Cedeño Alberto
Boldoba Trapote Josu
España Bonet Cristina
Márquez Villodre Luís
Publication venue
Publication date: 01/01/1999
Field of study

SIGLEAvailable from British Library Document Supply Centre-DSC:DXN035597 / BLDSC - British Library Document Supply CentreGBUnited Kingdo

Crossref

UPCommons. Portal del coneixement obert de la UPC

OpenGrey Repository