9 research outputs found

    Explotación de wikipedia para el enriquecimiento de un traductor automático

    Get PDF
    Este trabajo aprovecha la naturaleza multilingüe de Wikipedia para construir sistemas de traducción especializados en diferentes áreas de conocimiento. En él se describen los procedimientos seguidos para extraer corpus paralelos de los artículos de Wikipedia y los mecanismos para su evaluación

    Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

    Get PDF
    Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos.Preprin

    Explotación de wikipedia para el enriquecimiento de un traductor automático

    No full text
    Este trabajo aprovecha la naturaleza multilingüe de Wikipedia para construir sistemas de traducción especializados en diferentes áreas de conocimiento. En él se describen los procedimientos seguidos para extraer corpus paralelos de los artículos de Wikipedia y los mecanismos para su evaluación

    Explotación de wikipedia para el enriquecimiento de un traductor automático

    No full text
    Este trabajo aprovecha la naturaleza multilingüe de Wikipedia para construir sistemas de traducción especializados en diferentes áreas de conocimiento. En él se describen los procedimientos seguidos para extraer corpus paralelos de los artículos de Wikipedia y los mecanismos para su evaluación

    Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

    No full text
    Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos

    Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

    No full text
    Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos

    A factory of comparable corpora from Wikipedia

    No full text
    Multiple approaches to grab comparable data from the Web have been developed up to date. Nevertheless, coming out with a high-quality comparable corpus of a specific topic is not straightforward. We present a model for the automatic extraction of comparable texts in multiple languages and on specific topics from Wikipedia. In order to prove the value of the model, we automatically extract parallel sentences from the comparable collections and use them to train statistical machine translation engines for specific domains. Our experiments on the English–Spanish pair in the domains of Computer Science, Science, and Sports show that our in-domain translator performs significantly better than a generic one when translating in-domain Wikipedia articles. Moreover, we show that these corpora can help when translating out-of-domain textsPeer Reviewe

    A factory of comparable corpora from Wikipedia

    No full text
    Multiple approaches to grab comparable data from the Web have been developed up to date. Nevertheless, coming out with a high-quality comparable corpus of a specific topic is not straightforward. We present a model for the automatic extraction of comparable texts in multiple languages and on specific topics from Wikipedia. In order to prove the value of the model, we automatically extract parallel sentences from the comparable collections and use them to train statistical machine translation engines for specific domains. Our experiments on the English–Spanish pair in the domains of Computer Science, Science, and Sports show that our in-domain translator performs significantly better than a generic one when translating in-domain Wikipedia articles. Moreover, we show that these corpora can help when translating out-of-domain textsPeer Reviewe

    Midwives, infant and maternal health in Monmouthshire 1900-1938

    Get PDF
    SIGLEAvailable from British Library Document Supply Centre-DSC:DXN035597 / BLDSC - British Library Document Supply CentreGBUnited Kingdo
    corecore