2 research outputs found

    to post-edit or to translate ... That is the question: a case study of a recommender system for Quality Estimation of Machine Translation based on linguistic features

    Get PDF
    [EN]The implementation of a machine translation system into production is not enough to warrant its efficient use. There exists the need to know when it is profitable to use machine translation as opposed to translating from scratch. That is why being able to estimate the quality of a machine translation is crucial. This thesis investigates the task of quality estimation of machine translation for a specific machine translation system and a specific domain by developing a recommender system for Spanish to English. The work further investigates how quality estimation can benefit from the use of linguistic characteristics in contrast to the more common shallower features. The data was collected from real translators who performed a post-editing task, and the linguistic features were manually annotated. First, we build a classification model that selects sentences for post-editing or translating. Secondly, we perform a regression task based on three quality indicators: Quality, Time and HTER. Although experimentation shows some promising results, overall the selected features are not discriminative enough for the recommender system to be implemented into production. Results are discussed at different levels, suggesting a replication at a larger scale, with automatic annotation of informative linguistic features.[EU]Itzulpen automatikoko sistema bat produkzio-katean sartzeak ez du bere horretan erabilera eraginkor bat bermatzen. Beharrezkoa da jakitea noiz den probetxugarria itzulpen automatikoa editatzea eta noiz eskuz itzultzea. Horretarako ezinbestekoa da itzulpen automatikoaren kalitatea aurreikusteko gai izatea. Lan honek ikertzen du itzulpen automatikoaren kalitatearen estimazioa sistema zehatz batentzat eta domeinu zehatz baterako, gomendio sistema bat garatuz gaztelaniatik ingelesera itzultzerakoan erabiltzeko. Lanean aztertzen da nola lagundu dezaketen ezaugarri linguistikoek kalitatearen estimazioan, ohikoak diren azaleko ezaugarriekin alderatuta. Datuak itzultzaile profesionalen postedizio lanetik bildu dira eta ezaugarri linguistikoak eskuz etiketatu. Lehenengo, esaldi bat posteditatzea edo itzultzea gomendatzen duten sailkapen ereduak eraiki dira. Bigarrenik, erregresio ereduak entrenatu dira hiru kalitate adierazle aurreikusteko: kalitatea, denbora eta HTER. Esperimentuek emaitza adierazgarriak erakusten dituzten arren, orokorrean erabilitako ezaugarriek ez dute behar bezala bereizten edizio mota komenigarriena zein den, eta beraz, gomendio sistemaren doitasuna ez da produkzioan ezartzeko nahikoa. Emaitzak maila desberdinetan aztertu dira eta esperimentazioa datu-multzo zabalago batekin egitea proposatzen da, anotazio automatikoa erabilita eta informatiboagoak diren ezaugarri linguistikoak erabilita

    Millora d'un sistema de traducci贸 basat en regles : extracci贸 aleat貌ria de piulades; automatitzaci贸 de la traducci贸 En > CA mitjan莽ant Apertium, i avaluaci贸 de la qualitat amb m猫triques autom脿tiques

    Get PDF
    Aquest treball descriu un projecte de col路laboraci贸 amb Softcatal脿 per millorar la qualitat del parell angl猫s-catal脿 d'Apertium. La tasca posa 猫mfasi en l'oralitat escrita, ra贸 per la qual s'ha triat la xarxa social Twitter per a l'extracci贸 de corpus en llengua anglesa. Com a m猫tode objectiu per mesurar la millora de la qualitat de traducci贸, s'ha triat la m猫trica autom脿tica BLEU. D'una banda, es descriuen els diferents m猫todes de TA existents, les m猫triques d'avaluaci贸 autom脿tiques, el proc茅s d'extracci贸 de corpus i Twitter. D'altra banda, es detallen els passos seguits en el flux de treball proposat i les eines i recursos emprats per crear textos de refer猫ncia a partir de cada piulada i la traducci贸 inicial d'Apertium. Aquest proc茅s ha aconseguit millorar el valor de la m猫trica autom脿tica general per a les piulades de refer猫ncia, per貌 no hi ha hagut canvis significatius per a un segon grup de frases aleat貌ries.Este trabajo describe un proyecto de colaboraci贸n con Softcatal脿 para mejorar la calidad del par de lenguas ingl茅s-catal谩n de Apertium. La tarea se centra en la oralidad escrita, por lo que se ha escogido la red social Twitter para la extracci贸n de corpus en lengua inglesa. Como m茅todo objetivo para la medir la mejora de la calidad de traducci贸n, se ha optado por la m茅trica autom谩tica BLEU. Por un lado, se describen los distintos m茅todos de TA existentes, las m茅tricas de evaluaci贸n de la calidad, el proceso de extracci贸n de corpus y Twitter. Por otro lado, se detallan los pasos seguidos en el flujo de trabajo propuesto, as铆 como las herramientas y recursos utilizados para la creaci贸n de textos de referencia a partir de cada tuit y su traducci贸n inicial con Apertium. Este proceso ha conseguido mejorar el valor de la m茅trica autom谩tica general para los tuits de referencia, pero no ha habido cambios significativos para un segundo grupo de frases aleatorias.This paper describes a collaboration project with Softcatal脿 aimed at improving raw quality of the English-Catalan language pair on the RBMT platform Apertium. The task described focuses on spoken-like discourse, hence why Twitter has been chosen for English corpus extraction. Additionally, BLEU metric has been used as an objective way to automatically assess translation quality. On one hand, existing MT methods, translation quality assessment metrics, the most common corpus extraction process and Twitter are described. On the other hand, the steps within the proposed workflow as well as the tools and resources used to produce reference texts from each tweet and its Apertium translation are detailed. The process has succeeded in improving the overall raw MT quality metric of the reference tweets. However, no significant changes in quality were detected for a second batch of random sentences
    corecore