5 research outputs found

    Evaluating MT systems with BEER

    Get PDF
    We present BEER, an open source implementation of a machine translation evaluation metric. BEER is a metric trained for high correlation with human ranking by using learning-to-rank training methods. For evaluation of lexical accuracy it uses sub-word units (character n-grams) while for measuring word order it uses hierarchical representations based on PETs (permutation trees). During the last WMT metrics tasks, BEER has shown high correlation with human judgments both on the sentence and the corpus levels. In this paper we will show how BEER can be used for (i) full evaluation of MT output, (ii) isolated evaluation of word order and (iii) tuning MT systems

    Evaluación de la calidad de la traducción de motores de traducción automática neuronal en textos del ámbito jurídico

    Get PDF
    L'objectiu d'aquest estudi és comprovar si els motors de traducció automàtica neuronal gratuïts més populars, Google Translate i Microsoft Translator, estan preparats per traduir textos de l'àmbit jurídic de l'anglès al català per posteriorment ser poseditats. Per fer-ho, es realitza una avaluació de la qualitat de la traducció a una mostra especialment escollida i s'observen dues opinions diferents: l'avaluació mitjançant mètriques d'avaluació automàtica i l'avaluació humana. Posant en comú totes dues valoracions, s'elaboren unes conclusions i es dictamina quin dels dos motors és més apropiat per a aquest fi.El objetivo de este estudio es comprobar si los motores de traducción automática neuronal gratuitos más populares, Google Translate y Microsoft Translator, están preparados para traducir textos del ámbito jurídico del inglés al catalán para su posterior posedición. Para ello, se realiza la evaluación de la calidad de la traducción en una muestra especialmente escogida para dicho fin y se presentan dos análisis distintos: una evaluación automática mediante métricas de evaluación y una evaluación humana realizada por traductores profesionales. Poniendo en común los resultados de ambas valoraciones, se elaboran unas conclusiones y se dictamina cuál de los motores es el más apropiado en este momento.The main objective of this study is to test whether the most popular free neural machine translation engines, Google Translate and Microsoft Translator, are ready to translate texts of legal-related content from English to Catalan to be post-edited afterwards. To test this, we carry out an evaluation of the translation quality of a chosen text and we compare two different evaluations: the evaluation carried out by automatic MT evaluation metrics and human evaluation. By comparing both results, we draw conclusions and decide which one of the engines is more suitable for the task

    Avaluació de la utilitat de l'eina de neteja de corpus automàtica bicleaner : avaluació aplicada al corpus wilimatrix Anglès-Catlà en comparació amb l'avaluació manual de Keops

    Get PDF
    El present treball de fi de màster té com a objectiu avaluar la qualitat de l'eina de neteja i avaluació de corpus automàtica, Bicleaner. Per aconseguir-ho s'ha passat una mostra del corpus de WikiMatrix anglès-català de 200 feta amb segments aleatoris per l'eina. Per extreure conclusions sobre els resultats sobre aquest mateix conjunt de segments s'ha realitzat altra avaluació, de forma manual, amb ajuda de l'eina KEOPS i se n'han comparat els resultats. Els resultats mostren que l'avaluació automàtica pot ser molt útil per a fer una primera aproximació, encara que no produeixi uns resultats prou coherents per a dependre'n únicament i es requereixi una segona avaluació.El presente trabajo de final de máster tiene como objetivo evaluar la calidad de la herramienta de limpieza y evaluación de corpus automática, Bicleaner. Para conseguirlo se ha pasado una muestra del corpus de WikiMatrix inglés-catalán hecha con segmentos aleatorios por la herramienta. Para extraer conclusiones sobre los resultados se ha realizado otra evaluación, de forma manual, con ayuda de la herramienta KEOPS y se han comparado los resultados. Los resultados muestran que la evaluación automática puede ser muy útil para hacer una primera aproximación, aunque luego no produzca unos resultados lo suficientemente coherentes para depender de ella únicamente y se necesite una segunda evaluación.The aim of this master's thesis is to evaluate the quality of the automatic corpus cleaning and evaluation tool, Bicleaner. To achieve this, a sample of the English-Catalan WikiMatrix corpus made with random segments has been evaluated with the tool. In order to draw conclusions about the results, another evaluation was carried out manually with the help of the KEOPS tool and the results were compared. The results show that the automatic evaluation can be very useful for a first approximation, even though it doesn't produce coherent enough results to be used on its own and a second evaluation is needed
    corecore