97 research outputs found

    Automated MT evaluation metrics and their limitations

    Get PDF
    Aquest article ofereix una visió general de les principals classes de mètodes d'avaluació automàtica de la qualitat de la Traducció Automàtica (TA), les seves limitacions i el seu valor tant per a traductors professionals com per a desenvolupadors de TA. L'avaluació automàtica de TA es caracteritza per l'actuació dels sistemes de TA amb textos o corpus específics. És d'esperar que els índexs automàtics es correlacionen amb aquells paràmetres que estableixen els avaluadors humans sobre la qualitat de la TA, com ara l'adequació o fluïdesa de la traducció. L'avaluació automàtica actualment és part del cicle de desenvolupament de la TA, i a més també permet fer avançar la investigació fonamental sobre TA i millorar la seva tecnologia.This paper gives a general overview of the main classes of methods for automatic evaluation of Machine Translation (MT) quality, their limitations and their value for professional translators and MT developers. Automated evaluation of MT characterizes performance of MT systems on specific text or a corpus. Automated scores are expected to correlate with certain parameters of MT quality scored by human evaluators, such as adequacy of fluency of translation. Automated evaluation is now part of MT development cycle, but it also contributes to fundamental research on MT and improving MT technology..Este artículo ofrece una perspectiva general de las principales clases de métodos de evaluación automática de la calidad de la Traducción Automática (TA), sus limitaciones y su valor tanto para traductores profesionales como para desarrolladores de TA. La evaluación automática de TA se caracteriza por la actuación de los sistemas de TA con textos o córpora específicos. Es de esperar que los índices automáticos se correlacionen con aquellos parámetros que establecen los evaluadores humanos sobre la calidad de la TA, como por ejemplo la adecuación o fluidez de la traducción. La evaluación automática actualmente es parte del ciclo de desarrollo de la TA, y además también permite hacer avanzar la investigación fundamental sobre TA y mejorar su tecnología

    Métricas de evaluación automatizada de TA y sus limitaciones

    Get PDF
    Aquest article ofereix una visió general de les principals classes de mètodes d'avaluació automàtica de la qualitat de la Traducció Automàtica (TA), les seves limitacions i el seu valor tant per a traductors professionals com per a desenvolupadors de TA. L'avaluació automàtica de TA es caracteritza per l'actuació dels sistemes de TA amb textos o corpus específics. És d'esperar que els índexs automàtics es correlacionen amb aquells paràmetres que estableixen els avaluadors humans sobre la qualitat de la TA, com ara l'adequació o fluïdesa de la traducció. L'avaluació automàtica actualment és part del cicle de desenvolupament de la TA, i a més també permet fer avançar la investigació fonamental sobre TA i millorar la seva tecnologia.This paper gives a general overview of the main classes of methods for automatic evaluation of Machine Translation (MT) quality, their limitations and their value for professional translators and MT developers. Automated evaluation of MT characterizes performance of MT systems on specific text or a corpus. Automated scores are expected to correlate with certain parameters of MT quality scored by human evaluators, such as adequacy of fluency of translation. Automated evaluation is now part of MT development cycle, but it also contributes to fundamental research on MT and improving MT technology..Este artículo ofrece una perspectiva general de las principales clases de métodos de evaluación automática de la calidad de la Traducción Automática (TA), sus limitaciones y su valor tanto para traductores profesionales como para desarrolladores de TA. La evaluación automática de TA se caracteriza por la actuación de los sistemas de TA con textos o córpora específicos. Es de esperar que los índices automáticos se correlacionen con aquellos parámetros que establecen los evaluadores humanos sobre la calidad de la TA, como por ejemplo la adecuación o fluidez de la traducción. La evaluación automática actualmente es parte del ciclo de desarrollo de la TA, y además también permite hacer avanzar la investigación fundamental sobre TA y mejorar su tecnología

    Integrating Rules and Dictionaries from Shallow-Transfer Machine Translation into Phrase-Based Statistical Machine Translation

    Get PDF
    We describe a hybridisation strategy whose objective is to integrate linguistic resources from shallow-transfer rule-based machine translation (RBMT) into phrase-based statistical machine translation (PBSMT). It basically consists of enriching the phrase table of a PBSMT system with bilingual phrase pairs matching transfer rules and dictionary entries from a shallow-transfer RBMT system. This new strategy takes advantage of how the linguistic resources are used by the RBMT system to segment the source-language sentences to be translated, and overcomes the limitations of existing hybrid approaches that treat the RBMT systems as a black box. Experimental results confirm that our approach delivers translations of higher quality than existing ones, and that it is specially useful when the parallel corpus available for training the SMT system is small or when translating out-of-domain texts that are well covered by the RBMT dictionaries. A combination of this approach with a recently proposed unsupervised shallow-transfer rule inference algorithm results in a significantly greater translation quality than that of a baseline PBSMT; in this case, the only hand-crafted resource used are the dictionaries commonly used in RBMT. Moreover, the translation quality achieved by the hybrid system built with automatically inferred rules is similar to that obtained by those built with hand-crafted rules.Research funded by the Spanish Ministry of Economy and Competitiveness through projects TIN2009-14009-C02-01 and TIN2012-32615, by Generalitat Valenciana through grant ACIF 2010/174, and by the European Union Seventh Framework Programme FP7/2007-2013 under grant agreement PIAP-GA-2012-324414 (Abu-MaTran)

    Automated MT evaluation metrics and their limitations

    Full text link

    Evaluation of Automatic Text Summarization Using Synthetic Facts

    Get PDF
    Automatic text summarization has achieved remarkable success with the development of deep neural networks and the availability of standardized benchmark datasets. It can generate fluent, human-like summaries. However, the unreliability of the existing evaluation metrics hinders its practical usage and slows down its progress. To address this issue, we propose an automatic reference-less text summarization evaluation system with dynamically generated synthetic facts. We hypothesize that if a system guarantees a summary that has all the facts that are 100% known in the synthetic document, it can provide natural interpretability and high feasibility in measuring factual consistency and comprehensiveness. To our knowledge, our system is the first system that measures the overarching quality of the text summarization models with factual consistency, comprehensiveness, and compression rate. We validate our system by comparing its correlation with human judgment with existing N-gram overlap-based metrics such as ROUGE and BLEU and a BERT-based evaluation metric, BERTScore. Our system\u27s experimental evaluation of PEGASUS, BART, and T5 outperforms the current evaluation metrics in measuring factual consistency with a noticeable margin and demonstrates its statistical significance in measuring comprehensiveness and overall summary quality

    Case reuse in textual case-based reasoning.

    Get PDF
    Text reuse involves reasoning with textual solutions of previous problems to solve new similar problems. It is an integral part of textual case-based reasoning (TCBR), which applies the CBR problem-solving methodology to situations where experiences are predominantly captured in text form. Here, we explore two key research questions in the context of textual reuse: firstly what parts of a solution are reusable given a problem and secondly how might these relevant parts be reused to generate a textual solution. Reasoning with text is naturally challenging and this is particularly so with text reuse. However significant inroads towards addressing this challenge was made possible with knowledge of problem-solution alignment. This knowledge allows us to identify specific parts of a textual solution that are linked to particular problem attributes or attribute values. Accordingly, a text reuse strategy based on implicit alignment is presented to determine textual solution constructs (words or phrases) that needs adapted. This addresses the question of what to reuse in solution texts and thereby forms the first contribution of this thesis. A generic architecture, the Case Retrieval Reuse Net (CR2N), is used to formalise the reuse strategy. Functionally, this architecture annotates textual constructs in a solution as reusable with adaptation or without adaptation. Key to this annotation is the discovery of reuse evidence mined from neighbourhood characteristics. Experimental results show significant improvements over a retrieve-only system and a baseline reuse technique. We also extended CR2N so that retrieval of similar cases is informed by solutions that are easiest to adapt. This is done by retrieving the top k cases based on their problem similarity and then determining the reusability of their solutions with respect to the target problem. Results from experiments show that reuse-guided retrieval outperforms retrieval without this guidance. Although CR2N exploits implicit alignment to aid text reuse, performance can be greatly improved if there is explicit alignment. Our second contribution is a method to form explicit alignment of structured problem attributes and values to sentences in a textual solution. Thereafter, compositional and transformational approaches to text reuse are introduced to address the question of how to reuse textual solutions. The main idea in the compositional approach is to generate a textual solution by using prototypical sentences across similar authors. While the transformation approach adapts the retrieved solution text by replacing sentences aligned to mismatched problem attributes using sentences from the neighbourhood. Experiments confirm the usefulness of these approaches through strong similarity between generated text and human references. The third and final contribution of this research is the use of Machine Translation (MT) evaluation metrics for TCBR. These metrics have been shown to correlate highly with human expert evaluation. In MT research, multiple human references are typically used as opposed to a single reference or solution per test case. An introspective approach to create multiple references for evaluation is presented. This is particularly useful for CBR domains where single reference cases (or cases with a single solution per problem) typically form the casebase. For such domains we show how multiple references can be generated by exploiting the CBR similarity assumption. Results indicate that TCBR systems evaluated with these MT metrics are closer to human judgements

    Quality expectations of machine translation

    Get PDF
    Machine Translation (MT) is being deployed for a range of use-cases by millions of people on a daily basis. There should, therefore, be no doubt as to the utility of MT. However, not everyone is convinced that MT can be useful, especially as a productivity enhancer for human translators. In this chapter, I address this issue, describing how MT is currently deployed, how its output is evaluated and how this could be enhanced, especially as MT quality itself improves. Central to these issues is the acceptance that there is no longer a single ‘gold standard’ measure of quality, such that the situation in which MT is deployed needs to be borne in mind, especially with respect to the expected ‘shelf-life’ of the translation itself

    Learning from Noisy Data in Statistical Machine Translation

    Get PDF
    In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des Lernprozesses behandelt: Bei der Vorverarbeitung und während der Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt. Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nützlichkeit zu gewichten. Zunächst wird der Effekt des Entfernens von False-Positives vom Parallel Corpus gezeigt. Ein Parallel Corpus besteht aus einem Text in zwei Sprachen, wobei jeder Satz einer Sprache mit dem entsprechenden Satz der anderen Sprache gepaart ist. Hierbei wird vorausgesetzt, dass die Anzahl der Sätzen in beiden Sprachversionen gleich ist. False-Positives in diesem Sinne sind Satzpaare, die im Parallel Corpus gepaart sind aber keine Übersetzung voneinander sind. Um diese zu erkennen wird ein kleiner und fehlerfreier paralleler Corpus (Clean Corpus) vorausgesetzt. Mit Hilfe verschiedenen lexikalischen Eigenschaften werden zuverlässig False-Positives vor der Modellierungsphase gefiltert. Eine wichtige lexikalische Eigenschaft hierbei ist das vom Clean Corpus erzeugte bilinguale Lexikon. In der Extraktion dieses bilingualen Lexikons werden verschiedene Heuristiken implementiert, die zu einer verbesserten Leistung führen. Danach betrachten wir das Problem vom Extrahieren der nützlichsten Teile der Trainingsdaten. Dabei ordnen wir die Daten basierend auf ihren Bezug zur Zieldomaine. Dies geschieht unter der Annahme der Existenz eines guten repräsentativen Tuning Datensatzes. Da solche Tuning Daten typischerweise beschränkte Größe haben, werden Wortähnlichkeiten benutzt um die Abdeckung der Tuning Daten zu erweitern. Die im vorherigen Schritt verwendeten Wortähnlichkeiten sind entscheidend für die Qualität des Verfahrens. Aus diesem Grund werden in der Arbeit verschiedene automatische Methoden zur Ermittlung von solche Wortähnlichkeiten ausgehend von monoligual und biligual Corpora vorgestellt. Interessanterweise ist dies auch bei beschränkten Daten möglich, indem auch monolinguale Daten, die in großen Mengen zur Verfügung stehen, zur Ermittlung der Wortähnlichkeit herangezogen werden. Bei bilingualen Daten, die häufig nur in beschränkter Größe zur Verfügung stehen, können auch weitere Sprachpaare herangezogen werden, die mindestens eine Sprache mit dem vorgegebenen Sprachpaar teilen. Im Modellierungsschritt behandeln wir das Problem mit verrauschten Daten, indem die Trainingsdaten anhand der Güte des Corpus gewichtet werden. Wir benutzen Statistik signifikante Messgrößen, um die weniger verlässlichen Sequenzen zu finden und ihre Gewichtung zu reduzieren. Ähnlich zu den vorherigen Ansätzen, werden Wortähnlichkeiten benutzt um das Problem bei begrenzten Daten zu behandeln. Ein weiteres Problem tritt allerdings auf sobald die absolute Häufigkeiten mit den gewichteten Häufigkeiten ersetzt werden. In dieser Arbeit werden hierfür Techniken zur Glättung der Wahrscheinlichkeiten in dieser Situation entwickelt. Die Größe der Trainingsdaten werden problematisch sobald man mit Corpora von erheblichem Volumen arbeitet. Hierbei treten zwei Hauptschwierigkeiten auf: Die Länge der Trainingszeit und der begrenzte Arbeitsspeicher. Für das Problem der Trainingszeit wird ein Algorithmus entwickelt, der die rechenaufwendigen Berechnungen auf mehrere Prozessoren mit gemeinsamem Speicher ausführt. Für das Speicherproblem werden speziale Datenstrukturen und Algorithmen für externe Speicher benutzt. Dies erlaubt ein effizientes Training von extrem großen Modellne in Hardware mit begrenztem Speicher
    corecore