1,218 research outputs found

    QUAK: A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation

    Full text link
    With the recent advance in neural machine translation demonstrating its importance, research on quality estimation (QE) has been steadily progressing. QE aims to automatically predict the quality of machine translation (MT) output without reference sentences. Despite its high utility in the real world, there remain several limitations concerning manual QE data creation: inevitably incurred non-trivial costs due to the need for translation experts, and issues with data scaling and language expansion. To tackle these limitations, we present QUAK, a Korean-English synthetic QE dataset generated in a fully automatic manner. This consists of three sub-QUAK datasets QUAK-M, QUAK-P, and QUAK-H, produced through three strategies that are relatively free from language constraints. Since each strategy requires no human effort, which facilitates scalability, we scale our data up to 1.58M for QUAK-P, H and 6.58M for QUAK-M. As an experiment, we quantitatively analyze word-level QE results in various ways while performing statistical analysis. Moreover, we show that datasets scaled in an efficient way also contribute to performance improvements by observing meaningful performance gains in QUAK-M, P when adding data up to 1.58M

    Translation error annotation : building an annotation module for east asian languages

    Get PDF
    In this thesis it is proposed an annotation module to be applied in the context of Machine Translation (MT) concerning the East Asian languages of Japanese, Korean and Mandarin for the purpose of assessing MT output quality through annotation. The annotation module was created based on a data-driven analysis over Customer Support content in these languages previously annotated with the Unbabel Error Typology, which is a general typology in the sense that it is not conceived for any specific groups of languages. As such, this work also explores how applying translation error typologies inadequate to certain languages or content types can have an impact on how annotation reflects the quality of a translation. For the purpose of testing the effectiveness of the proposed annotation module, an annotation experiment for the languages under analysis was conducted. This experiment consisted of, for each language, annotating the same content using three different error typologies: the Unbabel Error Typology, the MQM-compliant error taxonomy for the translation direction of English to Chinese proposed by Ye and Toral (2020) and the annotation module proposed on this thesis. Furthermore, each dataset was annotated by two annotators. This allowed a comparison of Inter-annotator agreement (IAA) scores, which constitutes an important metric in terms of evaluating the effectiveness of an error typology. In light of this, each of the tested typologies was analyzed based on the obtained IAA scores and a further in-depth analysis of concrete annotations which lead to an understanding over their strengths and limitations. With this work it was possible to demonstrate that, if on one hand using error typologies inadequate for the content annotated has a negative impact on the quality of said annotations, on the other hand applying an error typology specific to the content being annotated can result in more consistent annotations.O trabalho desenvolvido no âmbito desta tese teve como objetivo principal a criação de um módulo de anotação para erros de tradução no contexto da Tradução Automática (TA) que fosse aplicável a Japonês, Coreano e Mandarim e compatível com o Multidimensional Quality Metrics (MQM) framework (Lommel et al., 2014). Este módulo foi criado com base numa análise de dados reais sobre traduções previamente anotadas dentro da empresa Unbabel seguindo uma tipologia geral concebida para anotação de vários pares linguísticos sem foco em grupos de línguas específicos. Ao mesmo tempo que permitiu verificar as consequências de anotar erros com uma tipologia pouco adequada à língua ou ao conteúdo traduzido, esta análise constituiu um ponto de partida importante para a criação do módulo de anotação proposto nesta tese. A Secção 2 desta tese concentrou-se em apresentar a Unbabel como instituição e os processos de qualidade em vigor dentro da empresa. A Secção 3 focou-se em apresentar o estado da arte em TA e processos de qualidade, com atenção especial às línguas sob análise nesta tese, bem como as tipologias de anotação de erros de tradução utilizadas para comparação de resultados. A análise dos dados disponíveis, descrita na Secção 4, foi feita em duas fases principais. Na primeira fase foi analisado um conjunto de 342 segmentos correspondentes ao par linguístico Inglês-Chinês (Simplificado), previamente anotados com a Unbabel Error Typology, a tipologia para anotação de erros de tradução utilizada para todos os pares linguísticos até junho de 2022. Esta análise demonstrou que uma percentagem significativa dos erros cometidos durante o processo de anotação podiam ser atribuídos não só à falta de claridade das diretrizes de anotação relativamente a características específicas presentes neste par linguístico como também à falta de alguns tipos de erros na tipologia. Na segunda fase de análise de dados foi possível confirmar e fundamentar a existência destes problemas. Nesta fase foi analisada uma amostra de dados mais abrangente que incluiu quatro pares linguísticos: Inglês-Japonês, Inglês-Coreano, Inglês-Chinês (Simplificado) e Inglês-Chinês (Tradicional). Para cada par linguístico foi analisado um total de cerca de 570 a 1900 segmentos e, com a exceção de Inglês-Coreano, todos os dados correspondiam às anotações de mais de um anotador. Esta análise permitiu concluir que os anotadores de todos os pares linguísticos mencionados cometeram vários erros, em especial no processo de escolha da categoria certa para cada erro de tradução mas também relativamente à seleção dos erros e atribuição da severidade certa a cada um. Através dos dados analisados foi possível determinar que tipos de erros seria necessário incluir numa tipologia de anotação de erros de tradução adaptada às línguas mencionadas e que tipo de instruções deveriam ser clarificadas nas diretrizes de anotação. Deste modo, após a conclusão da segunda fase de análise de dados foi possível começar a criar o módulo de anotação proposto nesta tese, denominado East Asian Languages Annotation Module for the Unbabel Quality Framework. O East Asian Languages Annotation Module for the Unbabel Quality Framework foi criado à imagem da Unbabel Error Typology e adaptado às características da nova versão que entrou em vigor na empresa em junho de 2022. No entanto, devido ao facto de ser um módulo de anotação adaptado às línguas asiáticas previamente mencionadas, várias categorias de erros existentes na Unbabel Error Typology foram removidos devido a corresponderem a componentes linguísticos que não fazem parte das línguas em questão. Do mesmo modo, foi adicionado um total de cinco novos tipos de erros ao módulo com base no que foi julgado necessário durante a fase de análise de dados. A versão final do East Asian Languages Annotation Module for the Unbabel Quality Framework conta com um total de 39 tipos de erros, em contraste com os 47 que fazem parte da Unbabel Error Typology. De forma complementar à criação do módulo de anotação foram também elaboradas diretrizes específicas para o módulo que, para além da definição de cada tipo de erro com exemplos, incluem também uma secção dedicada a casos difíceis (Tricky Cases) e esquemas (Decision Trees) para auxiliar na escolha da severidade e tipo de erro adequado para cada caso. Após a criação do módulo de anotação foi necessário testar se o mesmo pode ser aplicado com sucesso. Para este fim foi levado a cabo um estudo de comparação entre o East Asian Languages Annotation Module for the Unbabel Quality Framework e duas outras tipologias, descrito na Secção 5. Assim, foram conduzidas três fases de anotação com cerca de um mês de intervalo entre cada. Para cada tipologia dois anotadores por par linguístico anotaram entre 1100 e 4900 palavras cada um e, de modo a obter uma comparação precisa, dentro de cada par linguístico o conteúdo anotado com cada tipologia manteve-se o mesmo. A primeira fase de anotações foi efetuada utilizando a Unbabel Error Typology. Devido ao facto de os anotadores já estarem familiarizados com esta tipologia e já possuírem as diretrizes de anotação relativas à mesma, não foi necessário prestar apoio adicional aos anotadores nesta fase. A segunda ronda de anotações foi levada a cabo com a tipologia para anotação de erros de tradução para o par linguístico Inglês-Mandarim proposta por Ye e Toral (2020). Para esta fase de anotação foram criadas diretrizes específicas para esta tipologia com base no trabalho desenvolvido por Ye e Toral (2020) de modo a facilitar o processo de anotação. É importante referir que, apesar de esta tipologia ter sido criada para anotação de erros de tradução para o par linguístico Inglês-Mandarim, durante a fase de teste das tipologias esta foi utilizada para anotar todos os quatro pares linguísticos a serem analisados. Além disso, devido ao facto de ser uma tipologia nova, durante esta fase foi mantida a comunicação com os anotadores para esclarecimento de dúvidas. É necessário salientar que esta tipologia também foi importante na criação do East Asian Languages Annotation Module devido ao facto de conter tipos de erros específicos em relação à anotação do par linguístico para o qual foi criada e que serviram de base para novos tipos de erros propostos no módulo de anotação. A terceira e última fase de anotação foi feita com o East Asian Languages Annotation Module for the Unbabel Quality Framework proposto nesta tese. Nesta fase foram fornecidas aos anotadores as diretrizes que foram criadas de forma complementar ao módulo e, tal como durante a segunda fase, foi dada aos anotadores a possibilidade de comunicar as suas dúvidas. Os resultados das três fases de anotação descritas acima foram analisados da perspetiva do nível de acordo entre os anotadores, medido através da metodologia de Inter-annotator Agreement (IAA), em contraste com os valores equivalentes da métrica manual de qualidade MQM (Lommel et al., 2014), bem como através de uma análise detalhada das anotações de ambos anotadores para todos os pares linguísticos. No contexto da testagem de tipologias de anotação de erros de tradução uma análise dos valores de IAA obtidos, pois um elevado nível de concordância entre os anotadores reflete a clareza de uma tipologia. Adicionalmente, a análise detalhada das anotações em consonância com os valores de IAA permite avaliar que fatores influenciam a flutuação dos mesmos. Adicionalmente, o feedback que os anotadores forneceram em relação a cada tipologia também foi alvo de reflexão em contraste com os resultados obtidos. Deste modo, com a combinação de todos estes dados foi possível determinar os pontos fortes e as fraquezas de cada tipologia bem como entender que direção deverá seguir o trabalho futuro em torno do East Asian Languages Annotation Module for the Unbabel Quality Framework em termos do seu aperfeiçoamento. Com este trabalho foi possível demonstrar o impacto negativo de utilizar uma tipologia de erros pouco adequada ao conteúdo a ser anotado bem como provar que, por outro lado, uma tipologia criada para a anotação de um grupo específico de línguas pode melhorar a consistência das anotações relativas a componentes linguísticos próprios das línguas para as quais a tipologia é direcionada

    eSCAPE: a Large-scale Synthetic Corpus for Automatic Post-Editing

    Get PDF
    Training models for the automatic correction of machine-translated text usually relies on data consisting of (source, MT, human post- edit) triplets providing, for each source sentence, examples of translation errors with the corresponding corrections made by a human post-editor. Ideally, a large amount of data of this kind should allow the model to learn reliable correction patterns and effectively apply them at test stage on unseen (source, MT) pairs. In practice, however, their limited availability calls for solutions that also integrate in the training process other sources of knowledge. Along this direction, state-of-the-art results have been recently achieved by systems that, in addition to a limited amount of available training data, exploit artificial corpora that approximate elements of the "gold" training instances with automatic translations. Following this idea, we present eSCAPE, the largest freely-available Synthetic Corpus for Automatic Post-Editing released so far. eSCAPE consists of millions of entries in which the MT element of the training triplets has been obtained by translating the source side of publicly-available parallel corpora, and using the target side as an artificial human post-edit. Translations are obtained both with phrase-based and neural models. For each MT paradigm, eSCAPE contains 7.2 million triplets for English-German and 3.3 millions for English-Italian, resulting in a total of 14,4 and 6,6 million instances respectively. The usefulness of eSCAPE is proved through experiments in a general-domain scenario, the most challenging one for automatic post-editing. For both language directions, the models trained on our artificial data always improve MT quality with statistically significant gains. The current version of eSCAPE can be freely downloaded from: http://hltshare.fbk.eu/QT21/eSCAPE.html.Comment: Accepted at LREC 201

    A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

    Full text link
    This paper proposes a framework for quantitatively evaluating interactive LLMs such as ChatGPT using publicly available data sets. We carry out an extensive technical evaluation of ChatGPT using 23 data sets covering 8 different common NLP application tasks. We evaluate the multitask, multilingual and multi-modal aspects of ChatGPT based on these data sets and a newly designed multimodal dataset. We find that ChatGPT outperforms LLMs with zero-shot learning on most tasks and even outperforms fine-tuned models on some tasks. We find that it is better at understanding non-Latin script languages than generating them. It is able to generate multimodal content from textual prompts, via an intermediate code generation step. Moreover, we find that ChatGPT is 63.41% accurate on average in 10 different reasoning categories under logical reasoning, non-textual reasoning, and commonsense reasoning, hence making it an unreliable reasoner. It is, for example, better at deductive than inductive reasoning. ChatGPT suffers from hallucination problems like other LLMs and it generates more extrinsic hallucinations from its parametric memory as it does not have access to an external knowledge base. Finally, the interactive feature of ChatGPT enables human collaboration with the underlying LLM to improve its performance, i.e, 8% ROUGE-1 on summarization and 2% ChrF++ on machine translation, in a multi-turn "prompt engineering" fashion. We also release codebase for evaluation set extraction.Comment: 45 pages, AACL 202

    문맥 인식기반의 문서 단위 신경망 기계 번역 연구

    Get PDF
    학위논문(박사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2022.2. 정교민.The neural machine translation (NMT) has attracted great attention in recent years, as it has yielded state-of-the-art translation quality. Despite of their promising results, many current NMT systems are sentence-level; translating each sentence independently. This ignores contexts on text thus producing inadequate and inconsistent translations at the document-level. To overcome the shortcomings, the context-aware NMT (CNMT) has been proposed that takes contextual sentences as input. This dissertation proposes novel methods for improving the CNMT system and an application of CNMT. We first tackle the efficient modeling of multiple contextual sentences on CNMT encoder. For this purpose, we propose a hierarchical context encoder that encodes contextual sentences from token-level to sentence-level. This novel architecture enables the model to achieve state-of-the-art performance on translation quality while taking less computation time on training and translation than existing methods. Secondly, we investigate the training method for CNMT models, where most models rely on negative log-likelihood (NLL) that do not fully exploit contextual dependencies. To overcome the insufficiency, we introduce coreference-based contrastive learning for CNMT that generates contrastive examples from coreference chains between the source and target sentences. The proposed method improves pronoun resolution accuracy of CNMT models, as well as overall translation quality. Finally, we investigate an application of CNMT on dealing with Korean honorifics which depends on contextual information for generating adequate translations. For the English-Korean translation task, we propose to use CNMT models that capture crucial contextual information on the English source document and adopt a context-aware post-editing system for exploiting contexts on Korean target sentences, resulting in more consistent Korean honorific translations.신경망 기계번역 기법은 최근 번역 품질에 있어서 큰 성능 향상을 이룩하여 많은 주목을 받고 있다. 그럼에도 불구하고 현재 대부분의 신경망 번역 시스템은 텍스트를 독립된 문장 단위로 번역을 수행하기 때문에 텍스트에 존재하는 문맥을 무시하고 결국 문서 단위로 파악했을 때 적절하지 않은 번역문을 생성할 수 있는 단점이 있다. 이를 극복하기 위해 주변 문장을 동시에 고려하는 문맥 인식 기반 신경망 번역 기법이 제안되고 있다. 본 학위 논문은 문맥 인식 기반 신경망 번역 시스템의 성능을 개선시킬 수 있는 기법들과 문맥 인식 기반 신경망 번역 기법의 활용 방안을 제시한다. 먼저 여러 개의 문맥 문장들을 효과적으로 모델링하기 위해 문맥 문장들을 토큰 레벨 및 문장 레벨로 단계적으로 표현하는 계층적 문맥 인코더를 제시하였다. 제시된 모델은 기존 모델들과 비교하여 가장 좋은 번역 품질을 얻으면서 동시에 학습 및 번역에 걸리는 연산 시간을 단축하였다. 두 번째로는 문맥 인식 기반 신경망 번역모델의 학습 방법을 개선하고자 하였는데 이는 기존 연구에서는 문맥에 대한 의존 관계를 전부 활용하지 못하는 전통적인 음의 로그우도 손실함수에 의존하고 있기 때문이다. 이를 보완하기 위해 문맥 인식 기반 신경망 번역모델을 위한 상호참조에 기반한 대조학습 기법을 제시한다. 제시된 기법은 원문과 주변 문맥 문장들 사이에 존재하는 상호참조 사슬을 활용하여 대조 사례를 생성하며, 문맥 인식 기반 신경망 번역 모델들의 전반적인 번역 품질 뿐만 아니라 대명사 해결 성능도 크게 향상시켰다. 마지막으로는 맥락 정보가 필요한 한국어 경어체 번역에 있어서 문맥 인식 기반 신경망 번역 기법의 활용 방안에 대해서도 연구하였다. 이에 영어-한국어 번역 문제에 문맥 인식 기반 신경망 번역 기법을 적용하여 영어 원문에서 필수적인 맥락 정보를 추출하는 한편 한국어 번역문에서도 문맥 인식 사후편집 시스템을 활용하여 보다 일관된 한국어 경어체 표현을 번역하도록 개선하는 기법을 제시하였다.Abstract i Contents ii List of Tables vi List of Figures viii 1 Introduction 1 2 Background: Neural Machine Translation 7 2.1 A Brief History 7 2.2 Problem Setup 9 2.3 Encoder-Decoder architectures 10 2.3.1 RNN-based Architecture 11 2.3.2 SAN-based Architecture 13 2.4 Training 16 2.5 Decoding 16 2.6 Evaluation 17 3 Efficient Hierarchical Architecture for Modeling Contextual Sentences 18 3.1 Related works 20 3.1.1 Modeling Context in NMT 20 3.1.2 Hierarchical Context Modeling 21 3.1.3 Evaluation of Context-aware NMT 21 3.2 Model description 22 3.2.1 Context-aware NMT encoders 22 3.2.2 Hierarchical context encoder 27 3.3 Data 28 3.3.1 English-German IWSLT 2017 corpus 29 3.3.2 OpenSubtitles corpus 29 3.3.3 English-Korean subtitle corpus 31 3.4 Experiments 31 3.4.1 Hyperparameters and Training details 31 3.4.2 Overall BLEU evaluation 32 3.4.3 Model complexity analysis 32 3.4.4 BLEU evaluation on helpful/unhelpful context 34 3.4.5 EnKo pronoun resolution test suite 35 3.4.6 Qualitative Analysis 37 3.5 Summary of Efficient Hierarchical Architecture for Modeling Contextual Sentences 43 4 Contrastive Learning for Context-aware Neural Machine Translation 44 4.1 Related Works 46 4.1.1 Context-aware NMT Architectures 46 4.1.2 Coreference and NMT 47 4.1.3 Data augmentation for NMT 47 4.1.4 Contrastive Learning 47 4.2 Context-aware NMT models 48 4.3 Our Method: CorefCL 50 4.3.1 Data Augmentation Using Coreference 50 4.3.2 Contrastive Learning for Context-aware NMT 52 4.4 Experiments 53 4.4.1 Datasets 53 4.4.2 Settings 54 4.4.3 Overall BLEU Evaluation 55 4.4.4 Results on English-German Contrastive Evaluation Set 57 4.4.5 Analysis 58 4.5 Summary of Contrastive Learning for Context-aware Neural Machine Translation 59 5 Improving English-Korean Honorific Translation Using Contextual Information 60 5.1 Related Works 63 5.1.1 Neural Machine Translation dealing with Korean 63 5.1.2 Controlling the Styles in NMT 63 5.1.3 Context-Aware NMT Framework and Application 64 5.2 Addressing Korean Honorifics in Context 65 5.2.1 Overview of Korean Honorifics System 65 5.2.2 The Role of Context on Choosing Honorifics 68 5.3 Context-Aware NMT Frameworks 69 5.3.1 NMT Model with Contextual Encoders 71 5.3.2 Context-Aware Post Editing (CAPE) 71 5.4 Our Proposed Method - Context-Aware NMT for Korean Honorifics 73 5.4.1 Using CNMT methods for Honorific-Aware Translation 74 5.4.2 Scope of Honorific Expressions 75 5.4.3 Automatic Honorific Labeling 76 5.5 Experiments 77 5.5.1 Dataset and Preprocessing 77 5.5.2 Model Implementation and Training Details 80 5.5.3 Metrics 80 5.5.4 Results 81 5.5.5 Translation Examples and Analysis 86 5.6 Summary of Improving English-Korean Honorific Translation Using Contextual Information 89 6 Future Directions 91 6.1 Document-level Datasets 91 6.2 Document-level Evaluation 92 6.3 Bias and Fairness of Document-level NMT 93 6.4 Towards Practical Applications 94 7 Conclusions 96 Abstract (In Korean) 117 Acknowledgment 119박

    TectoMT – a deep-­linguistic core of the combined Chimera MT system

    Get PDF
    Chimera is a machine translation system that combines the TectoMT deep-linguistic core with phrase-based MT system Moses. For English–Czech pair it also uses the Depfix post-correction system. All the components run on Unix/Linux platform and are open source (available from Perl repository CPAN and the LINDAT/CLARIN repository). The main website is https://ufal.mff.cuni.cz/tectomt. The development is currently supported by the QTLeap 7th FP project (http://qtleap.eu)

    Proceedings of the 17th Annual Conference of the European Association for Machine Translation

    Get PDF
    Proceedings of the 17th Annual Conference of the European Association for Machine Translation (EAMT
    corecore