9,852 research outputs found
Findings of the 2019 Conference on Machine Translation (WMT19)
This paper presents the results of the premier shared task organized alongside the Conference on Machine Translation (WMT) 2019.
Participants were asked to build machine translation systems for any of 18 language pairs, to be evaluated on a test set of news stories. The main metric for this task is human judgment of translation quality. The task was also opened up to additional test suites to probe specific aspects of translation
A methodological approach on the creation of trustful test suites for grammar error detection
Machine translation’s research has been expanding over time and so has the need to
automatically detect and correct errors in texts. As such, Unbabel combines machine translation
with human editors in post-edition to provide high quality translations. In order to assist
post-editors in these tasks, a proprietary error detection tool called Smartcheck was developed by
Unbabel to identify errors and suggest corrections.
The state-of-the-art method of identifying translation errors depends on curated annotated
texts (associated with error-type categories), which are fed to machine translation systems as
their evaluation standard, i.e. the test suites to evaluate a system’s error detection accuracy. It is
commonly assumed that evaluation sets are reliable and representative of the content the systems
translate, leading to the assumption that the root problem usually relates to grammar-checking
rules. However, the issue may instead lie in the quality of the evaluation set. If so, then the
decisions made upon evaluation will possibly even have the opposite effect to the one intended.
Thus, it is of utmost importance to have suitable datasets with representative data of the
structures needed for each system, the same for Smartcheck.
With this in mind, this dissertation developed and implemented a new methodology on
creating reliable and revised test suites to be applied on the evaluation process of MT systems
and error detection tools. Using the resulting curated test suites to evaluate proprietary systems
and tools to Unbabel, it became possible to trust the conclusions and decisions made from said
evaluations. This methodology accomplished robust identification of problematic error types,
grammar-checking rules, and language- and/or register-specific issues, therefore allowing
production measures to be adopted. With Smartcheck’s (now reliable and accurate) correction
suggestions and the improvement on post-edition revision, the work presented hereafter led to an
improvement on the translation quality provided to customers.O presente trabalho focou-se na avaliação do desempenho de uma ferramenta proprietária
da Unbabel, para detecção automática de erros, baseada em segmentos previamente anotados
pela comunidade de anotadores, o Smartcheck. Assim, foi proposta uma metodologia para
criação de um corpus de teste (do inglês test suites) baseado em dados de referência com
estruturas relevantes (do inglês gold data). Deste modo, tornou-se possível melhorar a qualidade
das sugestões de correção de erros do Smartcheck e, consequentemente, das traduções facultadas.
Para além do objetivo inicial, a nova metodologia permitiu assegurar uma avaliação rigorosa,
apropriada e fundamentada relativamente às regras usadas pelo Smartcheck, para identificar
possíveis erros de tradução, assim como avaliar outras ferramentas e sistemas de tradução
automática da Unbabel. Recentemente, assistiu-se também a uma fusão da Lingo24 com a
Unbabel e, por essa razão, os dados presentes no corpus incluem conteúdo traduzido por ambas.
Como tal, o trabalho desenvolvido contribuiu inclusivamente para a recente integração da
Lingo24.
A Secção 2 foi dedicada à apresentação da Unbabel, na qual se referem os processos de
controlo de qualidade utilizados para assegurar níveis de qualidade exigidos e se descreve
pormenorizadamente a ferramenta em foco, o Smartcheck. A Secção 3 focou-se no estado da arte
da Tradução Automática e em processos de controlo de qualidade, dando especial atenção a
corpora de teste e à influência dos mesmos. Além disso, foi também incluída uma descrição
relativa ao desenvolvimento de ferramentas automáticas de deteção e correção de erros, criadas
para aperfeiçoar os textos provenientes de traduções automáticas.
A metodologia criada, descrita na Secção 4, foi dividida em três partes principais:
avaliação piloto relativa às regras preexistentes do Smartcheck; análise de causas de erros (do
inglês root-cause analysis); e, por fim, construção de um novo corpus de teste, com dados mais
recentes e corrigidos.
O primeiro passo na metodologia consistiu na avaliação do desempenho da ferramenta
em foco na presente tese. Para tal, foi realizada uma análise piloto na qual cada regra utilizada
pelo Smartcheck foi avaliada de acordo com métricas comumente aplicadas para avaliação de
sistemas de deteção de erros, como o número de verdadeiros positivos (true positives) - casos em
que o sistema conseguiu corretamente identificar erros -, de falsos negativos (false negatives) -
casos em que existia um erro, mas o sistema não o identificou - e de falsos positivos (false positives) - casos em que o sistema incorretamente considerou existir erros. Outras métricas
utilizadas para avaliação consistiram no cálculo de Precision, Recall, e F1-score, a partir dos
valores obtidos das métricas anteriormente mencionadas. Tendo terminado a avaliação piloto,
concluiu-se que nem todas as regras foram passíveis de avaliação (razão pela qual se tornou
impossível averiguar o desempenho individual para cada regra) e, quanto às que foram avaliadas,
os resultados não foram considerados satisfatórios. Isto porque, as regras não identificavam erros
existentes nas traduções e consideravam como problemáticos inúmeros segmentos
gramaticalmente corretos.
A segunda etapa da metodologia surgiu, então, como tentativa de identificar possíveis
razões pelas quais o Smartcheck e as regras associadas demonstraram um baixo desempenho. Em
vista desse objetivo, foi feita uma análise na qual foi colocada a hipótese de que as regras teriam
sido avaliadas com um corpus de teste não apropriado e obsoleto, explicando assim as métricas
muito baixas da avaliação piloto. Esta hipótese surgiu uma vez que foi não só considerada a
possibilidade de os dados do corpus não serem representativos das traduções feitas atualmente,
mas também pelo facto de as estruturas consideradas problemáticas para os sistemas de tradução
serem alteradas constantemente. De modo a corroborar a hipótese colocada, o corpus foi
analisado com base em variados critérios: qual o tipo de tradução dos dados - se os segmentos
analisados tinham ou não sido previamente revisto por pós-editores antes da respetiva submissão;
existência de segmentos duplicados ou cujo texto de partida (do inglês source text) poderia
conter erros - i.e. dados ruidosos; e revisão das anotações e das severidades associadas a cada
erro, de acordo com tipologias e diretrizes específicas da Unbabel - considerando o número de
anotações/severidades correta e incorretamente atribuídas, assim como em falta. Uma vez
finalizada a análise, concluímos que cerca de 20% dos dados correspondiam a duplicações -
tanto para o registo formal como para o informal -, que entre 15-25% das anotações foram
consideradas incorretas e que apenas metade das severidades foram corretamente atribuídas.
Assim sendo, considerámos que seria mais vantajoso criar um novo corpus representativo e
refinado, ao invés de corrigir todas as anotações incorretas do corpus previamente usado.
O terceiro e último passo da metodologia consistiu na construção de um novo corpus de
teste com 27 500 exemplos previamente anotados de traduções automáticas. Os procedimentos
para a criação deste novo corpus incluíram: filtragem de um conjunto de traduções automáticas,
com dados representativos para todas as línguas suportadas pela Unbabel; distinção entre segmentos dependentes e não dependentes de contexto (uma limitação do corpus prévio);
exclusão de exemplos duplicados e de casos com textos de partida problemáticos; e, por fim,
revisão por parte de linguistas e tradutores das anotações atribuídas, seguindo tipologias
proprietárias. Este último procedimento foi ainda subdividido em: uma avaliação geral, de modo
a garantir que as traduções transmitiam de forma coerente, fluída e apropriada a mensagem do
texto de partida e que, para além disso, seguiam regras específicas para cada língua; uma
avaliação focada em especificidades por cliente, de modo a assegurar diretrizes existentes; e uma
revisão de severidades associadas a cada anotação.
Tendo sido a metodologia dada como terminada, o corpus de teste consistia agora num
conjunto de dados de confiança, capaz de avaliar sistemas de tradução automática e ferramentas
como o Smartcheck de uma forma objetiva e fundamentada. Posto isto, as várias avaliações
realizadas - descritas na Secção 5 - usaram os dados compreendidos no corpus como termo de
comparação. A primeira avaliação teve como objetivo principal comparar os resultados obtidos
na análise piloto quanto às regras do Smartcheck com os resultados de uma nova avaliação das
mesmas usando o novo corpus de teste, de forma a chegar a conclusões mais fiáveis e credíveis.
A partir desta, foi possível concluir não só que, contrariamente às conclusões anteriores, todas as
regras são agora passíveis de avaliação, mas também que o número de casos em que o
Smartcheck incorretamente identificava segmentos como problemáticos foi reduzido. A
avaliação seguinte comparou anotações recorrendo a uma matriz de confusão (do inglês
confusion matrix) entre previsões concedidas tanto pelo Smartcheck como pelo corpus de teste.
Deste modo, foi possível identificar quais os tipos de erros mais frequentes e quais os tipos mais
(e menos) problemáticos de identificar pelo sistema. Assim, o corpus de teste foi considerado
como gold standard de modo a realizar uma avaliação global do Smartcheck, calculando o
número total de falsos positivos (atingindo cerca de 45%), falsos negativos (com 35%) e
verdadeiros positivos (aproximadamente 20%). Quanto aos verdadeiros positivos, estes foram
divididos em dois tipos: segmentos corretamente identificados pelo Smartcheck como erro, mas
que foram classificados incorretamente (cerca de 11%); e erros em que tanto a extensão como a
classificação foram atribuídas corretamente (a rondar os 8% do número total de anotações). A
terceira e última análise recorreu aos totais obtidos na avaliação anterior para calcular valores
para métricas como Precision, Recall e F1-score para cada língua e para cada registo suportado.
Desta forma, foi possível concluir que, quanto à primeira métrica, a média entre registos estava bastante equilibrada, mas o mesmo não se verificou em Recall nem F1-score, uma vez que o
registo formal atingiu valores superiores. Para além disso, recorremos ainda ao corpus para
avaliar spell checkers usados pela Unbabel e, analisando os resultados obtidos, pudemos concluir
que o spell checker em uso obteve a avaliação mais baixa. Tendo isto em conta, foi decidido que
seria então preferível substituí-lo pelo spell checker com a melhor avaliação, de modo a reduzir o
número de erros nas traduções e assim melhorar a qualidade das mesmas.
Todo o trabalho realizado pôde ser implementado em vários outros campos para além do
inicialmente estabelecido, i.e. para além da avaliação sistemática da ferramenta Smartcheck.
Demonstrando, deste modo, todo o impacto que uma análise bem fundamentada pode ter no
processo de tomada de decisão. Isto porque, sem um corpus de teste representativo e estruturado,
as avaliações feitas não seriam válidas e os resultados obtidos facilmente levariam a conclusões
impróprias ou até nocivas para o desenvolvimento dos sistemas e ferramentas em questão
Data Augmentation for Low-Resource Neural Machine Translation
The quality of a Neural Machine Translation system depends substantially on
the availability of sizable parallel corpora. For low-resource language pairs
this is not the case, resulting in poor translation quality. Inspired by work
in computer vision, we propose a novel data augmentation approach that targets
low-frequency words by generating new sentence pairs containing rare words in
new, synthetically created contexts. Experimental results on simulated
low-resource settings show that our method improves translation quality by up
to 2.9 BLEU points over the baseline and up to 3.2 BLEU over back-translation.Comment: 5 pages, 2 figures, Accepted at ACL 201
Taking statistical machine translation to the student translator
Despite the growth of statistical machine translation (SMT) research and development in recent years, it remains somewhat out of reach for the translation community where programming expertise and knowledge of statistics tend not to be commonplace. While the concept of SMT is relatively straightforward, its implementation in functioning systems remains difficult for most, regardless of expertise. More recently, however, developments such as SmartMATE have emerged which aim to assist users in creating their own customized SMT systems and thus reduce the learning curve associated with SMT. In addition to commercial uses, translator training stands to benefit from such increased levels of inclusion and access to state-of-the-art approaches to MT. In this paper we draw on experience in developing and evaluating a new syllabus in SMT for a cohort of post-graduate student translators: we identify several issues encountered in the introduction of student translators to SMT, and report on data derived from repeated measures questionnaires that aim to capture data on students’ self-efficacy in the use of SMT. Overall, results show that participants report significant increases in their levels of confidence and knowledge of MT in general, and of SMT in particular. Additional benefits – such as increased technical competence and confidence – and future refinements are also discussed
Recommended from our members
Results of the ontology alignment evaluation initiative 2019
The Ontology Alignment Evaluation Initiative (OAEI) aims at comparing ontology matching systems on precisely defined test cases. These test cases can be based on ontologies of different levels of complexity (from simple thesauri to expressive OWL ontologies) and use different evaluation modalities (e.g., blind evaluation, open evaluation, or consensus). The OAEI 2019 campaign offered 11 tracks with 29 test cases, and was attended by 20 participants. This paper is an overall presentation of that campaign
A Survey on Recognizing Textual Entailment as an NLP Evaluation
Recognizing Textual Entailment (RTE) was proposed as a unified evaluation
framework to compare semantic understanding of different NLP systems. In this
survey paper, we provide an overview of different approaches for evaluating and
understanding the reasoning capabilities of NLP systems. We then focus our
discussion on RTE by highlighting prominent RTE datasets as well as advances in
RTE dataset that focus on specific linguistic phenomena that can be used to
evaluate NLP systems on a fine-grained level. We conclude by arguing that when
evaluating NLP systems, the community should utilize newly introduced RTE
datasets that focus on specific linguistic phenomena.Comment: 1st Workshop on Evaluation and Comparison for NLP systems (Eval4NLP)
at EMNLP 2020; 18 page
- …