6,386 research outputs found
Grammatical Error Correction: A Survey of the State of the Art
Grammatical Error Correction (GEC) is the task of automatically detecting and
correcting errors in text. The task not only includes the correction of
grammatical errors, such as missing prepositions and mismatched subject-verb
agreement, but also orthographic and semantic errors, such as misspellings and
word choice errors respectively. The field has seen significant progress in the
last decade, motivated in part by a series of five shared tasks, which drove
the development of rule-based methods, statistical classifiers, statistical
machine translation, and finally neural machine translation systems which
represent the current dominant state of the art. In this survey paper, we
condense the field into a single article and first outline some of the
linguistic challenges of the task, introduce the most popular datasets that are
available to researchers (for both English and other languages), and summarise
the various methods and techniques that have been developed with a particular
focus on artificial error generation. We next describe the many different
approaches to evaluation as well as concerns surrounding metric reliability,
especially in relation to subjective human judgements, before concluding with
an overview of recent progress and suggestions for future work and remaining
challenges. We hope that this survey will serve as comprehensive resource for
researchers who are new to the field or who want to be kept apprised of recent
developments
Artificial Error Generation with Machine Translation and Syntactic Patterns.
Shortage of available training data is holding back progress in the area of
automated error detection. This paper investigates two alternative methods for
artificially generating writing errors, in order to create additional
resources. We propose treating error generation as a machine translation task,
where grammatically correct text is translated to contain errors. In addition,
we explore a system for extracting textual patterns from an annotated corpus,
which can then be used to insert errors into grammatically correct sentences.
Our experiments show that the inclusion of artificially generated errors
significantly improves error detection accuracy on both FCE and CoNLL 2014
datasets.Comment: The 12th Workshop on Innovative Use of NLP for Building Educational
Applications (BEA 2017
Why We Need New Evaluation Metrics for NLG
The majority of NLG evaluation relies on automatic metrics, such as BLEU . In
this paper, we motivate the need for novel, system- and data-independent
automatic evaluation methods: We investigate a wide range of metrics, including
state-of-the-art word-based and novel grammar-based ones, and demonstrate that
they only weakly reflect human judgements of system outputs as generated by
data-driven, end-to-end NLG. We also show that metric performance is data- and
system-specific. Nevertheless, our results also suggest that automatic metrics
perform reliably at system-level and can support system development by finding
cases where a system performs poorly.Comment: accepted to EMNLP 201
Detecting grammatical errors with treebank-induced, probabilistic parsers
Today's grammar checkers often use hand-crafted rule systems that define acceptable language. The development of such rule systems is labour-intensive and has to be repeated for each language. At the same time, grammars automatically induced from syntactically annotated corpora (treebanks) are successfully employed in other applications, for example text understanding and machine translation. At first glance, treebank-induced grammars seem to be unsuitable for grammar checking as they massively over-generate and fail to reject ungrammatical input due to their high robustness. We present three new methods for judging the grammaticality of a sentence with probabilistic, treebank-induced grammars, demonstrating that such grammars can be successfully applied to automatically judge the grammaticality of an input string. Our best-performing method exploits the differences between parse results for grammars trained on grammatical and ungrammatical treebanks. The second approach builds an estimator of the probability of the most likely parse using grammatical training data that has previously been parsed and annotated with parse probabilities. If the estimated probability of an input sentence (whose grammaticality is to be judged by the system) is higher by a certain amount than the actual parse probability, the sentence is flagged as ungrammatical. The third approach extracts discriminative parse tree fragments in the form of CFG rules from parsed grammatical and ungrammatical corpora and trains a binary classifier to distinguish grammatical from ungrammatical sentences. The three approaches are evaluated on a large test set of grammatical and ungrammatical sentences. The ungrammatical test set is generated automatically by inserting common grammatical errors into the British National Corpus. The results are compared to two traditional approaches, one that uses a hand-crafted, discriminative grammar, the XLE ParGram English LFG, and one based on part-of-speech n-grams. In addition, the baseline methods and the new methods are combined in a machine learning-based framework, yielding further improvements
A methodological approach on the creation of trustful test suites for grammar error detection
Machine translation’s research has been expanding over time and so has the need to
automatically detect and correct errors in texts. As such, Unbabel combines machine translation
with human editors in post-edition to provide high quality translations. In order to assist
post-editors in these tasks, a proprietary error detection tool called Smartcheck was developed by
Unbabel to identify errors and suggest corrections.
The state-of-the-art method of identifying translation errors depends on curated annotated
texts (associated with error-type categories), which are fed to machine translation systems as
their evaluation standard, i.e. the test suites to evaluate a system’s error detection accuracy. It is
commonly assumed that evaluation sets are reliable and representative of the content the systems
translate, leading to the assumption that the root problem usually relates to grammar-checking
rules. However, the issue may instead lie in the quality of the evaluation set. If so, then the
decisions made upon evaluation will possibly even have the opposite effect to the one intended.
Thus, it is of utmost importance to have suitable datasets with representative data of the
structures needed for each system, the same for Smartcheck.
With this in mind, this dissertation developed and implemented a new methodology on
creating reliable and revised test suites to be applied on the evaluation process of MT systems
and error detection tools. Using the resulting curated test suites to evaluate proprietary systems
and tools to Unbabel, it became possible to trust the conclusions and decisions made from said
evaluations. This methodology accomplished robust identification of problematic error types,
grammar-checking rules, and language- and/or register-specific issues, therefore allowing
production measures to be adopted. With Smartcheck’s (now reliable and accurate) correction
suggestions and the improvement on post-edition revision, the work presented hereafter led to an
improvement on the translation quality provided to customers.O presente trabalho focou-se na avaliação do desempenho de uma ferramenta proprietária
da Unbabel, para detecção automática de erros, baseada em segmentos previamente anotados
pela comunidade de anotadores, o Smartcheck. Assim, foi proposta uma metodologia para
criação de um corpus de teste (do inglês test suites) baseado em dados de referência com
estruturas relevantes (do inglês gold data). Deste modo, tornou-se possível melhorar a qualidade
das sugestões de correção de erros do Smartcheck e, consequentemente, das traduções facultadas.
Para além do objetivo inicial, a nova metodologia permitiu assegurar uma avaliação rigorosa,
apropriada e fundamentada relativamente às regras usadas pelo Smartcheck, para identificar
possíveis erros de tradução, assim como avaliar outras ferramentas e sistemas de tradução
automática da Unbabel. Recentemente, assistiu-se também a uma fusão da Lingo24 com a
Unbabel e, por essa razão, os dados presentes no corpus incluem conteúdo traduzido por ambas.
Como tal, o trabalho desenvolvido contribuiu inclusivamente para a recente integração da
Lingo24.
A Secção 2 foi dedicada à apresentação da Unbabel, na qual se referem os processos de
controlo de qualidade utilizados para assegurar níveis de qualidade exigidos e se descreve
pormenorizadamente a ferramenta em foco, o Smartcheck. A Secção 3 focou-se no estado da arte
da Tradução Automática e em processos de controlo de qualidade, dando especial atenção a
corpora de teste e à influência dos mesmos. Além disso, foi também incluída uma descrição
relativa ao desenvolvimento de ferramentas automáticas de deteção e correção de erros, criadas
para aperfeiçoar os textos provenientes de traduções automáticas.
A metodologia criada, descrita na Secção 4, foi dividida em três partes principais:
avaliação piloto relativa às regras preexistentes do Smartcheck; análise de causas de erros (do
inglês root-cause analysis); e, por fim, construção de um novo corpus de teste, com dados mais
recentes e corrigidos.
O primeiro passo na metodologia consistiu na avaliação do desempenho da ferramenta
em foco na presente tese. Para tal, foi realizada uma análise piloto na qual cada regra utilizada
pelo Smartcheck foi avaliada de acordo com métricas comumente aplicadas para avaliação de
sistemas de deteção de erros, como o número de verdadeiros positivos (true positives) - casos em
que o sistema conseguiu corretamente identificar erros -, de falsos negativos (false negatives) -
casos em que existia um erro, mas o sistema não o identificou - e de falsos positivos (false positives) - casos em que o sistema incorretamente considerou existir erros. Outras métricas
utilizadas para avaliação consistiram no cálculo de Precision, Recall, e F1-score, a partir dos
valores obtidos das métricas anteriormente mencionadas. Tendo terminado a avaliação piloto,
concluiu-se que nem todas as regras foram passíveis de avaliação (razão pela qual se tornou
impossível averiguar o desempenho individual para cada regra) e, quanto às que foram avaliadas,
os resultados não foram considerados satisfatórios. Isto porque, as regras não identificavam erros
existentes nas traduções e consideravam como problemáticos inúmeros segmentos
gramaticalmente corretos.
A segunda etapa da metodologia surgiu, então, como tentativa de identificar possíveis
razões pelas quais o Smartcheck e as regras associadas demonstraram um baixo desempenho. Em
vista desse objetivo, foi feita uma análise na qual foi colocada a hipótese de que as regras teriam
sido avaliadas com um corpus de teste não apropriado e obsoleto, explicando assim as métricas
muito baixas da avaliação piloto. Esta hipótese surgiu uma vez que foi não só considerada a
possibilidade de os dados do corpus não serem representativos das traduções feitas atualmente,
mas também pelo facto de as estruturas consideradas problemáticas para os sistemas de tradução
serem alteradas constantemente. De modo a corroborar a hipótese colocada, o corpus foi
analisado com base em variados critérios: qual o tipo de tradução dos dados - se os segmentos
analisados tinham ou não sido previamente revisto por pós-editores antes da respetiva submissão;
existência de segmentos duplicados ou cujo texto de partida (do inglês source text) poderia
conter erros - i.e. dados ruidosos; e revisão das anotações e das severidades associadas a cada
erro, de acordo com tipologias e diretrizes específicas da Unbabel - considerando o número de
anotações/severidades correta e incorretamente atribuídas, assim como em falta. Uma vez
finalizada a análise, concluímos que cerca de 20% dos dados correspondiam a duplicações -
tanto para o registo formal como para o informal -, que entre 15-25% das anotações foram
consideradas incorretas e que apenas metade das severidades foram corretamente atribuídas.
Assim sendo, considerámos que seria mais vantajoso criar um novo corpus representativo e
refinado, ao invés de corrigir todas as anotações incorretas do corpus previamente usado.
O terceiro e último passo da metodologia consistiu na construção de um novo corpus de
teste com 27 500 exemplos previamente anotados de traduções automáticas. Os procedimentos
para a criação deste novo corpus incluíram: filtragem de um conjunto de traduções automáticas,
com dados representativos para todas as línguas suportadas pela Unbabel; distinção entre segmentos dependentes e não dependentes de contexto (uma limitação do corpus prévio);
exclusão de exemplos duplicados e de casos com textos de partida problemáticos; e, por fim,
revisão por parte de linguistas e tradutores das anotações atribuídas, seguindo tipologias
proprietárias. Este último procedimento foi ainda subdividido em: uma avaliação geral, de modo
a garantir que as traduções transmitiam de forma coerente, fluída e apropriada a mensagem do
texto de partida e que, para além disso, seguiam regras específicas para cada língua; uma
avaliação focada em especificidades por cliente, de modo a assegurar diretrizes existentes; e uma
revisão de severidades associadas a cada anotação.
Tendo sido a metodologia dada como terminada, o corpus de teste consistia agora num
conjunto de dados de confiança, capaz de avaliar sistemas de tradução automática e ferramentas
como o Smartcheck de uma forma objetiva e fundamentada. Posto isto, as várias avaliações
realizadas - descritas na Secção 5 - usaram os dados compreendidos no corpus como termo de
comparação. A primeira avaliação teve como objetivo principal comparar os resultados obtidos
na análise piloto quanto às regras do Smartcheck com os resultados de uma nova avaliação das
mesmas usando o novo corpus de teste, de forma a chegar a conclusões mais fiáveis e credíveis.
A partir desta, foi possível concluir não só que, contrariamente às conclusões anteriores, todas as
regras são agora passíveis de avaliação, mas também que o número de casos em que o
Smartcheck incorretamente identificava segmentos como problemáticos foi reduzido. A
avaliação seguinte comparou anotações recorrendo a uma matriz de confusão (do inglês
confusion matrix) entre previsões concedidas tanto pelo Smartcheck como pelo corpus de teste.
Deste modo, foi possível identificar quais os tipos de erros mais frequentes e quais os tipos mais
(e menos) problemáticos de identificar pelo sistema. Assim, o corpus de teste foi considerado
como gold standard de modo a realizar uma avaliação global do Smartcheck, calculando o
número total de falsos positivos (atingindo cerca de 45%), falsos negativos (com 35%) e
verdadeiros positivos (aproximadamente 20%). Quanto aos verdadeiros positivos, estes foram
divididos em dois tipos: segmentos corretamente identificados pelo Smartcheck como erro, mas
que foram classificados incorretamente (cerca de 11%); e erros em que tanto a extensão como a
classificação foram atribuídas corretamente (a rondar os 8% do número total de anotações). A
terceira e última análise recorreu aos totais obtidos na avaliação anterior para calcular valores
para métricas como Precision, Recall e F1-score para cada língua e para cada registo suportado.
Desta forma, foi possível concluir que, quanto à primeira métrica, a média entre registos estava bastante equilibrada, mas o mesmo não se verificou em Recall nem F1-score, uma vez que o
registo formal atingiu valores superiores. Para além disso, recorremos ainda ao corpus para
avaliar spell checkers usados pela Unbabel e, analisando os resultados obtidos, pudemos concluir
que o spell checker em uso obteve a avaliação mais baixa. Tendo isto em conta, foi decidido que
seria então preferível substituí-lo pelo spell checker com a melhor avaliação, de modo a reduzir o
número de erros nas traduções e assim melhorar a qualidade das mesmas.
Todo o trabalho realizado pôde ser implementado em vários outros campos para além do
inicialmente estabelecido, i.e. para além da avaliação sistemática da ferramenta Smartcheck.
Demonstrando, deste modo, todo o impacto que uma análise bem fundamentada pode ter no
processo de tomada de decisão. Isto porque, sem um corpus de teste representativo e estruturado,
as avaliações feitas não seriam válidas e os resultados obtidos facilmente levariam a conclusões
impróprias ou até nocivas para o desenvolvimento dos sistemas e ferramentas em questão
Recommended from our members
Neural Sequence-Labelling Models for Grammatical Error Correction
We propose an approach to N-best list reranking
using neural sequence-labelling
models. We train a compositional model
for error detection that calculates the probability
of each token in a sentence being
correct or incorrect, utilising the full sentence
as context. Using the error detection
model, we then re-rank the N best
hypotheses generated by statistical machine
translation systems. Our approach
achieves state-of-the-art results on error
correction for three different datasets, and
it has the additional advantage of only using
a small set of easily computed features
that require no linguistic input
- …