480 research outputs found
Towards standardizing Korean Grammatical Error Correction: Datasets and Annotation
Research on Korean grammatical error correction (GEC) is limited compared to
other major languages such as English and Chinese. We attribute this
problematic circumstance to the lack of a carefully designed evaluation
benchmark for Korean. Thus, in this work, we first collect three datasets from
different sources (Kor-Lang8, Kor-Native, and Kor-Learner) to cover a wide
range of error types and annotate them using our newly proposed tool called
Korean Automatic Grammatical error Annotation System (KAGAS). KAGAS is a
carefully designed edit alignment & classification tool that considers the
nature of Korean on generating an alignment between a source sentence and a
target sentence, and identifies error types on each aligned edit. We also
present baseline models fine-tuned over our datasets. We show that the model
trained with our datasets significantly outperforms the public statistical GEC
system (Hanspell) on a wider range of error types, demonstrating the diversity
and usefulness of the datasets.Comment: Add affiliation and email addres
Translation error annotation : building an annotation module for east asian languages
In this thesis it is proposed an annotation module to be applied in the context of Machine
Translation (MT) concerning the East Asian languages of Japanese, Korean and Mandarin for the
purpose of assessing MT output quality through annotation. The annotation module was created
based on a data-driven analysis over Customer Support content in these languages previously
annotated with the Unbabel Error Typology, which is a general typology in the sense that it is not
conceived for any specific groups of languages. As such, this work also explores how applying
translation error typologies inadequate to certain languages or content types can have an impact
on how annotation reflects the quality of a translation.
For the purpose of testing the effectiveness of the proposed annotation module, an
annotation experiment for the languages under analysis was conducted. This experiment
consisted of, for each language, annotating the same content using three different error
typologies: the Unbabel Error Typology, the MQM-compliant error taxonomy for the translation
direction of English to Chinese proposed by Ye and Toral (2020) and the annotation module
proposed on this thesis. Furthermore, each dataset was annotated by two annotators. This
allowed a comparison of Inter-annotator agreement (IAA) scores, which constitutes an important
metric in terms of evaluating the effectiveness of an error typology.
In light of this, each of the tested typologies was analyzed based on the obtained IAA
scores and a further in-depth analysis of concrete annotations which lead to an understanding
over their strengths and limitations.
With this work it was possible to demonstrate that, if on one hand using error typologies
inadequate for the content annotated has a negative impact on the quality of said annotations, on
the other hand applying an error typology specific to the content being annotated can result in
more consistent annotations.O trabalho desenvolvido no âmbito desta tese teve como objetivo principal a criação de
um módulo de anotação para erros de tradução no contexto da Tradução Automática (TA) que
fosse aplicável a Japonês, Coreano e Mandarim e compatível com o Multidimensional Quality
Metrics (MQM) framework (Lommel et al., 2014). Este módulo foi criado com base numa
análise de dados reais sobre traduções previamente anotadas dentro da empresa Unbabel
seguindo uma tipologia geral concebida para anotação de vários pares linguísticos sem foco em
grupos de línguas específicos. Ao mesmo tempo que permitiu verificar as consequências de
anotar erros com uma tipologia pouco adequada à língua ou ao conteúdo traduzido, esta análise
constituiu um ponto de partida importante para a criação do módulo de anotação proposto nesta
tese.
A Secção 2 desta tese concentrou-se em apresentar a Unbabel como instituição e os
processos de qualidade em vigor dentro da empresa. A Secção 3 focou-se em apresentar o estado
da arte em TA e processos de qualidade, com atenção especial às línguas sob análise nesta tese,
bem como as tipologias de anotação de erros de tradução utilizadas para comparação de
resultados.
A análise dos dados disponíveis, descrita na Secção 4, foi feita em duas fases principais.
Na primeira fase foi analisado um conjunto de 342 segmentos correspondentes ao par linguístico
Inglês-Chinês (Simplificado), previamente anotados com a Unbabel Error Typology, a tipologia
para anotação de erros de tradução utilizada para todos os pares linguísticos até junho de 2022.
Esta análise demonstrou que uma percentagem significativa dos erros cometidos durante o
processo de anotação podiam ser atribuídos não só à falta de claridade das diretrizes de anotação
relativamente a características específicas presentes neste par linguístico como também à falta de
alguns tipos de erros na tipologia. Na segunda fase de análise de dados foi possível confirmar e
fundamentar a existência destes problemas. Nesta fase foi analisada uma amostra de dados mais
abrangente que incluiu quatro pares linguísticos: Inglês-Japonês, Inglês-Coreano, Inglês-Chinês
(Simplificado) e Inglês-Chinês (Tradicional). Para cada par linguístico foi analisado um total de
cerca de 570 a 1900 segmentos e, com a exceção de Inglês-Coreano, todos os dados
correspondiam às anotações de mais de um anotador. Esta análise permitiu concluir que os
anotadores de todos os pares linguísticos mencionados cometeram vários erros, em especial no processo de escolha da categoria certa para cada erro de tradução mas também relativamente à
seleção dos erros e atribuição da severidade certa a cada um.
Através dos dados analisados foi possível determinar que tipos de erros seria necessário
incluir numa tipologia de anotação de erros de tradução adaptada às línguas mencionadas e que
tipo de instruções deveriam ser clarificadas nas diretrizes de anotação. Deste modo, após a
conclusão da segunda fase de análise de dados foi possível começar a criar o módulo de anotação
proposto nesta tese, denominado East Asian Languages Annotation Module for the Unbabel
Quality Framework.
O East Asian Languages Annotation Module for the Unbabel Quality Framework foi
criado à imagem da Unbabel Error Typology e adaptado às características da nova versão que
entrou em vigor na empresa em junho de 2022. No entanto, devido ao facto de ser um módulo de
anotação adaptado às línguas asiáticas previamente mencionadas, várias categorias de erros
existentes na Unbabel Error Typology foram removidos devido a corresponderem a componentes
linguísticos que não fazem parte das línguas em questão. Do mesmo modo, foi adicionado um
total de cinco novos tipos de erros ao módulo com base no que foi julgado necessário durante a
fase de análise de dados. A versão final do East Asian Languages Annotation Module for the
Unbabel Quality Framework conta com um total de 39 tipos de erros, em contraste com os 47
que fazem parte da Unbabel Error Typology. De forma complementar à criação do módulo de
anotação foram também elaboradas diretrizes específicas para o módulo que, para além da
definição de cada tipo de erro com exemplos, incluem também uma secção dedicada a casos
difíceis (Tricky Cases) e esquemas (Decision Trees) para auxiliar na escolha da severidade e tipo
de erro adequado para cada caso.
Após a criação do módulo de anotação foi necessário testar se o mesmo pode ser aplicado
com sucesso. Para este fim foi levado a cabo um estudo de comparação entre o East Asian
Languages Annotation Module for the Unbabel Quality Framework e duas outras tipologias,
descrito na Secção 5. Assim, foram conduzidas três fases de anotação com cerca de um mês de
intervalo entre cada. Para cada tipologia dois anotadores por par linguístico anotaram entre 1100
e 4900 palavras cada um e, de modo a obter uma comparação precisa, dentro de cada par
linguístico o conteúdo anotado com cada tipologia manteve-se o mesmo.
A primeira fase de anotações foi efetuada utilizando a Unbabel Error Typology. Devido
ao facto de os anotadores já estarem familiarizados com esta tipologia e já possuírem as diretrizes de anotação relativas à mesma, não foi necessário prestar apoio adicional aos
anotadores nesta fase.
A segunda ronda de anotações foi levada a cabo com a tipologia para anotação de erros
de tradução para o par linguístico Inglês-Mandarim proposta por Ye e Toral (2020). Para esta
fase de anotação foram criadas diretrizes específicas para esta tipologia com base no trabalho
desenvolvido por Ye e Toral (2020) de modo a facilitar o processo de anotação. É importante
referir que, apesar de esta tipologia ter sido criada para anotação de erros de tradução para o par
linguístico Inglês-Mandarim, durante a fase de teste das tipologias esta foi utilizada para anotar
todos os quatro pares linguísticos a serem analisados. Além disso, devido ao facto de ser uma
tipologia nova, durante esta fase foi mantida a comunicação com os anotadores para
esclarecimento de dúvidas. É necessário salientar que esta tipologia também foi importante na
criação do East Asian Languages Annotation Module devido ao facto de conter tipos de erros
específicos em relação à anotação do par linguístico para o qual foi criada e que serviram de base
para novos tipos de erros propostos no módulo de anotação.
A terceira e última fase de anotação foi feita com o East Asian Languages Annotation
Module for the Unbabel Quality Framework proposto nesta tese. Nesta fase foram fornecidas aos
anotadores as diretrizes que foram criadas de forma complementar ao módulo e, tal como
durante a segunda fase, foi dada aos anotadores a possibilidade de comunicar as suas dúvidas.
Os resultados das três fases de anotação descritas acima foram analisados da perspetiva
do nível de acordo entre os anotadores, medido através da metodologia de Inter-annotator
Agreement (IAA), em contraste com os valores equivalentes da métrica manual de qualidade
MQM (Lommel et al., 2014), bem como através de uma análise detalhada das anotações de
ambos anotadores para todos os pares linguísticos. No contexto da testagem de tipologias de
anotação de erros de tradução uma análise dos valores de IAA obtidos, pois um elevado nível de
concordância entre os anotadores reflete a clareza de uma tipologia. Adicionalmente, a análise
detalhada das anotações em consonância com os valores de IAA permite avaliar que fatores
influenciam a flutuação dos mesmos. Adicionalmente, o feedback que os anotadores forneceram
em relação a cada tipologia também foi alvo de reflexão em contraste com os resultados obtidos.
Deste modo, com a combinação de todos estes dados foi possível determinar os pontos fortes e
as fraquezas de cada tipologia bem como entender que direção deverá seguir o trabalho futuro em torno do East Asian Languages Annotation Module for the Unbabel Quality Framework em
termos do seu aperfeiçoamento.
Com este trabalho foi possível demonstrar o impacto negativo de utilizar uma tipologia
de erros pouco adequada ao conteúdo a ser anotado bem como provar que, por outro lado, uma
tipologia criada para a anotação de um grupo específico de línguas pode melhorar a consistência
das anotações relativas a componentes linguísticos próprios das línguas para as quais a tipologia
é direcionada
Building the Arabic Learner Corpus and a System for Arabic Error Annotation
Recent developments in learner corpora have highlighted the growing role they play in some linguistic and computational research areas such as language teaching and natural language processing. However, there is a lack of a well-designed Arabic learner corpus that can be used for studies in the aforementioned research areas.
This thesis aims to introduce a detailed and original methodology for developing a new learner corpus. This methodology which represents the major contribution of the thesis includes a combination of resources, proposed standards and tools developed for the Arabic Learner Corpus project. The resources include the Arabic Learner Corpus, which is the largest learner corpus for Arabic based on systematic design criteria. The resources also include the Error Tagset of Arabic that was designed for annotating errors in Arabic covering 29 types of errors under five broad categories.
The Guide on Design Criteria for Learner Corpus is an example of the proposed standards which was created based on a review of previous work. It focuses on 11 aspects of corpus design criteria. The tools include the Computer-aided Error Annotation Tool for Arabic that provides some functions facilitating error annotation such as the smart-selection function and the auto-tagging function. Additionally, the tools include the ALC Search Tool that is developed to enable searching the ALC and downloading the source files based on a number of determinants.
The project was successfully able to recruit 992 people including language learners, data collectors, evaluators, annotators and collaborators from more than 30 educational institutions in Saudi Arabia and the UK. The data of the Arabic Learner Corpus was used in a number of projects for different purposes including error detection and correction, native language identification, Arabic analysers evaluation, applied linguistics studies and data-driven Arabic learning. The use of the ALC highlights the extent to which it is important to develop this project
Problems in Evaluating Grammatical Error Detection Systems
ABSTRACT Many evaluation issues for grammatical error detection have previously been overlooked, making it hard to draw meaningful comparisons between different approaches, even when they are evaluated on the same corpus. To begin with, the three-way contingency between a writer's sentence, the annotator's correction, and the system's output makes evaluation more complex than in some other NLP tasks, which we address by presenting an intuitive evaluation scheme. Of particular importance to error detection is the skew of the data -the low frequency of errors as compared to non-errors -which distorts some traditional measures of performance and limits their usefulness, leading us to recommend the reporting of raw measurements (true positives, false negatives, false positives, true negatives). Other issues that are particularly vexing for error detection focus on defining these raw measurements: specifying the size or scope of an error, properly treating errors as graded rather than discrete phenomena, and counting non-errors. We discuss recommendations for best practices with regard to reporting the results of system evaluation for these cases, recommendations which depend upon making clear one's assumptions and applications for error detection. By highlighting the problems with current error detection evaluation, the field will be better able to move forward
A spoken Chinese corpus : development, description, and application in L2 studies : a thesis presented in partial fulfilment of the requirements for the degree of Doctor of Philosophy in Applied Linguistics at Massey University, Manawatū, New Zealand
This thesis introduces a corpus of present-day spoken Chinese, which contains over 440,000 words of orthographically transcribed interactions. The corpus is made up of an L1 corpus and an L2 corpus. It includes data gathered in informal contexts in 2018, and is, to date, the first Chinese corpus resource of its kind investigating non-test/task-oriented dialogical interaction of L2 Chinese. The main part of the thesis is devoted to a detailed account of the compilation of the spoken Chinese corpus, including its design, the data collection, and transcription. In doing this, this study attempts to answer the question: what are the key considerations in building a spoken Chinese corpus of informal interaction, especially in building a spoken L2 corpus of L1–L2 interaction? Then, this thesis compares the L1 corpus and the L2 corpus before using them to carry out corpus studies. Differences between and within the two subcorpora are discussed in some detail. This corpus comparison is essential to any L1–L2 comparative studies conducted on the basis of the spoken Chinese corpus, and it addresses the question: to what extent is the L1 corpus comparable to the L2 corpus? Finally, this thesis demonstrates the research potential of the spoken Chinese corpus, by presenting an analysis of the L2 use of the discourse marker 就是 jiushi in comparison with the L1 use. Analysis considers mainly the contribution就是 jiushi makes as a reformulation marker to utterance interpretation within the relevance theoretic framework. To do this, it seeks to answer the question: what are the features that characterise the L2 use of the marker 就是 jiushi in informal speech?
The results of this study make several useful contributions to the academic community. First of all, the spoken Chinese corpus is available to the academic community through the website, so it is expected the corpus itself will be of use to researchers, Chinese teachers, and students who are interested in spoken Chinese. In addition to the obtainable data, this thesis presents transparent accounts of each step of the compilation of both the L1 and L2 corpora. As a result, decisions and strategies taken with regard to the procedures of spoken corpus design and construction can provide some valuable suggestions to researchers who want to build their own spoken Chinese corpora. Finally, the findings of the comparative analysis of the L2 use of the marker 就是 jiushi will contribute to research on the teaching and learning of interactive spoken Chinese
Proceedings
Proceedings of the Ninth International Workshop
on Treebanks and Linguistic Theories.
Editors: Markus Dickinson, Kaili Müürisep and Marco Passarotti.
NEALT Proceedings Series, Vol. 9 (2010), 268 pages.
© 2010 The editors and contributors.
Published by
Northern European Association for Language
Technology (NEALT)
http://omilia.uio.no/nealt .
Electronically published at
Tartu University Library (Estonia)
http://hdl.handle.net/10062/15891
- …