225 research outputs found
Recommended from our members
Deep Learning for Automatic Assessment and Feedback of Spoken English
Growing global demand for learning a second language (L2), particularly English, has led to
considerable interest in automatic spoken language assessment, whether for use in computerassisted language learning (CALL) tools or for grading candidates for formal qualifications.
This thesis presents research conducted into the automatic assessment of spontaneous nonnative English speech, with a view to be able to provide meaningful feedback to learners. One
of the challenges in automatic spoken language assessment is giving candidates feedback on
particular aspects, or views, of their spoken language proficiency, in addition to the overall
holistic score normally provided. Another is detecting pronunciation and other types of errors
at the word or utterance level and feeding them back to the learner in a useful way.
It is usually difficult to obtain accurate training data with separate scores for different
views and, as examiners are often trained to give holistic grades, single-view scores can
suffer issues of consistency. Conversely, holistic scores are available for various standard
assessment tasks such as Linguaskill. An investigation is thus conducted into whether
assessment scores linked to particular views of the speaker’s ability can be obtained from
systems trained using only holistic scores.
End-to-end neural systems are designed with structures and forms of input tuned to single
views, specifically each of pronunciation, rhythm, intonation and text. By training each
system on large quantities of candidate data, individual-view information should be possible
to extract. The relationships between the predictions of each system are evaluated to examine
whether they are, in fact, extracting different information about the speaker. Three methods
of combining the systems to predict holistic score are investigated, namely averaging their
predictions and concatenating and attending over their intermediate representations. The
combined graders are compared to each other and to baseline approaches.
The tasks of error detection and error tendency diagnosis become particularly challenging
when the speech in question is spontaneous and particularly given the challenges posed by
the inconsistency of human annotation of pronunciation errors. An approach to these tasks is
presented by distinguishing between lexical errors, wherein the speaker does not know how a
particular word is pronounced, and accent errors, wherein the candidate’s speech exhibits
consistent patterns of phone substitution, deletion and insertion. Three annotated corpora
x
of non-native English speech by speakers of multiple L1s are analysed, the consistency of
human annotation investigated and a method presented for detecting individual accent and
lexical errors and diagnosing accent error tendencies at the speaker level
Proceedings
Proceedings of the Ninth International Workshop
on Treebanks and Linguistic Theories.
Editors: Markus Dickinson, Kaili Müürisep and Marco Passarotti.
NEALT Proceedings Series, Vol. 9 (2010), 268 pages.
© 2010 The editors and contributors.
Published by
Northern European Association for Language
Technology (NEALT)
http://omilia.uio.no/nealt .
Electronically published at
Tartu University Library (Estonia)
http://hdl.handle.net/10062/15891
Compiling and annotating a learner corpus for a morphologically rich language: CzeSL, a corpus of non-native Czech
Learner corpora, linguistic collections documenting a language as used by learners, provide an important empirical foundation for language acquisition research and teaching practice. This book presents CzeSL, a corpus of non-native Czech, against the background of theoretical and practical issues in the current learner corpus research. Languages with rich morphology and relatively free word order, including Czech, are particularly challenging for the analysis of learner language. The authors address both the complexity of learner error annotation, describing three complementary annotation schemes, and the complexity of description of non-native Czech in terms of standard linguistic categories. The book discusses in detail practical aspects of the corpus creation: the process of collection and annotation itself, the supporting tools, the resulting data, their formats and search platforms. The chapter on use cases exemplifies the usefulness of learner corpora for teaching, language acquisition research, and computational linguistics. Any researcher developing learner corpora will surely appreciate the concluding chapter listing lessons learned and pitfalls to avoid
Extrinsic Summarization Evaluation: A Decision Audit Task
Abstract. In this work we describe a large-scale extrinsic evaluation of automatic speech summarization technologies for meeting speech. The particular task is a decision audit, wherein a user must satisfy a complex information need, navigating several meetings in order to gain an understanding of how and why a given decision was made. We compare the usefulness of extractive and abstractive technologies in satisfying this information need, and assess the impact of automatic speech recognition (ASR) errors on user performance. We employ several evaluation methods for participant performance, including post-questionnaire data, human subjective and objective judgments, and an analysis of participant browsing behaviour.
Analysis on the impact of the source text quality: Building a data-driven typology
In this study we propose a typology which concerns source errors and linguistic
structures that might have an impact on Machine Translation (MT). Although most typologies
are built on a bilingual level, the source text (ST) also presents issues that cannot be expected
to be resolved by MT. In this study, we were able to test whether or not the quality of the ST
has an impact on the target text (TT) quality.
For that purpose, source data was annotated. The data analyzed was both inbound
(user-generated content) and outbound (agent) in the context of chat. Through this analysis, it
was possible to build a data driven typology. To aid the construction of a new typology, there
was also a comparison between multiple typologies, whether they have a bilingual or a
monolingual focus. This allowed us to see what could be applied to a monolingual typology
and what was missing. With the annotation results, it was possible to build a new typology —
Source Typology.
To assist future annotators, we provided annotation guidelines with a listing of all the
issue types, an explanation of the different span types, the severities to be used and the tricky
cases that might occur during the annotation process.
In order to test the reliability of the typology, three different case studies of an internal
pilot were conducted. Each case study had a different goal and took into account different
language pairs. By testing the Source Typology, we could see its effectiveness and reliability
and what should be improved.
In the end, we demonstrated that the quality of the ST can actually have an impact on
the TT quality, where, at times, minor errors on the source would become or originate critical
errors on the target. The typology is now being applied at Unbabel.Neste trabalho propõe-se uma tipologia do texto de partida (do inglês, Source
Typology) que considera erros no texto de partida (TP) e estruturas linguísticas que têm
impacto na tradução automática (TA). Embora a maioria das tipologias seja construída tendo
em conta um nível bilíngue, o TP também apresenta problemas que não conseguem ser
previstos pela TA. Neste trabalho, foi possível testar se a qualidade do TP tem ou não
impacto na qualidade do texto de chegada (TC) e como aferir objetivamente esse mesmo
impacto.
Inicialmente, foi efetuada uma comparação com diferentes tipologias de anotação de
erros, quer estas considerassem um nível bilíngue ou monolíngue (e.g., TAUS MQM-DQF
Typology, MQM Top-Level e SCATE MT error taxonomy, tipologias que serão apresentadas
na Secção 2.4). Esta comparação possibilitou verificar as semelhanças e diferenças entre si e
também quais as classes de erros previamente utilizadas.
De forma a ter mais informações sobre este tema, foi realizada uma análise de dados
do TP. Os dados foram analisados em contexto do conteúdo de chat e produzidos por
utilizadores e agentes. Esta análise foi realizada através do processo de anotação. Este
processo permite a identificação e categorização de erros e difere conforme as diretrizes
apresentadas. Nesta primeira fase, o processo de anotação foi efetuado na plataforma
Annotation Tool com a Tipologia de Erros da Unbabel. Uma vez que esta tipologia foi
construída num contexto bilíngue, verificaram-se quais os erros que também sucediam no TP.
Além disso, foi possível averiguar, nesta análise, quais eram os erros mais comuns no
TP e examinar as diferenças entre um utilizador e um agente. A linguagem de chat é bastante
específica, trazendo consigo simultaneamente as características da escrita e do diálogo.
Enquanto o utilizador tem uma linguagem menos cuidada, algo que dá origem a diferentes
tipos de erros, o agente tem de seguir um guião com soluções pré-definidas, atendendo
sempre a restrições de tempo. Para além destes restringimentos, os agentes ainda têm de lidar
com o facto de, na sua maioria, não serem nativos da língua inglesa, aquela que lhes é
requerida no apoio ao cliente, e de ter condições de vida precárias.
Esta análise foi efetuada através de uma das métricas manuais de qualidade mais
amplamente utilizada na área da TA — Multidimensional Quality Metric (MQM) — proposta
no projeto QTLaunchPad (2014), financiado pela União Europeia. Assim, os resultados do processo de anotação foram convertidos de modo quantificável, para aferir a qualidade do TP.
Através desta análise, foi possível criar uma tipologia baseada em dados.
Com os resultados desta análise, foi possível produzir uma nova tipologia — a Source
Typology. Para auxiliar futuros anotadores desta tipologia, foram fornecidas diretrizes para o
processo de anotação com a listagem de todas as classes de erros (incluindo as novas
adições), esclarecimentos quanto aos tipos de segmentos conforme a anotação pretendida, as
severidades utilizadas e os casos complicados que podem surgir durante o processo de
anotação. De forma a clarificar esta última secção, também foram fornecidas duas árvores de
decisão, uma delas a assistir na classificação de erros ou de estruturas linguísticas e outra a
assistir na escolha da severidade adequada.
De modo a comprovar a fiabilidade da tipologia, foi realizado um piloto com três
estudos distintos, com um total de 26855 palavras, 2802 erros e 239 estruturas linguísticas
(representadas na severidade ‘Neutra’ — associadas a marcadores discursivos, disfluências,
emojis, etc., mecanismos característicos do discurso oral) anotados. Cada um dos estudos
realizados no piloto abrangeu diferentes objetivos e teve em conta distintos pares de línguas.
Em todos os estudos realizou-se uma análise para verificar se os erros encontrados no TP
tinham sido originados ou transferidos para o TC e se as estruturas linguísticas com a
severidade ‘Neutra’ tiveram ou não algum impacto nos sistemas de TA.
O primeiro estudo, PT-BR_EN inbounds, focou-se em PT-BR_EN e considerou textos
produzidos por utilizadores. Este estudo foi realizado tendo em conta diferentes clientes da
Unbabel. Neste estudo a língua de partida (LP) utilizada foi o português do Brasil e a língua
de chegada (LC) foi o inglês. O valor de MQM no TP foi elevado (72.26), pois os erros mais
frequentes eram erros de tipografia, ou seja, de baixa severidade. Contudo, ao comparar com
o valor de MQM no TC, houve uma grande disparidade. No TC houve muitos erros críticos,
algo que não seria de esperar, dada a qualidade do TP. Esta discrepância implicou uma análise
mais aprofundada. Desta análise, verificou-se que 34 erros presentes no TP tinham sido
transferidos para o TC, 29 erros no TP deram origem a outros erros no TC e houve 9
estruturas neutras que tiveram impacto no TC. Ao examinar diferentes exemplos, observou-se
que grande parte dos erros de baixa severidade e as 9 estruturas neutras no TP resultaram em
erros críticos no TC.
O segundo estudo, Agent Annotation, concentrou-se em textos em inglês produzidos
por agentes da área de apoio ao cliente. É importante referir que o inglês não é “nativo”. Ao contrário do primeiro estudo, este derivou apenas de um cliente, uma vez que os dados dos
agentes são dependentes dos clientes específicos e de guiões fornecidos por cada cliente em
particular. Neste estudo foram utilizadas duas línguas, o inglês como LP e o francês como
LC. Ao contrário do primeiro estudo, o valor de MQM do TC foi mais elevado do que o valor
resultante do TP. Porém, também foi realizada a mesma análise neste estudo. 59 erros
encontrados no TP foram transferidos para o TC e 40 erros no TP originaram novos erros no
TC. Uma grande diferença entre o primeiro e segundo estudo foi de nenhuma estrutura neutra
no TP ter tido impacto no TC.
O último estudo, Multilingual internal pilot, foi o mais extenso de todos por incluir
várias línguas e vários anotadores, tendo em conta tanto o lado do utilizador como o do
agente. Relativamente aos estudos prévios, este estudo foi realizado numa escala bem mais
alargada. As línguas anotadas neste estudo foram: holandês, italiano, espanhol europeu,
português do Brasil, romeno, polaco, alemão e inglês. Os valores de MQM em cada língua
diferem de acordo com as diferenças entre línguas e os erros encontrados. Observou-se, nesta
análise, que o número de erros foi superior ao número de segmentos, o que significa que, por
média, cada segmento apresentava mais do que um erro. Neste estudo, as estruturas neutras
com impacto no TC foram divididas por classes e não por línguas devido à extensão de erros.
Conjuntamente, também foram apresentadas as suas formas corretas nas LC. O mesmo
processo foi realizado para os erros críticos encontrados no TP. Ao longo da análise, também
se verificou que algumas classes de erros não foram anotadas de forma correta ou que não
foram anotadas quando eram necessárias. Este fenómeno permitiu logo verificar a eficiência
da tipologia e das suas diretrizes. Desse modo, são apresentados os casos em que essas
situações surgiram e as razões por detrás do sucedido. Para uma análise mais completa,
também foi investigado se estes casos tiveram algum impacto no TC. Das 44 estruturas
neutras que não foram anotadas no TP, 10 delas tiveram, de facto, impacto no TC.
Ao testar a Source Typology, foi permitido ratificar a sua eficiência e a fiabilidade e o
que deve ser melhorado. A eficácia da tipologia foi avaliada através do Inter-annotator
Agreement (IAA), uma metodologia que permite identificar ambiguidades e falhas que
resultaram do processo de anotação. O IAA possibilita averiguar se houve ou não
concordância entre os anotadores, como também a concordância que os anotadores tiveram
consigo mesmos. Outra particularidade do IAA é verificar se os anotadores das mesmas
línguas têm a mesma noção de extensão de um erro ou estrutura linguística. Instruções quanto a este tópico foram explicitadas nas diretrizes, mas ainda pode haver dúvidas sobre este
processo de segmentação de erros. Assim, surge uma oportunidade para melhorar essa secção
nas diretrizes.
Por fim, através destes estudos foi demonstrado que a qualidade do TP tem, de facto,
impacto na qualidade do TC, em que, por vezes, erros mínimos encontrados no TP se tornam
ou originam erros críticos no TC. Estes estudos também permitiram perceber quais os erros
cometidos pelos utilizadores e os agentes e a diferença entre eles e, ao mesmo tempo, validar
a tipologia, que está em produção na Unbabel
Essential Speech and Language Technology for Dutch: Results by the STEVIN-programme
Computational Linguistics; Germanic Languages; Artificial Intelligence (incl. Robotics); Computing Methodologie
Metadiscourse Tagging in Academic Lectures
This thesis presents a study into the nature and structure of academic lectures, with a special focus on metadiscourse phenomena. Metadiscourse refers to a set of linguistics expressions that signal specific discourse functions such as the Introduction: “Today we will talk about...” and Emphasising: “This is an important point”. These functions are important because they are part of lecturers’ strategies in understanding of what happens in a lecture. The knowledge of their presence and identity could serve as initial steps toward downstream applications that will require functional analysis of lecture content such as a browser for lectures archives, summarisation, or an automatic minute-taker for lectures. One challenging aspect for metadiscourse detection and classification is that the set of expressions are semi-fixed, meaning that different phrases can indicate the same function.
To that end a four-stage approach is developed to study metadiscourse in academic lectures. Firstly, a corpus of metadiscourse for academic lectures from Physics and Economics courses is built by adapting an existing scheme that describes functional-oriented metadiscourse categories. Second, because producing reference transcripts is a time-consuming task and prone to some errors due to the manual efforts required, an automatic speech recognition (ASR) system is built specifically to produce transcripts of lectures. Since the reference transcripts lack time-stamp information, an alignment system is applied to the reference to be able to evaluate the ASR system. Then, a model is developed using Support Vector Machines (SVMs) to classify metadiscourse tags using both textual and acoustical features. The results show that n-grams are the most inductive features for the task; however, due to data sparsity the model does not generalise for unseen n-grams. This limits its ability to solve the variation issue in metadiscourse expressions. Continuous Bag-of-Words (CBOW) provide a promising solution as this can capture both the syntactic and semantic similarities between words and thus is able to solve the generalisation issue. However, CBOW ignores the word order completely, something which is very important to be retained when classifying metadiscourse tags.
The final stage aims to address the issue of sequence modelling by developing a joint CBOW and Convolutional Neural Network (CNN) model. CNNs can work with continuous features such as word embedding in an elegant and robust fashion by producing a fixed-size feature vector that is able to identify indicative local information for the tagging task. The results show that metadiscourse tagging using CNNs outperforms the SVMs model significantly even on ASR outputs, owing to its ability to predict a sequence of words that is more representative for the task regardless of its position in the sentence. In addition, the inclusion of other features such as part-of-speech (POS) tags and prosodic cues improved the results further. These findings are consistent in both disciplines.
The final contribution in this thesis is to investigate the suitability of using metadiscourse tags as discourse features in the lecture structure segmentation model, despite the fact that the task is approached as a classification model and most of the state-of-art models are unsupervised. In general, the obtained results show remarkable improvements over the state-of-the-art models in both disciplines
- …