225 research outputs found

    Proceedings

    Get PDF
    Proceedings of the Ninth International Workshop on Treebanks and Linguistic Theories. Editors: Markus Dickinson, Kaili Müürisep and Marco Passarotti. NEALT Proceedings Series, Vol. 9 (2010), 268 pages. © 2010 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/15891

    Compiling and annotating a learner corpus for a morphologically rich language: CzeSL, a corpus of non-native Czech

    Get PDF
    Learner corpora, linguistic collections documenting a language as used by learners, provide an important empirical foundation for language acquisition research and teaching practice. This book presents CzeSL, a corpus of non-native Czech, against the background of theoretical and practical issues in the current learner corpus research. Languages with rich morphology and relatively free word order, including Czech, are particularly challenging for the analysis of learner language. The authors address both the complexity of learner error annotation, describing three complementary annotation schemes, and the complexity of description of non-native Czech in terms of standard linguistic categories. The book discusses in detail practical aspects of the corpus creation: the process of collection and annotation itself, the supporting tools, the resulting data, their formats and search platforms. The chapter on use cases exemplifies the usefulness of learner corpora for teaching, language acquisition research, and computational linguistics. Any researcher developing learner corpora will surely appreciate the concluding chapter listing lessons learned and pitfalls to avoid

    Extrinsic Summarization Evaluation: A Decision Audit Task

    Get PDF
    Abstract. In this work we describe a large-scale extrinsic evaluation of automatic speech summarization technologies for meeting speech. The particular task is a decision audit, wherein a user must satisfy a complex information need, navigating several meetings in order to gain an understanding of how and why a given decision was made. We compare the usefulness of extractive and abstractive technologies in satisfying this information need, and assess the impact of automatic speech recognition (ASR) errors on user performance. We employ several evaluation methods for participant performance, including post-questionnaire data, human subjective and objective judgments, and an analysis of participant browsing behaviour.

    Analysis on the impact of the source text quality: Building a data-driven typology

    Get PDF
    In this study we propose a typology which concerns source errors and linguistic structures that might have an impact on Machine Translation (MT). Although most typologies are built on a bilingual level, the source text (ST) also presents issues that cannot be expected to be resolved by MT. In this study, we were able to test whether or not the quality of the ST has an impact on the target text (TT) quality. For that purpose, source data was annotated. The data analyzed was both inbound (user-generated content) and outbound (agent) in the context of chat. Through this analysis, it was possible to build a data driven typology. To aid the construction of a new typology, there was also a comparison between multiple typologies, whether they have a bilingual or a monolingual focus. This allowed us to see what could be applied to a monolingual typology and what was missing. With the annotation results, it was possible to build a new typology — Source Typology. To assist future annotators, we provided annotation guidelines with a listing of all the issue types, an explanation of the different span types, the severities to be used and the tricky cases that might occur during the annotation process. In order to test the reliability of the typology, three different case studies of an internal pilot were conducted. Each case study had a different goal and took into account different language pairs. By testing the Source Typology, we could see its effectiveness and reliability and what should be improved. In the end, we demonstrated that the quality of the ST can actually have an impact on the TT quality, where, at times, minor errors on the source would become or originate critical errors on the target. The typology is now being applied at Unbabel.Neste trabalho propõe-se uma tipologia do texto de partida (do inglês, Source Typology) que considera erros no texto de partida (TP) e estruturas linguísticas que têm impacto na tradução automática (TA). Embora a maioria das tipologias seja construída tendo em conta um nível bilíngue, o TP também apresenta problemas que não conseguem ser previstos pela TA. Neste trabalho, foi possível testar se a qualidade do TP tem ou não impacto na qualidade do texto de chegada (TC) e como aferir objetivamente esse mesmo impacto. Inicialmente, foi efetuada uma comparação com diferentes tipologias de anotação de erros, quer estas considerassem um nível bilíngue ou monolíngue (e.g., TAUS MQM-DQF Typology, MQM Top-Level e SCATE MT error taxonomy, tipologias que serão apresentadas na Secção 2.4). Esta comparação possibilitou verificar as semelhanças e diferenças entre si e também quais as classes de erros previamente utilizadas. De forma a ter mais informações sobre este tema, foi realizada uma análise de dados do TP. Os dados foram analisados em contexto do conteúdo de chat e produzidos por utilizadores e agentes. Esta análise foi realizada através do processo de anotação. Este processo permite a identificação e categorização de erros e difere conforme as diretrizes apresentadas. Nesta primeira fase, o processo de anotação foi efetuado na plataforma Annotation Tool com a Tipologia de Erros da Unbabel. Uma vez que esta tipologia foi construída num contexto bilíngue, verificaram-se quais os erros que também sucediam no TP. Além disso, foi possível averiguar, nesta análise, quais eram os erros mais comuns no TP e examinar as diferenças entre um utilizador e um agente. A linguagem de chat é bastante específica, trazendo consigo simultaneamente as características da escrita e do diálogo. Enquanto o utilizador tem uma linguagem menos cuidada, algo que dá origem a diferentes tipos de erros, o agente tem de seguir um guião com soluções pré-definidas, atendendo sempre a restrições de tempo. Para além destes restringimentos, os agentes ainda têm de lidar com o facto de, na sua maioria, não serem nativos da língua inglesa, aquela que lhes é requerida no apoio ao cliente, e de ter condições de vida precárias. Esta análise foi efetuada através de uma das métricas manuais de qualidade mais amplamente utilizada na área da TA — Multidimensional Quality Metric (MQM) — proposta no projeto QTLaunchPad (2014), financiado pela União Europeia. Assim, os resultados do processo de anotação foram convertidos de modo quantificável, para aferir a qualidade do TP. Através desta análise, foi possível criar uma tipologia baseada em dados. Com os resultados desta análise, foi possível produzir uma nova tipologia — a Source Typology. Para auxiliar futuros anotadores desta tipologia, foram fornecidas diretrizes para o processo de anotação com a listagem de todas as classes de erros (incluindo as novas adições), esclarecimentos quanto aos tipos de segmentos conforme a anotação pretendida, as severidades utilizadas e os casos complicados que podem surgir durante o processo de anotação. De forma a clarificar esta última secção, também foram fornecidas duas árvores de decisão, uma delas a assistir na classificação de erros ou de estruturas linguísticas e outra a assistir na escolha da severidade adequada. De modo a comprovar a fiabilidade da tipologia, foi realizado um piloto com três estudos distintos, com um total de 26855 palavras, 2802 erros e 239 estruturas linguísticas (representadas na severidade ‘Neutra’ — associadas a marcadores discursivos, disfluências, emojis, etc., mecanismos característicos do discurso oral) anotados. Cada um dos estudos realizados no piloto abrangeu diferentes objetivos e teve em conta distintos pares de línguas. Em todos os estudos realizou-se uma análise para verificar se os erros encontrados no TP tinham sido originados ou transferidos para o TC e se as estruturas linguísticas com a severidade ‘Neutra’ tiveram ou não algum impacto nos sistemas de TA. O primeiro estudo, PT-BR_EN inbounds, focou-se em PT-BR_EN e considerou textos produzidos por utilizadores. Este estudo foi realizado tendo em conta diferentes clientes da Unbabel. Neste estudo a língua de partida (LP) utilizada foi o português do Brasil e a língua de chegada (LC) foi o inglês. O valor de MQM no TP foi elevado (72.26), pois os erros mais frequentes eram erros de tipografia, ou seja, de baixa severidade. Contudo, ao comparar com o valor de MQM no TC, houve uma grande disparidade. No TC houve muitos erros críticos, algo que não seria de esperar, dada a qualidade do TP. Esta discrepância implicou uma análise mais aprofundada. Desta análise, verificou-se que 34 erros presentes no TP tinham sido transferidos para o TC, 29 erros no TP deram origem a outros erros no TC e houve 9 estruturas neutras que tiveram impacto no TC. Ao examinar diferentes exemplos, observou-se que grande parte dos erros de baixa severidade e as 9 estruturas neutras no TP resultaram em erros críticos no TC. O segundo estudo, Agent Annotation, concentrou-se em textos em inglês produzidos por agentes da área de apoio ao cliente. É importante referir que o inglês não é “nativo”. Ao contrário do primeiro estudo, este derivou apenas de um cliente, uma vez que os dados dos agentes são dependentes dos clientes específicos e de guiões fornecidos por cada cliente em particular. Neste estudo foram utilizadas duas línguas, o inglês como LP e o francês como LC. Ao contrário do primeiro estudo, o valor de MQM do TC foi mais elevado do que o valor resultante do TP. Porém, também foi realizada a mesma análise neste estudo. 59 erros encontrados no TP foram transferidos para o TC e 40 erros no TP originaram novos erros no TC. Uma grande diferença entre o primeiro e segundo estudo foi de nenhuma estrutura neutra no TP ter tido impacto no TC. O último estudo, Multilingual internal pilot, foi o mais extenso de todos por incluir várias línguas e vários anotadores, tendo em conta tanto o lado do utilizador como o do agente. Relativamente aos estudos prévios, este estudo foi realizado numa escala bem mais alargada. As línguas anotadas neste estudo foram: holandês, italiano, espanhol europeu, português do Brasil, romeno, polaco, alemão e inglês. Os valores de MQM em cada língua diferem de acordo com as diferenças entre línguas e os erros encontrados. Observou-se, nesta análise, que o número de erros foi superior ao número de segmentos, o que significa que, por média, cada segmento apresentava mais do que um erro. Neste estudo, as estruturas neutras com impacto no TC foram divididas por classes e não por línguas devido à extensão de erros. Conjuntamente, também foram apresentadas as suas formas corretas nas LC. O mesmo processo foi realizado para os erros críticos encontrados no TP. Ao longo da análise, também se verificou que algumas classes de erros não foram anotadas de forma correta ou que não foram anotadas quando eram necessárias. Este fenómeno permitiu logo verificar a eficiência da tipologia e das suas diretrizes. Desse modo, são apresentados os casos em que essas situações surgiram e as razões por detrás do sucedido. Para uma análise mais completa, também foi investigado se estes casos tiveram algum impacto no TC. Das 44 estruturas neutras que não foram anotadas no TP, 10 delas tiveram, de facto, impacto no TC. Ao testar a Source Typology, foi permitido ratificar a sua eficiência e a fiabilidade e o que deve ser melhorado. A eficácia da tipologia foi avaliada através do Inter-annotator Agreement (IAA), uma metodologia que permite identificar ambiguidades e falhas que resultaram do processo de anotação. O IAA possibilita averiguar se houve ou não concordância entre os anotadores, como também a concordância que os anotadores tiveram consigo mesmos. Outra particularidade do IAA é verificar se os anotadores das mesmas línguas têm a mesma noção de extensão de um erro ou estrutura linguística. Instruções quanto a este tópico foram explicitadas nas diretrizes, mas ainda pode haver dúvidas sobre este processo de segmentação de erros. Assim, surge uma oportunidade para melhorar essa secção nas diretrizes. Por fim, através destes estudos foi demonstrado que a qualidade do TP tem, de facto, impacto na qualidade do TC, em que, por vezes, erros mínimos encontrados no TP se tornam ou originam erros críticos no TC. Estes estudos também permitiram perceber quais os erros cometidos pelos utilizadores e os agentes e a diferença entre eles e, ao mesmo tempo, validar a tipologia, que está em produção na Unbabel

    Essential Speech and Language Technology for Dutch: Results by the STEVIN-programme

    Get PDF
    Computational Linguistics; Germanic Languages; Artificial Intelligence (incl. Robotics); Computing Methodologie

    Metadiscourse Tagging in Academic Lectures

    Get PDF
    This thesis presents a study into the nature and structure of academic lectures, with a special focus on metadiscourse phenomena. Metadiscourse refers to a set of linguistics expressions that signal specific discourse functions such as the Introduction: “Today we will talk about...” and Emphasising: “This is an important point”. These functions are important because they are part of lecturers’ strategies in understanding of what happens in a lecture. The knowledge of their presence and identity could serve as initial steps toward downstream applications that will require functional analysis of lecture content such as a browser for lectures archives, summarisation, or an automatic minute-taker for lectures. One challenging aspect for metadiscourse detection and classification is that the set of expressions are semi-fixed, meaning that different phrases can indicate the same function. To that end a four-stage approach is developed to study metadiscourse in academic lectures. Firstly, a corpus of metadiscourse for academic lectures from Physics and Economics courses is built by adapting an existing scheme that describes functional-oriented metadiscourse categories. Second, because producing reference transcripts is a time-consuming task and prone to some errors due to the manual efforts required, an automatic speech recognition (ASR) system is built specifically to produce transcripts of lectures. Since the reference transcripts lack time-stamp information, an alignment system is applied to the reference to be able to evaluate the ASR system. Then, a model is developed using Support Vector Machines (SVMs) to classify metadiscourse tags using both textual and acoustical features. The results show that n-grams are the most inductive features for the task; however, due to data sparsity the model does not generalise for unseen n-grams. This limits its ability to solve the variation issue in metadiscourse expressions. Continuous Bag-of-Words (CBOW) provide a promising solution as this can capture both the syntactic and semantic similarities between words and thus is able to solve the generalisation issue. However, CBOW ignores the word order completely, something which is very important to be retained when classifying metadiscourse tags. The final stage aims to address the issue of sequence modelling by developing a joint CBOW and Convolutional Neural Network (CNN) model. CNNs can work with continuous features such as word embedding in an elegant and robust fashion by producing a fixed-size feature vector that is able to identify indicative local information for the tagging task. The results show that metadiscourse tagging using CNNs outperforms the SVMs model significantly even on ASR outputs, owing to its ability to predict a sequence of words that is more representative for the task regardless of its position in the sentence. In addition, the inclusion of other features such as part-of-speech (POS) tags and prosodic cues improved the results further. These findings are consistent in both disciplines. The final contribution in this thesis is to investigate the suitability of using metadiscourse tags as discourse features in the lecture structure segmentation model, despite the fact that the task is approached as a classification model and most of the state-of-art models are unsupervised. In general, the obtained results show remarkable improvements over the state-of-the-art models in both disciplines
    corecore