1,222 research outputs found

    A fluency error categorization scheme to guide automated machine translation evaluation

    Get PDF
    Existing automated MT evaluation methods often require expert human translations. These are produced for every language pair evaluated and, due to this expense, subsequent evaluations tend to rely on the same texts, which do not necessarily reflect real MT use. In contrast, we are designing an automated MT evaluation system, intended for use by post-editors, purchasers and developers, that requires nothing but the raw MT output. Furthermore, our research is based on texts that reflect corporate use of MT. This paper describes our first step in system design: a hierarchical classification scheme of fluency errors in English MT output, to enable us to identify error types and frequencies, and guide the selection of errors for automated detection. We present results from the statistical analysis of 20,000 words of MT output, manually annotated using our classification scheme, and describe correlations between error frequencies and human scores for fluency and adequacy

    Evaluating MT for massive open online courses: a multifaceted comparison between PBSMT and NMT systems

    Get PDF
    This article reports a multifaceted comparison between statistical and neural machine translation (MT) systems that were developed for translation of data from Massive Open Online Courses (MOOCs). The study uses four language pairs: English to German, Greek, Portuguese, and Russian. Translation quality is evaluated using automatic metrics and human evaluation, carried out by professional translators. Results show that neural MT is preferred in side-by-side ranking, and is found to contain fewer overall errors. Results are less clear-cut for some error categories, and for temporal and technical post-editing effort. In addition, results are reported based on sentence length, showing advantages and disadvantages depending on the particular language pair and MT paradigm

    Evaluating MT for massive open online courses

    Get PDF
    This article reports a multifaceted comparison between statistical and neural machine translation (MT) systems that were developed for translation of data from massive open online courses (MOOCs). The study uses four language pairs: English to German, Greek, Portuguese, and Russian. Translation quality is evaluated using automatic metrics and human evaluation, carried out by professional translators. Results show that neuralMTis preferred in side-by-side ranking, and is found to contain fewer overall errors. Results are less clear-cut for some error categories, and for temporal and technical post-editing effort. In addition, results are reported based on sentence length, showing advantages and disadvantages depending on the particular language pair and MT paradigm

    Analysis on the impact of the source text quality: Building a data-driven typology

    Get PDF
    In this study we propose a typology which concerns source errors and linguistic structures that might have an impact on Machine Translation (MT). Although most typologies are built on a bilingual level, the source text (ST) also presents issues that cannot be expected to be resolved by MT. In this study, we were able to test whether or not the quality of the ST has an impact on the target text (TT) quality. For that purpose, source data was annotated. The data analyzed was both inbound (user-generated content) and outbound (agent) in the context of chat. Through this analysis, it was possible to build a data driven typology. To aid the construction of a new typology, there was also a comparison between multiple typologies, whether they have a bilingual or a monolingual focus. This allowed us to see what could be applied to a monolingual typology and what was missing. With the annotation results, it was possible to build a new typology — Source Typology. To assist future annotators, we provided annotation guidelines with a listing of all the issue types, an explanation of the different span types, the severities to be used and the tricky cases that might occur during the annotation process. In order to test the reliability of the typology, three different case studies of an internal pilot were conducted. Each case study had a different goal and took into account different language pairs. By testing the Source Typology, we could see its effectiveness and reliability and what should be improved. In the end, we demonstrated that the quality of the ST can actually have an impact on the TT quality, where, at times, minor errors on the source would become or originate critical errors on the target. The typology is now being applied at Unbabel.Neste trabalho propõe-se uma tipologia do texto de partida (do inglês, Source Typology) que considera erros no texto de partida (TP) e estruturas linguísticas que têm impacto na tradução automática (TA). Embora a maioria das tipologias seja construída tendo em conta um nível bilíngue, o TP também apresenta problemas que não conseguem ser previstos pela TA. Neste trabalho, foi possível testar se a qualidade do TP tem ou não impacto na qualidade do texto de chegada (TC) e como aferir objetivamente esse mesmo impacto. Inicialmente, foi efetuada uma comparação com diferentes tipologias de anotação de erros, quer estas considerassem um nível bilíngue ou monolíngue (e.g., TAUS MQM-DQF Typology, MQM Top-Level e SCATE MT error taxonomy, tipologias que serão apresentadas na Secção 2.4). Esta comparação possibilitou verificar as semelhanças e diferenças entre si e também quais as classes de erros previamente utilizadas. De forma a ter mais informações sobre este tema, foi realizada uma análise de dados do TP. Os dados foram analisados em contexto do conteúdo de chat e produzidos por utilizadores e agentes. Esta análise foi realizada através do processo de anotação. Este processo permite a identificação e categorização de erros e difere conforme as diretrizes apresentadas. Nesta primeira fase, o processo de anotação foi efetuado na plataforma Annotation Tool com a Tipologia de Erros da Unbabel. Uma vez que esta tipologia foi construída num contexto bilíngue, verificaram-se quais os erros que também sucediam no TP. Além disso, foi possível averiguar, nesta análise, quais eram os erros mais comuns no TP e examinar as diferenças entre um utilizador e um agente. A linguagem de chat é bastante específica, trazendo consigo simultaneamente as características da escrita e do diálogo. Enquanto o utilizador tem uma linguagem menos cuidada, algo que dá origem a diferentes tipos de erros, o agente tem de seguir um guião com soluções pré-definidas, atendendo sempre a restrições de tempo. Para além destes restringimentos, os agentes ainda têm de lidar com o facto de, na sua maioria, não serem nativos da língua inglesa, aquela que lhes é requerida no apoio ao cliente, e de ter condições de vida precárias. Esta análise foi efetuada através de uma das métricas manuais de qualidade mais amplamente utilizada na área da TA — Multidimensional Quality Metric (MQM) — proposta no projeto QTLaunchPad (2014), financiado pela União Europeia. Assim, os resultados do processo de anotação foram convertidos de modo quantificável, para aferir a qualidade do TP. Através desta análise, foi possível criar uma tipologia baseada em dados. Com os resultados desta análise, foi possível produzir uma nova tipologia — a Source Typology. Para auxiliar futuros anotadores desta tipologia, foram fornecidas diretrizes para o processo de anotação com a listagem de todas as classes de erros (incluindo as novas adições), esclarecimentos quanto aos tipos de segmentos conforme a anotação pretendida, as severidades utilizadas e os casos complicados que podem surgir durante o processo de anotação. De forma a clarificar esta última secção, também foram fornecidas duas árvores de decisão, uma delas a assistir na classificação de erros ou de estruturas linguísticas e outra a assistir na escolha da severidade adequada. De modo a comprovar a fiabilidade da tipologia, foi realizado um piloto com três estudos distintos, com um total de 26855 palavras, 2802 erros e 239 estruturas linguísticas (representadas na severidade ‘Neutra’ — associadas a marcadores discursivos, disfluências, emojis, etc., mecanismos característicos do discurso oral) anotados. Cada um dos estudos realizados no piloto abrangeu diferentes objetivos e teve em conta distintos pares de línguas. Em todos os estudos realizou-se uma análise para verificar se os erros encontrados no TP tinham sido originados ou transferidos para o TC e se as estruturas linguísticas com a severidade ‘Neutra’ tiveram ou não algum impacto nos sistemas de TA. O primeiro estudo, PT-BR_EN inbounds, focou-se em PT-BR_EN e considerou textos produzidos por utilizadores. Este estudo foi realizado tendo em conta diferentes clientes da Unbabel. Neste estudo a língua de partida (LP) utilizada foi o português do Brasil e a língua de chegada (LC) foi o inglês. O valor de MQM no TP foi elevado (72.26), pois os erros mais frequentes eram erros de tipografia, ou seja, de baixa severidade. Contudo, ao comparar com o valor de MQM no TC, houve uma grande disparidade. No TC houve muitos erros críticos, algo que não seria de esperar, dada a qualidade do TP. Esta discrepância implicou uma análise mais aprofundada. Desta análise, verificou-se que 34 erros presentes no TP tinham sido transferidos para o TC, 29 erros no TP deram origem a outros erros no TC e houve 9 estruturas neutras que tiveram impacto no TC. Ao examinar diferentes exemplos, observou-se que grande parte dos erros de baixa severidade e as 9 estruturas neutras no TP resultaram em erros críticos no TC. O segundo estudo, Agent Annotation, concentrou-se em textos em inglês produzidos por agentes da área de apoio ao cliente. É importante referir que o inglês não é “nativo”. Ao contrário do primeiro estudo, este derivou apenas de um cliente, uma vez que os dados dos agentes são dependentes dos clientes específicos e de guiões fornecidos por cada cliente em particular. Neste estudo foram utilizadas duas línguas, o inglês como LP e o francês como LC. Ao contrário do primeiro estudo, o valor de MQM do TC foi mais elevado do que o valor resultante do TP. Porém, também foi realizada a mesma análise neste estudo. 59 erros encontrados no TP foram transferidos para o TC e 40 erros no TP originaram novos erros no TC. Uma grande diferença entre o primeiro e segundo estudo foi de nenhuma estrutura neutra no TP ter tido impacto no TC. O último estudo, Multilingual internal pilot, foi o mais extenso de todos por incluir várias línguas e vários anotadores, tendo em conta tanto o lado do utilizador como o do agente. Relativamente aos estudos prévios, este estudo foi realizado numa escala bem mais alargada. As línguas anotadas neste estudo foram: holandês, italiano, espanhol europeu, português do Brasil, romeno, polaco, alemão e inglês. Os valores de MQM em cada língua diferem de acordo com as diferenças entre línguas e os erros encontrados. Observou-se, nesta análise, que o número de erros foi superior ao número de segmentos, o que significa que, por média, cada segmento apresentava mais do que um erro. Neste estudo, as estruturas neutras com impacto no TC foram divididas por classes e não por línguas devido à extensão de erros. Conjuntamente, também foram apresentadas as suas formas corretas nas LC. O mesmo processo foi realizado para os erros críticos encontrados no TP. Ao longo da análise, também se verificou que algumas classes de erros não foram anotadas de forma correta ou que não foram anotadas quando eram necessárias. Este fenómeno permitiu logo verificar a eficiência da tipologia e das suas diretrizes. Desse modo, são apresentados os casos em que essas situações surgiram e as razões por detrás do sucedido. Para uma análise mais completa, também foi investigado se estes casos tiveram algum impacto no TC. Das 44 estruturas neutras que não foram anotadas no TP, 10 delas tiveram, de facto, impacto no TC. Ao testar a Source Typology, foi permitido ratificar a sua eficiência e a fiabilidade e o que deve ser melhorado. A eficácia da tipologia foi avaliada através do Inter-annotator Agreement (IAA), uma metodologia que permite identificar ambiguidades e falhas que resultaram do processo de anotação. O IAA possibilita averiguar se houve ou não concordância entre os anotadores, como também a concordância que os anotadores tiveram consigo mesmos. Outra particularidade do IAA é verificar se os anotadores das mesmas línguas têm a mesma noção de extensão de um erro ou estrutura linguística. Instruções quanto a este tópico foram explicitadas nas diretrizes, mas ainda pode haver dúvidas sobre este processo de segmentação de erros. Assim, surge uma oportunidade para melhorar essa secção nas diretrizes. Por fim, através destes estudos foi demonstrado que a qualidade do TP tem, de facto, impacto na qualidade do TC, em que, por vezes, erros mínimos encontrados no TP se tornam ou originam erros críticos no TC. Estes estudos também permitiram perceber quais os erros cometidos pelos utilizadores e os agentes e a diferença entre eles e, ao mesmo tempo, validar a tipologia, que está em produção na Unbabel

    Recent Trends in Computational Intelligence

    Get PDF
    Traditional models struggle to cope with complexity, noise, and the existence of a changing environment, while Computational Intelligence (CI) offers solutions to complicated problems as well as reverse problems. The main feature of CI is adaptability, spanning the fields of machine learning and computational neuroscience. CI also comprises biologically-inspired technologies such as the intellect of swarm as part of evolutionary computation and encompassing wider areas such as image processing, data collection, and natural language processing. This book aims to discuss the usage of CI for optimal solving of various applications proving its wide reach and relevance. Bounding of optimization methods and data mining strategies make a strong and reliable prediction tool for handling real-life applications

    Using Ontology-Based Approaches to Representing Speech Transcripts for Automated Speech Scoring

    Get PDF
    Text representation is a process of transforming text into some formats that computer systems can use for subsequent information-related tasks such as text classification. Representing text faces two main challenges: meaningfulness of representation and unknown terms. Research has shown evidence that these challenges can be resolved by using the rich semantics in ontologies. This study aims to address these challenges by using ontology-based representation and unknown term reasoning approaches in the context of content scoring of speech, which is a less explored area compared to some common ones such as categorizing text corpus (e.g. 20 newsgroups and Reuters). From the perspective of language assessment, the increasing amount of language learners taking second language tests makes automatic scoring an attractive alternative to human scoring for delivering rapid and objective scores of written and spoken test responses. This study focuses on the speaking section of second language tests and investigates ontology-based approaches to speech scoring. Most previous automated speech scoring systems for spontaneous responses of test takers assess speech by primarily using acoustic features such as fluency and pronunciation, while text features are less involved and exploited. As content is an integral part of speech, the study is motivated by the lack of rich text features in speech scoring and is designed to examine the effects of different text features on scoring performance. A central question to the study is how speech transcript content can be represented in an appropriate means for speech scoring. Previously used approaches from essay and speech scoring systems include bag-of-words and latent semantic analysis representations, which are adopted as baselines in this study; the experimental approaches are ontology-based, which can help improving meaningfulness of representation units and estimating importance of unknown terms. Two general domain ontologies, WordNet and Wikipedia, are used respectively for ontology-based representations. In addition to comparison between representation approaches, the author analyzes which parameter option leads to the best performance within a particular representation. The experimental results show that on average, ontology-based representations slightly enhances speech scoring performance on all measurements when combined with the bag-of-words representation; reasoning of unknown terms can increase performance on one measurement (cos.w4) but decrease others. Due to the small data size, the significance test (t-test) shows that the enhancement of ontology-based representations is inconclusive. The contributions of the study include: 1) it examines the effects of different representation approaches on speech scoring tasks; 2) it enhances the understanding of the mechanisms of representation approaches and their parameter options via in-depth analysis; 3) the representation methodology and framework can be applied to other tasks such as automatic essay scoring

    Comparative Evaluation of Translation Memory (TM) and Machine Translation (MT) Systems in Translation between Arabic and English

    Get PDF
    In general, advances in translation technology tools have enhanced translation quality significantly. Unfortunately, however, it seems that this is not the case for all language pairs. A concern arises when the users of translation tools want to work between different language families such as Arabic and English. The main problems facing ArabicEnglish translation tools lie in Arabic’s characteristic free word order, richness of word inflection – including orthographic ambiguity – and optionality of diacritics, in addition to a lack of data resources. The aim of this study is to compare the performance of translation memory (TM) and machine translation (MT) systems in translating between Arabic and English.The research evaluates the two systems based on specific criteria relating to needs and expected results. The first part of the thesis evaluates the performance of a set of well-known TM systems when retrieving a segment of text that includes an Arabic linguistic feature. As it is widely known that TM matching metrics are based solely on the use of edit distance string measurements, it was expected that the aforementioned issues would lead to a low match percentage. The second part of the thesis evaluates multiple MT systems that use the mainstream neural machine translation (NMT) approach to translation quality. Due to a lack of training data resources and its rich morphology, it was anticipated that Arabic features would reduce the translation quality of this corpus-based approach. The systems’ output was evaluated using both automatic evaluation metrics including BLEU and hLEPOR, and TAUS human quality ranking criteria for adequacy and fluency.The study employed a black-box testing methodology to experimentally examine the TM systems through a test suite instrument and also to translate Arabic English sentences to collect the MT systems’ output. A translation threshold was used to evaluate the fuzzy matches of TM systems, while an online survey was used to collect participants’ responses to the quality of MT system’s output. The experiments’ input of both systems was extracted from ArabicEnglish corpora, which was examined by means of quantitative data analysis. The results show that, when retrieving translations, the current TM matching metrics are unable to recognise Arabic features and score them appropriately. In terms of automatic translation, MT produced good results for adequacy, especially when translating from Arabic to English, but the systems’ output appeared to need post-editing for fluency. Moreover, when retrievingfrom Arabic, it was found that short sentences were handled much better by MT than by TM. The findings may be given as recommendations to software developers
    corecore