2,071 research outputs found

    Co-reference annotation and resources: a multilingual corpus of typologically diverse languages

    Get PDF
    This article introduces a dialogue corpus containing data from two typologically different languages, Japanese and Kilivila. The corpus is annotated in accordance with language specific annotation schemes for co-referential and similar relations. The article describes the corpus data, the properties of language specific co-reference in the two languages and a methodology for its annotation. Examples from the corpus show how this methodology is used in the workflow of the annotation process

    Translation error annotation : building an annotation module for east asian languages

    Get PDF
    In this thesis it is proposed an annotation module to be applied in the context of Machine Translation (MT) concerning the East Asian languages of Japanese, Korean and Mandarin for the purpose of assessing MT output quality through annotation. The annotation module was created based on a data-driven analysis over Customer Support content in these languages previously annotated with the Unbabel Error Typology, which is a general typology in the sense that it is not conceived for any specific groups of languages. As such, this work also explores how applying translation error typologies inadequate to certain languages or content types can have an impact on how annotation reflects the quality of a translation. For the purpose of testing the effectiveness of the proposed annotation module, an annotation experiment for the languages under analysis was conducted. This experiment consisted of, for each language, annotating the same content using three different error typologies: the Unbabel Error Typology, the MQM-compliant error taxonomy for the translation direction of English to Chinese proposed by Ye and Toral (2020) and the annotation module proposed on this thesis. Furthermore, each dataset was annotated by two annotators. This allowed a comparison of Inter-annotator agreement (IAA) scores, which constitutes an important metric in terms of evaluating the effectiveness of an error typology. In light of this, each of the tested typologies was analyzed based on the obtained IAA scores and a further in-depth analysis of concrete annotations which lead to an understanding over their strengths and limitations. With this work it was possible to demonstrate that, if on one hand using error typologies inadequate for the content annotated has a negative impact on the quality of said annotations, on the other hand applying an error typology specific to the content being annotated can result in more consistent annotations.O trabalho desenvolvido no âmbito desta tese teve como objetivo principal a criação de um módulo de anotação para erros de tradução no contexto da Tradução Automática (TA) que fosse aplicável a Japonês, Coreano e Mandarim e compatível com o Multidimensional Quality Metrics (MQM) framework (Lommel et al., 2014). Este módulo foi criado com base numa análise de dados reais sobre traduções previamente anotadas dentro da empresa Unbabel seguindo uma tipologia geral concebida para anotação de vários pares linguísticos sem foco em grupos de línguas específicos. Ao mesmo tempo que permitiu verificar as consequências de anotar erros com uma tipologia pouco adequada à língua ou ao conteúdo traduzido, esta análise constituiu um ponto de partida importante para a criação do módulo de anotação proposto nesta tese. A Secção 2 desta tese concentrou-se em apresentar a Unbabel como instituição e os processos de qualidade em vigor dentro da empresa. A Secção 3 focou-se em apresentar o estado da arte em TA e processos de qualidade, com atenção especial às línguas sob análise nesta tese, bem como as tipologias de anotação de erros de tradução utilizadas para comparação de resultados. A análise dos dados disponíveis, descrita na Secção 4, foi feita em duas fases principais. Na primeira fase foi analisado um conjunto de 342 segmentos correspondentes ao par linguístico Inglês-Chinês (Simplificado), previamente anotados com a Unbabel Error Typology, a tipologia para anotação de erros de tradução utilizada para todos os pares linguísticos até junho de 2022. Esta análise demonstrou que uma percentagem significativa dos erros cometidos durante o processo de anotação podiam ser atribuídos não só à falta de claridade das diretrizes de anotação relativamente a características específicas presentes neste par linguístico como também à falta de alguns tipos de erros na tipologia. Na segunda fase de análise de dados foi possível confirmar e fundamentar a existência destes problemas. Nesta fase foi analisada uma amostra de dados mais abrangente que incluiu quatro pares linguísticos: Inglês-Japonês, Inglês-Coreano, Inglês-Chinês (Simplificado) e Inglês-Chinês (Tradicional). Para cada par linguístico foi analisado um total de cerca de 570 a 1900 segmentos e, com a exceção de Inglês-Coreano, todos os dados correspondiam às anotações de mais de um anotador. Esta análise permitiu concluir que os anotadores de todos os pares linguísticos mencionados cometeram vários erros, em especial no processo de escolha da categoria certa para cada erro de tradução mas também relativamente à seleção dos erros e atribuição da severidade certa a cada um. Através dos dados analisados foi possível determinar que tipos de erros seria necessário incluir numa tipologia de anotação de erros de tradução adaptada às línguas mencionadas e que tipo de instruções deveriam ser clarificadas nas diretrizes de anotação. Deste modo, após a conclusão da segunda fase de análise de dados foi possível começar a criar o módulo de anotação proposto nesta tese, denominado East Asian Languages Annotation Module for the Unbabel Quality Framework. O East Asian Languages Annotation Module for the Unbabel Quality Framework foi criado à imagem da Unbabel Error Typology e adaptado às características da nova versão que entrou em vigor na empresa em junho de 2022. No entanto, devido ao facto de ser um módulo de anotação adaptado às línguas asiáticas previamente mencionadas, várias categorias de erros existentes na Unbabel Error Typology foram removidos devido a corresponderem a componentes linguísticos que não fazem parte das línguas em questão. Do mesmo modo, foi adicionado um total de cinco novos tipos de erros ao módulo com base no que foi julgado necessário durante a fase de análise de dados. A versão final do East Asian Languages Annotation Module for the Unbabel Quality Framework conta com um total de 39 tipos de erros, em contraste com os 47 que fazem parte da Unbabel Error Typology. De forma complementar à criação do módulo de anotação foram também elaboradas diretrizes específicas para o módulo que, para além da definição de cada tipo de erro com exemplos, incluem também uma secção dedicada a casos difíceis (Tricky Cases) e esquemas (Decision Trees) para auxiliar na escolha da severidade e tipo de erro adequado para cada caso. Após a criação do módulo de anotação foi necessário testar se o mesmo pode ser aplicado com sucesso. Para este fim foi levado a cabo um estudo de comparação entre o East Asian Languages Annotation Module for the Unbabel Quality Framework e duas outras tipologias, descrito na Secção 5. Assim, foram conduzidas três fases de anotação com cerca de um mês de intervalo entre cada. Para cada tipologia dois anotadores por par linguístico anotaram entre 1100 e 4900 palavras cada um e, de modo a obter uma comparação precisa, dentro de cada par linguístico o conteúdo anotado com cada tipologia manteve-se o mesmo. A primeira fase de anotações foi efetuada utilizando a Unbabel Error Typology. Devido ao facto de os anotadores já estarem familiarizados com esta tipologia e já possuírem as diretrizes de anotação relativas à mesma, não foi necessário prestar apoio adicional aos anotadores nesta fase. A segunda ronda de anotações foi levada a cabo com a tipologia para anotação de erros de tradução para o par linguístico Inglês-Mandarim proposta por Ye e Toral (2020). Para esta fase de anotação foram criadas diretrizes específicas para esta tipologia com base no trabalho desenvolvido por Ye e Toral (2020) de modo a facilitar o processo de anotação. É importante referir que, apesar de esta tipologia ter sido criada para anotação de erros de tradução para o par linguístico Inglês-Mandarim, durante a fase de teste das tipologias esta foi utilizada para anotar todos os quatro pares linguísticos a serem analisados. Além disso, devido ao facto de ser uma tipologia nova, durante esta fase foi mantida a comunicação com os anotadores para esclarecimento de dúvidas. É necessário salientar que esta tipologia também foi importante na criação do East Asian Languages Annotation Module devido ao facto de conter tipos de erros específicos em relação à anotação do par linguístico para o qual foi criada e que serviram de base para novos tipos de erros propostos no módulo de anotação. A terceira e última fase de anotação foi feita com o East Asian Languages Annotation Module for the Unbabel Quality Framework proposto nesta tese. Nesta fase foram fornecidas aos anotadores as diretrizes que foram criadas de forma complementar ao módulo e, tal como durante a segunda fase, foi dada aos anotadores a possibilidade de comunicar as suas dúvidas. Os resultados das três fases de anotação descritas acima foram analisados da perspetiva do nível de acordo entre os anotadores, medido através da metodologia de Inter-annotator Agreement (IAA), em contraste com os valores equivalentes da métrica manual de qualidade MQM (Lommel et al., 2014), bem como através de uma análise detalhada das anotações de ambos anotadores para todos os pares linguísticos. No contexto da testagem de tipologias de anotação de erros de tradução uma análise dos valores de IAA obtidos, pois um elevado nível de concordância entre os anotadores reflete a clareza de uma tipologia. Adicionalmente, a análise detalhada das anotações em consonância com os valores de IAA permite avaliar que fatores influenciam a flutuação dos mesmos. Adicionalmente, o feedback que os anotadores forneceram em relação a cada tipologia também foi alvo de reflexão em contraste com os resultados obtidos. Deste modo, com a combinação de todos estes dados foi possível determinar os pontos fortes e as fraquezas de cada tipologia bem como entender que direção deverá seguir o trabalho futuro em torno do East Asian Languages Annotation Module for the Unbabel Quality Framework em termos do seu aperfeiçoamento. Com este trabalho foi possível demonstrar o impacto negativo de utilizar uma tipologia de erros pouco adequada ao conteúdo a ser anotado bem como provar que, por outro lado, uma tipologia criada para a anotação de um grupo específico de línguas pode melhorar a consistência das anotações relativas a componentes linguísticos próprios das línguas para as quais a tipologia é direcionada

    A Novel and Robust Approach for Pro-Drop Language Translation

    Get PDF
    A significant challenge for machine translation (MT) is the phenomena of dropped pronouns (DPs), where certain classes of pronouns are frequently dropped in the source language but should be retained in the target language. In response to this common problem, we propose a semi-supervised approach with a universal framework to recall missing pronouns in translation. Firstly, we build training data for DP generation in which the DPs are automatically labelled according to the alignment information from a parallel corpus. Secondly, we build a deep learning-based DP generator for input sentences in decoding when no corresponding references exist. More specifically, the generation has two phases: (1) DP position detection, which is modeled as a sequential labelling task with recurrent neural networks; and (2) DP prediction, which employs a multilayer perceptron with rich features. Finally, we integrate the above outputs into our statistical MT (SMT) system to recall missing pronouns by both extracting rules from the DP-labelled training data and translating the DP-generated input sentences. To validate the robustness of our approach, we investigate our approach on both Chinese–English and Japanese–English corpora extracted from movie subtitles. Compared with an SMT baseline system, experimental results show that our approach achieves a significant improvement of++1.58 BLEU points in translation performance with 66% F-score for DP generation accuracy for Chinese–English, and nearly++1 BLEU point with 58% F-score for Japanese–English. We believe that this work could help both MT researchers and industries to boost the performance of MT systems between pro-drop and non-pro-drop languages

    A Chinese Dependency Syntax for Treebanking

    Get PDF
    PACLIC 20 / Wuhan, China / 1-3 November, 200

    UD_Japanese-CEJC: Dependency Relation Annotation on Corpus of Everyday Japanese Conversation

    Get PDF
    Conference name: the 24th Meeting of the Special Interest Group on Discourse and Dialogue, Conference place: Prague, Czechia, Session period: 2023/09/11-15, Organizer: Association for Computational Linguisticsapplication/pdfNational Institute for Japanese Language and LinguisticsTohoku UniversityMegagon Labs, Tokyo, Recruit Co., LtdNational Institute for Japanese Language and LinguisticsIn this study, we have developed Universal Dependencies (UD) resources for spoken Japanese in the Corpus of Everyday Japanese Conversation (CEJC). The CEJC is a large corpus of spoken language that encompasses various everyday conversations in Japanese, and includes word delimitation and part-of-speech annotation. We have newly annotated Long Word Unit delimitation and Bunsetsu (Japanese phrase)-based dependencies, including Bunsetsu boundaries, for CEJC. The UD of Japanese resources was constructed in accordance with hand-maintained conversion rules from the CEJC with two types of word delimitation, part-of-speech tags and Bunsetsu-based syntactic dependency relations. Furthermore, we examined various issues pertaining to the construction of UD in the CEJC by comparing it with the written Japanese corpus and evaluating UD parsing accuracy.conference pape

    Cross-lingual transfer parsing for low-resourced languages: an Irish case study

    Get PDF
    We present a study of cross-lingual direct transfer parsing for the Irish language. Firstly we discuss mapping of the annotation scheme of the Irish Dependency Treebank to a universal dependency scheme. We explain our dependency label mapping choices and the structural changes required in the Irish Dependency Treebank. We then experiment with the universally annotated treebanks of ten languages from four language family groups to assess which languages are the most useful for cross-lingual parsing of Irish by using these treebanks to train delexicalised parsing models which are then applied to sentences from the Irish Dependency Treebank. The best results are achieved when using Indonesian, a language from the Austronesian language family

    Utilizing Features of Verbs in Statistical Zero Pronoun Resolution for Japanese Speech

    Get PDF
    PACLIC 23 / City University of Hong Kong / 3-5 December 200

    Tracking relevant alignment characteristics for machine translation

    Get PDF
    In most statistical machine translation (SMT) systems, bilingual segments are extracted via word alignment. In this paper we compare alignments tuned directly according to alignment F-score and BLEU score in order to investigate the alignment characteristics that are helpful in translation. We report results for two different SMT systems (a phrase-based and an n-gram-based system) on Chinese to English IWSLT data, and Spanish to English European Parliament data. We give alignment hints to improve BLEU score, depending on the SMT system used and the type of corpus
    corecore