106 research outputs found

    Tree Alignment through Semantic Role Annotation Projection

    Get PDF
    Proceedings of the Workshop on Annotation and Exploitation of Parallel Corpora AEPC 2010. Editors: Lars Ahrenberg, Jörg Tiedemann and Martin Volk. NEALT Proceedings Series, Vol. 10 (2010), 73-82. © 2010 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/15893

    Investigating 'Aspect' in NMT and SMT: translating the English simple past and present perfect

    Get PDF
    One of the important differences between English and French grammar is related to how their verbal systems handle aspectual information. While the English simple past tense is aspectually neutral, the French and Spanish past tenses are linked with a particular imperfective/perfective aspect. This study examines what Statistical Machine Translation (SMT) and Neural Machine Translation (NMT) learn about 'aspect'and how this is reflected in the translations they produce. We use their main knowledge sources, phrase-tables (SMT) and encoding vectors (NMT), to examine what kind of aspectual information they encode. Furthermore, we examine whether this encoded 'knowledge'is actually transferred during decoding and thus reflected in the actual translations. Our study is based on the translations of the English simple past and present perfect tenses into French and Spanish

    Transfer and architecture : views from chart parsing

    Get PDF
    The objective of this report is to describe the embedding of a transfer module within an alternative architectural approach for machine translation of spontaneous spoken language. The approach is cognitively oriented, i.e. it adapts some of the assumed properties of human language comprehension and production. The aspects to be modeled will include incrementality and robustness with respect to disturbances caused by the environment and performance phenomena of speech. Interaction between software modules is used to reduce ambiguity. The transfer stage of a translation system clearly has to obey these requirements to be an integral part of such a system. This paper outlines the kind of demands to be placed on the transfer module. Relations between the basic formalisms representing linguistic knowledge on the one hand and transfer on the other hand are demonstrated as well as the consequences for algorithms and data structures

    Quality in machine translation and human post-editing : error annotation and specifications

    Get PDF
    Machine translation (MT) has been an important field of research in the last decades and is currently playing a key role in the translation market. The variable quality of results depending on various factors makes it necessary to combine MT with post-editing, to obtain high-quality translation. Post-editing is, nonetheless, a costly and time-consuming task. In order to improve the overall performance of a translation workflow involving MT, it is crucial to evaluate the quality of results produced to identify the main errors and outline strategies to address them. In this study, we assessed the results of MT and after the first human post-edition at Unbabel, a Portuguese startup that provides translation services combining MT with post-editing performed online by a community of editors. A corpus of texts translated at Unbabel from English into Italian was annotated after MT and after the first post-edition step. The data collected allowed us to identify three types of errors that are frequent and critical in terms of quality, namely “word order”, “agreement”, and “tense/mood/aspect”. Hence, correcting the errors belonging to these categories would have a major impact on the quality of translation and turn the post-editing process more accurate and efficient. The errors annotated in the corpus were analyzed in order to identify common patterns of errors, and possible solutions to address the issues identified were outlined. The MT system used at Unbabel and the tools available determined the choice to integrate information retrieved by error analysis in the Smartcheck, the tool used at Unbabel to automatically detect errors in the target text produced by the MT system and provide relevant messages to the editors. Therefore, our study focused on the definition and integration of rules in the Smartcheck to detect the most frequent and critical errors in the texts, in order to provide informative and accurate messages to the editor to aid him/her in the post-editing process.A tradução automática tem vindo a assumir uma grande importância no mercado da tradução e representa atualmente uma importante área de investigação. Durante os últimos cinquenta anos, vários sistemas de tradução automática foram desenvolvidos com base em paradigmas e abordagens diferentes. Os sistemas de tradução automática podem ser divididos entre sistemas baseados em conhecimento linguístico em forma de regras e sistemas baseados em corpora de textos, como os estatísticos e os baseados em exemplos. Além disso, nas últimas décadas, paradigmas diferentes foram combinados para desenvolver sistemas híbridos que utilizam corpora de textos, como nos sistemas estatísticos ou nos baseados em exemplos, mas integram regras e princípios linguísticos, como nos sistemas baseados em conhecimento, para resolver dificuldades gramaticais ou lexicais. Os sistemas de tradução automática são cada vez mais utilizados no processo de tradução, devido ao crescente volume de textos para traduzir e aos curtos prazos estabelecidos. Apesar de haver diferentes sistemas, os resultados são variáveis no que diz respeito à qualidade, dependendo do paradigma e do grau de especialização do sistema e dos textos a traduzir num determinado domínio. Estes factos impõem a necessidade de realizar uma edição dos textos, que pode ocorrer antes da tradução (pré-edição) ou depois (pós-edição). No primeiro caso, do texto de partida são eliminadas as estruturas ou palavras que representam dificuldades para a tradução automática realizada por um sistema em particular. No segundo caso, o texto traduzido pelo sistema é controlado e corrigido por um revisor humano. Para que este tipo de processo possa ser utilizado em grande escala no mercado da tradução, é importante reduzir os custos que lhe são inerentes e agilizá-lo. Além da pré-edição ou pós-edição, em função do paradigma considerado, integrar mais informação linguística ou atualizar os recursos lexicais utilizados permite melhorar os resultados da tradução automática. O presente trabalho tem como objeto de estudo o controlo de qualidade na área da tradução automática, mais especificamente, na fase de pós-edição. O estudo e a análise dos resultados da tradução automática e da fase de pós-edição permitem delinear estratégias para intervir em dois sentidos: por um lado, melhorar os resultados do sistema de tradução automática graças à integração de mais informação no sistema; por outro lado, apoiar o trabalho do revisor na pós-edição, destacando erros prováveis ou assinalando pontos críticos. A avaliação dos resultados da tradução automática inclui uma fase de análise dos erros presentes no texto de chegada e uma classificação dos mesmos, de acordo com uma tipologia de categorias de erros. No estudo da fase de pós-edição, a análise dos erros mais frequentemente corrigidos pelos revisores permite identificar que tipo de informação deve ser integrada no sistema de tradução automática e que instruções podem ser úteis aos revisores. Para a realização desta análise, adotou-se um sistema de classificação a fim de categorizar os erros e, portanto, de realizar uma avaliação quantitativa da qualidade da tradução. O presente trabalho de projeto foi realizado em colaboração com a Unbabel, uma startup portuguesa que oferece serviços de tradução quase em tempo real, combinando tradução automática com uma comunidade de revisores. O corpus que é utilizado para a realização do trabalho que aqui se propõe é formado por textos em língua inglesa, traduzidos para italiano através de um sistema de tradução automática, corrigidos e editados por vários revisores humanos. São analisados os erros presentes nos textos de chegada após a tradução automática e a primeira revisão. A identificação e a análise dos erros permite chegar a generalizações sob a forma de regras a ser implementadas no processo tradução e pós-edição de textos realizado pela Unbabel. Em particular, as regras destinam-se à integração numa ferramenta que identifica automaticamente os erros no texto de chegada de algumas categorias específicas, depois da tradução automática e durante o processo de pós-edição. A ferramenta assinala o erro e, em função do tipo de problema, sugere ao revisor uma correção ou dá-lhe indicações para prestar atenção a um aspeto particular da sequência assinalada, pois é provável que contenha um erro. O presente trabalho divide-se em oito capítulos em que são abordados os temas fundamentais envolvidos na realização do trabalho. No primeiro capítulo apresenta-se o objeto de estudo, a motivação do trabalho de projeto, a abordagem metodológica adoptada e a organização do documento. No segundo capítulo apresenta-se a fundamentação teórica em que se baseou o estudo. Aborda-se brevemente a história da tradução automática, desde as suas primeiras tentativas em meados do século XX, até aos mais recentes sistemas da primeira década do século XXI. Após a apresentação da história, são descritas algumas dificuldades linguísticas e operacionais relacionadas com a tradução automática e apresenta-se uma descrição dos diferentes sistemas de tradução automática, nomeadamente os baseados em conhecimento linguístico, os baseados em corpora e os híbridos. No terceiro capítulo apresenta-se o processo de tradução automática utilizado na Unbabel, fazendo-se uma breve descrição dos passos que o compõem, o sistema de tradução automática usado para a tradução dos textos do corpus e as ferramentas utilizadas na fase de pós-edição para a deteção de erros e para os testes de qualidade. No quarto capítulo introduz-se a tarefa da anotação de erros descrevendo-se, em primeiro lugar, a tipologia de erros adotada na análise e a ferramenta usada para a tarefa. Seguidamente, é apresentado o corpus de textos considerado neste estudo e são apresentados os dados recolhidos, nomeadamente o número de erros anotados nos textos depois da tradução automática e depois da primeira fase de pós-edição. Uma análise do número de erros anotados nas várias categorias de erros segue-se a apresentação dos dados e justifica a escolha de algumas categorias de erros para as quais são propostas soluções. Nos três capítulos seguintes são analizados os erros que pertencem às três categorias escolhidas, nomeadamente “word order” (ordem de palavras), no quinto capítulo, “agreement” (concordância), no sexto capítulo, e “tense/mood/aspect” (tempo/modo/aspeto), no sétimo capítulo. Em primeiro lugar, para cada categoria de erro, são abordadas as linhas gerais que caraterizam o fenómeno linguístico em inglês e italiano, e em seguida, os erros anotados são analisados e divididos em sub-categorias. Isto permite encontrar padrões de erros frequentes e generalizá-los, de maneira a poder propor soluções gerais que dêem conta de todos os erros do mesmo tipo. No último capítulo apresentam-se as conclusões e o trabalho futuro que pode ser realizado como continuação do presente estudo e aproveitando aspetos que não foi possível explorar no âmbito do trabalho de projeto aqui apresentado. Em suma, o presente trabalho centra-se na identificação de questões problemáticas e na proposta de soluções para a melhoria da qualidade dos resultados no processo de tradução automática, na fase de pós-edição, constituindo um importante contributo não só para a formação da mestranda no âmbito dos sistemas de tradução automática e do seu funcionamento, como também para a melhoria do desempenho do sistema de trabalho específico levado a cabo na Unbabel

    Probing the adult initial state of non-native Greek: a case study*

    Get PDF
    This is a case study on the initial state of Greek as a second language within the Universal Grammar framework. We administered three oral and four written tasks to an adult Italian-English bilingual with little exposure to Greek. The results showed above chance-level performance on subject-verb agreement and on articles across tasks, indicating the presence of the functional categories Inflection and Determiner. These results support Schwartz and Sprouse’s (1994) ‘Full Transfer/Full Access’ hypothesis and disprove theories which suggest that that the mental grammar of the L2 initial state contains lexical categories only (Vainikka Young‑Scholten 1994). However, the findings revealed low scores in nominal agreement, suggesting that this a problematic area in L2 Greek

    Example based English to Bengali machine translation

    Get PDF
    This thesis report is submitted in partial fulfillment of the requirements for the degree of Bachelor of Science in Computer Science and Engineering, 2008.Cataloged from PDF version of thesis report.Includes bibliographical references (page 31).In this thesis we propose a new architecture for example based English to Bengali machine translation. The proposed Example Based Machine Translation (EBMT) system has five steps: 1) Tagging 2) Parsing 3) Prepare the chunks of the sentence using sub-sentential EBMT 4) Using an efficient adapting scheme match the sentence rule 5) Translate from English to Bengali in the chunk and generate output with morphological analysis. We prepared our tag set for tagging the English sentence. Here we proposed an optimal adapting scheme for choosing sentence rule from the knowledge base of the EBMT system. Our current system can translate simple sentences. We also defined a way to translate a complex sentence using sub-sentential EBMT. As this system can add more rules in the knowledge base, eventually it can be use for general purpose English to Bengali machine translation.Khan Md. Anwarus SalamB. Computer Science and Engineering

    A morphosyntacic description of Northern Sotho as a basis for an automated translation from Northern Sotho into English

    Get PDF
    This PhD thesis provides a morpho-syntactic description of Northern Sotho from a computational perspective. While a number of publications describe morphological and syntactical aspects of this language, may it be in the form of prescriptive study books (inter alia Lombard (1985); Van Wyk et al. (1992); Poulos and Louwrens (1994)) or of descriptive articles in linguistic journals or conference proceedings (inter alia Anderson and Kotz´e (2006); Kosch (2006); De Schryver and Taljard (2006)), so far no comprehensive description is available that would provide a basis for developing a rule-based parser to analyse Northern Sotho on sentence level. This study attempts to fill the gap by describing a substantial grammar fragment. Therefore, Northern Sotho morpho-syntactic phenomena are explored which results in the following descriptions: language units of Northern Sotho are identified, i.e. the tokens and words that form the language. These are sorted into word class categories (parts of speech), using the descriptions of Taljard et al. (2008) as a basis; the formal relationships between these units, wherever possible on the level of parts of speech, are described in the form of productive morpho-syntactic phrase grammar rules. These rules are defined within the framework of generative grammar. Additionally, an attempt is made to find generalisations on the contextual distribution of the many items contained in verbs which are polysemous in terms of their parts of speech. The grammar rules described in the preceding chapter are now explored in order to find patterns in the co-occurrence of parts of speech leading towards a future, more general linguistic modelling of Northern Sotho verbs. It is also shown how a parser could work his way step-by-step doing an analysis of a complete sentence making use of a lexicon and the rules developed here. We have also implemented some relevant phrase grammar rules as a constraint-based grammar fragment, in line with the theory of Lexical-Functional Grammar (Kaplan and Bresnan, 1982). Here, we utilized the Xerox Linguistic Environment (XLE) with the friendly permission of the Xerox Palo Alto Research Centre (PARC). Lastly, the study contains some basic definitions for a proposed machine translation (MT) into English attempting to support the development of MT-rules. An introduction to MT and a first contrastive description of phenomena of both languages is provided.Thesis (PhD)--University of Pretoria, 2010.African Languagesunrestricte