6 research outputs found

    Learning Translation Rules from Bilingual English - Filipino Corpus

    Get PDF
    PACLIC 19 / Taipei, taiwan / December 1-3, 200

    Análise das correspondências de tradução inglês-português para substantivos e adjetivos compostos hifenizados da língua inglesa: uma abordagem de base em corpus

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Comunição e Expressão, Programa de Pós-Graduação em Estudos da Tradução, Florianópolis, 2009.Esta pesquisa busca analisar as correspondências de tradução inglês-português para substantivos e adjetivos compostos hifenizados da língua inglesa. Para tanto, utiliza uma abordagem baseada em corpus (corpus-based). O corpus utilizado é composto por textos de um documento oficial. O objetivo principal desta análise é fornecer informação morfossintática para auxiliar a geração de regras de tradução para sistemas tradução automática. O corpus também é analisado para verificar e qantificar algumas das características de documentos oficiais apresentadas por Biber (1988). Os procedimentos metodológicos foram realizados por meio do programa WordSmith Tools, utilizando-se as ferramentas Wordlist, Concord, e Keywords. O corpus de referência utilizado foi o British National Corpus (BNC). A princípio foi gerada uma lista de palavras por meio da ferramenta Wordlist, para obter informações estatísticas, como o número de tipos e ocorrências do documento oficial. A Ferramenta Keywords foi utilizada para identificar as palavras em sobreuso no corpus de estudo, em relação ao corpus de referência (BNC). Tais palavras formaram a lista de palavras-chave do documento. Verificou-se que juntamente com algumas dessas palavras-chave ocorriam numerosos substantivos e adjetivos compostos hifenizados. Tais nomes compostos hifenizados foram analisados para verificar as estruturas morfossintáticas de cada composto em inglês e de sua tradução para o português. Foram analisados quarenta e um exemplos de tradução de nomes compostos. A análise da tradução desses exemplos produziu informação morfossintática a ser utilizada em formalismos de regras de tradução, para aplicação na tradução automática. A análise do corpus confirmou a maior parte das características de documentos oficiais apresentadas por Biber, e ainda revelou outras características do corpus de estudo, como a ocorrência de numerosos verbos modais, relacionados ao caráter prescritivo do documento. Por sua vez, a análise das correspondências de tradução para nomes compostos hifenizados forneceu informação que pode ser aproveitada em sistemas de tradução automática direta, especialmente em corpora de domínio restrito; ou em sistemas híbridos, de modo que cada método seja responsável por determinados aspectos do processo de tradução

    Using Comparable Corpora to Augment Statistical Machine Translation Models in Low Resource Settings

    Get PDF
    Previously, statistical machine translation (SMT) models have been estimated from parallel corpora, or pairs of translated sentences. In this thesis, we directly incorporate comparable corpora into the estimation of end-to-end SMT models. In contrast to parallel corpora, comparable corpora are pairs of monolingual corpora that have some cross-lingual similarities, for example topic or publication date, but that do not necessarily contain any direct translations. Comparable corpora are more readily available in large quantities than parallel corpora, which require significant human effort to compile. We use comparable corpora to estimate machine translation model parameters and show that doing so improves performance in settings where a limited amount of parallel data is available for training. The major contributions of this thesis are the following: * We release ‘language packs’ for 151 human languages, which include bilingual dictionaries, comparable corpora of Wikipedia document pairs, comparable corpora of time-stamped news text that we harvested from the web, and, for non-roman script languages, dictionaries of name pairs, which are likely to be transliterations. * We present a novel technique for using a small number of example word translations to learn a supervised model for bilingual lexicon induction which takes advantage of a wide variety of signals of translation equivalence that can be estimated over comparable corpora. * We show that using comparable corpora to induce new translations and estimate new phrase table feature functions improves end-to-end statistical machine translation performance for low resource language pairs as well as domains. * We present a novel algorithm for composing multiword phrase translations from multiple unigram translations and then use comparable corpora to prune the large space of hypothesis translations. We show that these induced phrase translations improve machine translation performance beyond that of component unigrams. This thesis focuses on critical low resource machine translation settings, where insufficient parallel corpora exist for training statistical models. We experiment with both low resource language pairs and low resource domains of text. We present results from our novel error analysis methodology, which show that most translation errors in low resource settings are due to unseen source language words and phrases and unseen target language translations. We also find room for fixing errors due to how different translations are weighted, or scored, in the models. We target both error types; we use comparable corpora to induce new word and phrase translations and estimate novel translation feature scores. Our experiments show that augmenting baseline SMT systems with new translations and features estimated over comparable corpora improves translation performance significantly. Additionally, our techniques expand the applicability of statistical machine translation to those language pairs for which zero parallel text is available

    Automatic Rule Learning for Resource-Limited MT

    No full text
    Machine Translation of minority languages presents unique challenges, including the paucity of bilingual training data and the unavailability of linguistically-trained speakers. This paper focuses on a machine learning approach to transfer-based MT, where data in the form of translations and lexical alignments are elicited from bilingual speakers, and a seeded version-space learning algorithm formulates and refines transfer rules. A rule-generalization lattice is defined based on LFG-style f-structures, permitting generalization operators in the search for the most general rules consistent with the elicited data. The paper presents these methods and illustrates examples
    corecore