11 research outputs found

    Value-added coding of electronic dictionaries for the LOGOS machine translation system

    Get PDF
    Machine translation requires dictionaries with special codings of morphologic, syntactic and semantic information. This relates to the format, content and depth of the coding scheme. The author describes methods of extraction of terminology and dictionary data from bilingual text files (text and vocabulary alignment). In addition, semi-automatic coding processes are discussed which are based on internal data and their ability to integrate with the LOGOS MT software

    Value-added coding of electronic dictionaries for the LOGOS machine translation system

    Get PDF
    Machine translation requires dictionaries with special codings of morphologic, syntactic and semantic information. This relates to the format, content and depth of the coding scheme. The author describes methods of extraction of terminology and dictionary data from bilingual text files (text and vocabulary alignment). In addition, semi-automatic coding processes are discussed which are based on internal data and their ability to integrate with the LOGOS MT software

    Document Translation for Cross-Language Text Retrieval at the University of Maryland

    Get PDF
    The University of Maryland participated in three TREC-6 tasks: ad hoc retrieval, cross-language retrieval, and spoken document retrieval. The principal focus of the work was evaluation of a cross-language text retrieval technique based on fully automatic machine translation. The results show that approaches based on document translation can be approximately as effective as approaches based on query translation, but that additional work will be needed to develop a solid basis for choosing between the two in specific applications. Ad hoc and spoken document retrieval results are also presented

    Quality in human post-editing of machine-translated texts : error annotation and linguistic specifications for tackling register errors

    Get PDF
    During the last decade, machine translation has played an important role in the translation market and has become an essential tool for speeding up the translation process and for reducing the time and costs needed. Nevertheless, the quality of the results obtained is not completely satisfactory, as it is considerably variable, depending on numerous factors. Given this, it is necessary to combine MT with human intervention, by post-editing the machine-translated texts, in order to reach high-quality translations. This work aims at describing the MT process provided by Unbabel, a Portuguese start-up that combines MT with post-editing provided by online editors. The main objective of the study is to contribute to improving the quality of the translated text, by analyzing annotated translated texts, from English into Italian, to define linguistic specifications to improve the tools used at the start-up to aid human editors and annotators. The analysis of guidelines provided to the annotator to guide his/her editing process has also been developed, a task that contributed to improve the inter-annotator agreement, thus making the annotated data reliable. Accomplishing these goals allowed for the identification and the categorization of the most frequent errors in translated texts, namely errors whose resolution is bound to significantly improve the efficacy and quality of the translation. The data collected allowed us to identify register as the most frequent error category and also the one with the most impact on the quality of translations, and for these reasons this category is analyzed in more detail along the work. From the analysis of errors in this category, it was possible to define and implement a set of rules in the Smartcheck, a tool used at Unbabel to automatically detect errors in the target text produced by the MT system to guarantee a higher quality of the translated texts after post-edition.Nas últimas décadas, a tradução automática tem sido uma importante área de investigação, no âmbito da qual os investigadores têm vindo a conseguir melhorias nos resultados, obtendo mesmo resultados positivos. Hoje em dia, a tradução automática desempenha um papel muito importante no mercado da tradução, devido ao número cada vez maior de textos para traduzir e aos curtos prazos estabelecidos, bem como à pressão constante para se reduzir os custos. Embora a tradução automática seja usada cada vez com mais frequência, os resultados obtidos são variáveis e a qualidade das traduções nem sempre é satisfatória, dependendo dos paradigmas dos sistemas de tradução automática escolhidos, do domínio do texto a traduzir e da sintaxe e do léxico do texto de partida. Mais especificamente, os sistemas de tradução automática que foram desenvolvidos podem ser divididos entre sistemas baseados em conhecimento linguístico, sistemas orientados para os dados e sistemas híbridos, que combinam diferentes paradigmas. Recentemente, o paradigma neuronal tem tido uma aplicação muito expressiva, implicando mesmo a problematização da existência dos restantes paradigmas. Sendo que a qualidade dos resultados de tradução automática depende de diferentes fatores, para a melhorar, é necessário que haja intervenção humana, através de processos de pré-edição ou de pós-edição. Este trabalho parte das atividades desenvolvidas ao longo do estágio curricular na start-up Unbabel, concentrando-se especificamente na análise do processo de tradução automática, implementado na Unbabel, com vista a apresentar um contributo para melhorar a qualidade das traduções obtidas, em particular as traduções de inglês para italiano. A Unbabel é uma start-up portuguesa que oferece serviços de tradução quase em tempo real, combinando tradução automática com uma comunidade de revisores que assegura a pós-edição dos mesmos. O corpus utilizado na realização deste trabalho é composto por traduções automáticas de inglês para italiano, pós-editadas por revisores humanos de e-mails de apoio ao cliente. O processo de anotação visa identificar e categorizar erros em textos traduzidos automaticamente, o que, no contexto da Unbabel, é um processo feito por anotadores humanos. Analisou-se o processo de anotação e as ferramentas que permitem analisar e anotar os textos, o sistema que avalia a métrica de qualidade e as orientações que o anotador tem de seguir no processo de revisão. Este trabalho tornou possível identificar e categorizar os erros mais frequentes nos textos do nosso corpus. Um outro objetivo do presente trabalho consiste em analisar as instâncias dos tipos de erro mais frequentes, para entender quais as causas desta frequência e estabelecer generalizações que permitam elaborar regras suscetíveis de ser implementadas na ferramenta usada na Unbabel, para apoiar o trabalho dos editores e anotadores humanos com notificações automáticas. Em particular, o nosso trabalho foca-se em erros da categoria do registo, o mais frequente nos textos anotados considerados. Mais especificamente, o nosso estudo consiste em definir um conjunto de regras para melhorar a cobertura do Smartcheck, uma ferramenta usada na Unbabel para detetar automaticamente erros em textos traduzidos no âmbito dos fenómenos relacionados com a expressão de registo, para garantir melhores resultados depois do processo de pós-edição. O trabalho apresentado está dividido em oito capítulos. No primeiro capítulo, apresenta-se o objeto de estudo do trabalho, a metodologia usada na sua realização e a organização deste relatório. No segundo capítulo, apresenta-se uma panorâmica teórica sobre a área da tradução automática, sublinhando as características e as finalidades destes sistemas. Apresenta-se uma breve história da tradução automática, desde o surgimento desta área até hoje, bem como os diferentes paradigmas dos sistemas de tradução automática. No terceiro capítulo, apresenta-se a entidade de acolhimento do estágio que serviu de ponto de partida para este trabalho, a start-up portuguesa Unbabel. Explica-se o processo de tradução utilizado na empresa e as fases que o compõem, descrevendo-se detalhadamente os processos de pós-edição e de anotação humanas. São apresentadas também algumas informações sobre as ferramentas usadas na empresa para apoiar o processo de tradução, o Smartcheck e o Turbo Tagger. No quarto capítulo, apresenta-se o processo de anotação desenvolvido na Unbabel, como funciona e as orientações que o anotador deve seguir, descrevendo-se também alguns aspetos que podem ser melhorados. No quinto capítulo problematiza-se a questão do acordo entre anotadores, descrevendo-se a sua importância para medir a homogeneidade entre anotadores e, consequentemente, a fiabilidade de usar os dados de anotação para medir a eficácia e a qualidade dos sistemas de tradução automática. No sexto capítulo, identificam-se os erros mais frequentes por categoria de erro e destaca-se a categoria de registo, a mais frequente e com repercussões evidentes na fluência e na qualidade da tradução, por representar a voz e a imagem do cliente. Apresenta-se uma descrição de um conjunto de regras que pode ser implementado na ferramenta Smartcheck, com vista a diminuir a frequência do erro e aumentar a qualidade dos textos de chegada. Procede-se ainda à verificação do correto funcionamento das regras implementadas, apresentando-se exemplos ilustrativos do desempenho do Smartcheck, na sua versão de teste, com dados relevantes. No último capítulo deste trabalho, apresentam-se as conclusões e o trabalho futuro perspetivado com base neste projeto. Em conclusão, o objetivo do presente trabalho visa contribuir para a melhoria da qualidade dos textos traduzidos na entidade de acolhimento do estágio. Concretamente este trabalho constitui um contributo tangível para o aumento da precisão do processo de anotação humana e para a extensão da cobertura das ferramentas de apoio ao editor e ao anotador humanos usados na start-up Unbabel

    Quality in machine translation and human post-editing : error annotation and specifications

    Get PDF
    Machine translation (MT) has been an important field of research in the last decades and is currently playing a key role in the translation market. The variable quality of results depending on various factors makes it necessary to combine MT with post-editing, to obtain high-quality translation. Post-editing is, nonetheless, a costly and time-consuming task. In order to improve the overall performance of a translation workflow involving MT, it is crucial to evaluate the quality of results produced to identify the main errors and outline strategies to address them. In this study, we assessed the results of MT and after the first human post-edition at Unbabel, a Portuguese startup that provides translation services combining MT with post-editing performed online by a community of editors. A corpus of texts translated at Unbabel from English into Italian was annotated after MT and after the first post-edition step. The data collected allowed us to identify three types of errors that are frequent and critical in terms of quality, namely “word order”, “agreement”, and “tense/mood/aspect”. Hence, correcting the errors belonging to these categories would have a major impact on the quality of translation and turn the post-editing process more accurate and efficient. The errors annotated in the corpus were analyzed in order to identify common patterns of errors, and possible solutions to address the issues identified were outlined. The MT system used at Unbabel and the tools available determined the choice to integrate information retrieved by error analysis in the Smartcheck, the tool used at Unbabel to automatically detect errors in the target text produced by the MT system and provide relevant messages to the editors. Therefore, our study focused on the definition and integration of rules in the Smartcheck to detect the most frequent and critical errors in the texts, in order to provide informative and accurate messages to the editor to aid him/her in the post-editing process.A tradução automática tem vindo a assumir uma grande importância no mercado da tradução e representa atualmente uma importante área de investigação. Durante os últimos cinquenta anos, vários sistemas de tradução automática foram desenvolvidos com base em paradigmas e abordagens diferentes. Os sistemas de tradução automática podem ser divididos entre sistemas baseados em conhecimento linguístico em forma de regras e sistemas baseados em corpora de textos, como os estatísticos e os baseados em exemplos. Além disso, nas últimas décadas, paradigmas diferentes foram combinados para desenvolver sistemas híbridos que utilizam corpora de textos, como nos sistemas estatísticos ou nos baseados em exemplos, mas integram regras e princípios linguísticos, como nos sistemas baseados em conhecimento, para resolver dificuldades gramaticais ou lexicais. Os sistemas de tradução automática são cada vez mais utilizados no processo de tradução, devido ao crescente volume de textos para traduzir e aos curtos prazos estabelecidos. Apesar de haver diferentes sistemas, os resultados são variáveis no que diz respeito à qualidade, dependendo do paradigma e do grau de especialização do sistema e dos textos a traduzir num determinado domínio. Estes factos impõem a necessidade de realizar uma edição dos textos, que pode ocorrer antes da tradução (pré-edição) ou depois (pós-edição). No primeiro caso, do texto de partida são eliminadas as estruturas ou palavras que representam dificuldades para a tradução automática realizada por um sistema em particular. No segundo caso, o texto traduzido pelo sistema é controlado e corrigido por um revisor humano. Para que este tipo de processo possa ser utilizado em grande escala no mercado da tradução, é importante reduzir os custos que lhe são inerentes e agilizá-lo. Além da pré-edição ou pós-edição, em função do paradigma considerado, integrar mais informação linguística ou atualizar os recursos lexicais utilizados permite melhorar os resultados da tradução automática. O presente trabalho tem como objeto de estudo o controlo de qualidade na área da tradução automática, mais especificamente, na fase de pós-edição. O estudo e a análise dos resultados da tradução automática e da fase de pós-edição permitem delinear estratégias para intervir em dois sentidos: por um lado, melhorar os resultados do sistema de tradução automática graças à integração de mais informação no sistema; por outro lado, apoiar o trabalho do revisor na pós-edição, destacando erros prováveis ou assinalando pontos críticos. A avaliação dos resultados da tradução automática inclui uma fase de análise dos erros presentes no texto de chegada e uma classificação dos mesmos, de acordo com uma tipologia de categorias de erros. No estudo da fase de pós-edição, a análise dos erros mais frequentemente corrigidos pelos revisores permite identificar que tipo de informação deve ser integrada no sistema de tradução automática e que instruções podem ser úteis aos revisores. Para a realização desta análise, adotou-se um sistema de classificação a fim de categorizar os erros e, portanto, de realizar uma avaliação quantitativa da qualidade da tradução. O presente trabalho de projeto foi realizado em colaboração com a Unbabel, uma startup portuguesa que oferece serviços de tradução quase em tempo real, combinando tradução automática com uma comunidade de revisores. O corpus que é utilizado para a realização do trabalho que aqui se propõe é formado por textos em língua inglesa, traduzidos para italiano através de um sistema de tradução automática, corrigidos e editados por vários revisores humanos. São analisados os erros presentes nos textos de chegada após a tradução automática e a primeira revisão. A identificação e a análise dos erros permite chegar a generalizações sob a forma de regras a ser implementadas no processo tradução e pós-edição de textos realizado pela Unbabel. Em particular, as regras destinam-se à integração numa ferramenta que identifica automaticamente os erros no texto de chegada de algumas categorias específicas, depois da tradução automática e durante o processo de pós-edição. A ferramenta assinala o erro e, em função do tipo de problema, sugere ao revisor uma correção ou dá-lhe indicações para prestar atenção a um aspeto particular da sequência assinalada, pois é provável que contenha um erro. O presente trabalho divide-se em oito capítulos em que são abordados os temas fundamentais envolvidos na realização do trabalho. No primeiro capítulo apresenta-se o objeto de estudo, a motivação do trabalho de projeto, a abordagem metodológica adoptada e a organização do documento. No segundo capítulo apresenta-se a fundamentação teórica em que se baseou o estudo. Aborda-se brevemente a história da tradução automática, desde as suas primeiras tentativas em meados do século XX, até aos mais recentes sistemas da primeira década do século XXI. Após a apresentação da história, são descritas algumas dificuldades linguísticas e operacionais relacionadas com a tradução automática e apresenta-se uma descrição dos diferentes sistemas de tradução automática, nomeadamente os baseados em conhecimento linguístico, os baseados em corpora e os híbridos. No terceiro capítulo apresenta-se o processo de tradução automática utilizado na Unbabel, fazendo-se uma breve descrição dos passos que o compõem, o sistema de tradução automática usado para a tradução dos textos do corpus e as ferramentas utilizadas na fase de pós-edição para a deteção de erros e para os testes de qualidade. No quarto capítulo introduz-se a tarefa da anotação de erros descrevendo-se, em primeiro lugar, a tipologia de erros adotada na análise e a ferramenta usada para a tarefa. Seguidamente, é apresentado o corpus de textos considerado neste estudo e são apresentados os dados recolhidos, nomeadamente o número de erros anotados nos textos depois da tradução automática e depois da primeira fase de pós-edição. Uma análise do número de erros anotados nas várias categorias de erros segue-se a apresentação dos dados e justifica a escolha de algumas categorias de erros para as quais são propostas soluções. Nos três capítulos seguintes são analizados os erros que pertencem às três categorias escolhidas, nomeadamente “word order” (ordem de palavras), no quinto capítulo, “agreement” (concordância), no sexto capítulo, e “tense/mood/aspect” (tempo/modo/aspeto), no sétimo capítulo. Em primeiro lugar, para cada categoria de erro, são abordadas as linhas gerais que caraterizam o fenómeno linguístico em inglês e italiano, e em seguida, os erros anotados são analisados e divididos em sub-categorias. Isto permite encontrar padrões de erros frequentes e generalizá-los, de maneira a poder propor soluções gerais que dêem conta de todos os erros do mesmo tipo. No último capítulo apresentam-se as conclusões e o trabalho futuro que pode ser realizado como continuação do presente estudo e aproveitando aspetos que não foi possível explorar no âmbito do trabalho de projeto aqui apresentado. Em suma, o presente trabalho centra-se na identificação de questões problemáticas e na proposta de soluções para a melhoria da qualidade dos resultados no processo de tradução automática, na fase de pós-edição, constituindo um importante contributo não só para a formação da mestranda no âmbito dos sistemas de tradução automática e do seu funcionamento, como também para a melhoria do desempenho do sistema de trabalho específico levado a cabo na Unbabel

    Automatisation du repérage et de l'encodage des collocations en langue de spécialité

    Full text link
    Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal

    Logos machine translation system

    No full text

    MULINEX: Multilingual Web Search and Navigation

    No full text
    MULINEX is a multilingual search engine for the WWW. During the phase of document gathering, the system extracts information about documents by making use of language identification, thematic classification and automatic summarisation. In the search phase, the users' query terms are translated in order to enable search in different languages. Search results are presented with a summary and information about the language and thematic categories to which the document belongs. Summaries and documents are translated on demand by making use of the LOGOS machine translation system. The system is to be deployed in the online services of Bertelsmann Telemedia and Grolier Interactive Europe, and supports French, German and English. The current MULINEX prototype is the first system for translingual information access integrating retrieval, summarisation and translation. Keywords translingual information retrieval, categorisation, summarisation, language identification, q..
    corecore