2 research outputs found

    Suporte à extracção de traduções de termos simples ou compostos em ambiente multilingue

    Get PDF
    Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial para obtenção do grau de Mestre em Engenharia InformáticaA construção automática de léxicos bilingues é indispensável para aplicações como o acesso a informação disponível em várias línguas, a tradução automática, a construção de ontologias multilingues, entre outras. Nos últimos anos tem havido alguma actividade no sentido de extrair traduções auxiliadas por léxicos bilingues existentes entre línguas com maiores recursos, X-Y e Y-Z, por exemplo, para pares de línguas com menores recursos, X-Z, utilizando uma das línguas com mais recursos (a língua Y, no caso) como língua pivô. Neste trabalho, assume-se o Português (PT) como língua pivô. Dada a existência de um léxico de traduções de palavras e de multi-palavras minimamente desenvolvido, com cerca de 200.000 entradas, entre Português e Inglês (EN), partindo da semelhança estrutural e lexical das línguas Portuguesa e Espanhola (ES), extraiu-se traduções de palavras para o par EN-ES, utilizando um corpus de textos paralelos (dois textos são paralelos se forem tradução um do outro ou ambos forem tradução de um mesmo texto fonte), existente para todas as línguas da União Europeia,detectando primeiro as palavras que possam ser cognatas (semelhantes na forma e com o mesmo significado). Considerando as entradas do léxico bilingue PT-EN, identificou-se as possíveis traduções em Inglês das palavras espanholas cognatas com palavras portuguesas previamente identificadas. Em seguida, os possíveis cognatos entre Português e Espanhol e as possíveis traduções de Espanhol em Inglês foram avaliadas adicionalmente quanto à sua semelhança nos textos da colecção em que ocorrem, recorrendo a medidas de semelhança utilizadas para estes efeitos e definindo um limiar de semelhança para a aceitação dos cognatos entre PT e ES como traduções e das traduções inferidas, entre o Espanhol e o Inglês, via o léxico bilingue PT-EN. Os resultados foram avaliados manualmente. Conseguiu-se aumentar a produtividade dos avaliadores das traduções de termos, passando-lhes traduções com um elevado grau de precisão. Discute-se, os resultados obtidos fazendo variar: o grau de semelhança entre possíveis cognatos, a medida de semelhança entre termos de línguas diferentes, distinguindo-se também o tipo de contextos em que ocorrem (textos completos paralelos, frases paralelas ou segmentos mais curtos obtidos pelo alinhamento realizado) e os limiares de aceitação utilizados

    Genuine phrase-based statistical machine translation with supervision

    Get PDF
    This thesis addresses mainly two issues that have not been addressed in Statis-tical Machine Translation. One issue is that even though research has been evolving from word-based approaches to phrase-based ones, because words were consistently found to be inappropriate translation units, the fact is that words are still considered in the composition of phrases, either to determine translation equivalents or to check language fluency. Such consideration might result in the attempt of establishing relations between words within a phrase translation equivalent even when sometimes its phrases should be considered as a whole. Attempts to further partition such phrases would produce incorrect translation units that would introduce unwanted noise in the translation pro-cess. Besides, the internal fluency of an identified multi-word phrase should not require checking. As such, phrases should indeed be considered units, avoiding incorrect translation equivalents that might be identified from their partition, as well as only considering the fluency of a phrase with other phrases and not within the phrase itself. The other issue is that supervision, in the form of trans-lation lexica, is generally overlooked, with SMT research focusing mainly on the identification of translation units without any human intervention and without considering already known translation units. As such, no importance has been attributed to the inclusion of verified lexica, with only some rarely used dic-tionaries to score translation candidates and not really as a source of translation units. Indeed, translation equivalents should be memorized, checked and used as a source of translation units, avoiding the need to keep identifying the same translation units, in particular if those are frequently used. This Thesis presents a truly Phrase-Based approach to SMT, using contiguous and non-contiguous phrases, along with Supervision, in which phrases are not divided and verified lexica is built, kept and used to propose translations of complete sentences
    corecore