248 research outputs found

    Amazigh Representation in the UNL Framework: Resource Implementation

    Get PDF
    AbstractThis paper discusses the first steps undertaken to create necessary linguistic resources to incorporate Amazigh language within the Universal Networking Language (UNL) framework for machine translation purpose. This universal interlanguage allows to any source text to be translated into different other related languages with UNL by converting the meaning of the source text into semantic graph. This encoding is considered as a pivot interlanguage used in translation systems. Thus in this work, we focus on presenting morphological, syntactical and lexical mapping stages needed for building an “Amazigh dictionary” according to the UNL framework and the “UNL-Amazigh Dictionary” that are both taking part in enconversion and deconversion processes

    A Latent Morphology Model for Open-Vocabulary Neural Machine Translation

    Get PDF
    Translation into morphologically-rich languages challenges neural machine translation (NMT) models with extremely sparse vocabularies where atomic treatment of surface forms is unrealistic. This problem is typically addressed by either pre-processing words into subword units or performing translation directly at the level of characters. The former is based on word segmentation algorithms optimized using corpus-level statistics with no regard to the translation task. The latter learns directly from translation data but requires rather deep architectures. In this paper, we propose to translate words by modeling word formation through a hierarchical latent variable model which mimics the process of morphological inflection. Our model generates words one character at a time by composing two latent representations: a continuous one, aimed at capturing the lexical semantics, and a set of (approximately) discrete features, aimed at capturing the morphosyntactic function, which are shared among different surface forms. Our model achieves better accuracy in translation into three morphologically-rich languages than conventional open-vocabulary NMT methods, while also demonstrating a better generalization capacity under low to mid-resource settings.Comment: Published at ICLR 202

    Proceedings of the Sixth International Conference Formal Approaches to South Slavic and Balkan languages

    Get PDF
    Proceedings of the Sixth International Conference Formal Approaches to South Slavic and Balkan Languages publishes 22 papers that were presented at the conference organised in Dubrovnik, Croatia, 25-28 Septembre 2008

    O avtomatski evalvaciji strojnega prevajanja

    Get PDF
    Stalen del razvoja strojnega prevajanja je evalvacija prevodov, pri čemer se v glavnem uporabljajo avtomatski postopki. Ti vedno temeljijo na referenčnem prevodu. V tem prispevku pokažemo, kako zelo različni so lahko referenčni prevodi za področje podnaslavljanja ter kako lahko to vpliva na oceno – ista metrika lahko isti prevajalnik oceni kot neuporaben ali kot zelo uspešen samo na podlagi tega, da uporabimo referenčne prevode, ki so pridobljeni po različnih postopkih, vendar vedno jezikovno in pomensko povsem ustrezni

    Portuguese-Chinese neural machine translation

    Get PDF
    Tese de mestrado, Engenharia Informática (Interação e Conhecimento) Universidade de Lisboa, Faculdade de Ciências, 2019Esta dissertação apresenta um estudo sobre Tradução Automática Neuronal (Neural Machine Translation) para o par de línguas Português (PT) ↔ Chinês (ZH) culminando na criação de um sistema de tradução automática com desempenho ao nível do estado da arte, que tira partido apenas de recursos e ferramentas livremente disponíveis. Este par de línguas foi escolhido devido ao seu impacto a nível global. O Português é a sexta língua mais falada no mundo, com presença em todos os continentes (sendo em particular a língua mais falada no hemisfério sul) e a língua Chinesa, que tem como país de origem a China, é a língua mais falada em todo o mundo. Como super potência emergente, a China tem cada vez mais ligações aos países ocidentais e, como tal, a necessidade de instrumentos de comunicação adequados que possam atravessar as barreiras linguísticas é cada vez mais premente. A tradução automática surge assim como um apoio para o acesso rápido a grandes quantidades de informação. Portugal e a língua portuguesa têm várias ligações à China. Uma destas ligações é Macau, uma região administrativa especial da República Popular da China onde o Português e o Chinês são ambas línguas oficiais e, assim sendo, onde o interesse num sistema que traduza entre as duas é muito grande. Porém, o problema da Tradução Automática entre estas duas línguas ainda não tem sido alvo de suficiente atenção pela comunidade científica. Neste trabalho ambas as direções de tradução são consideradas, isto é, são criados sistemas de tradução para a direção de tradução Português → Chinês e para a direção Chinês → Português. A dificuldade na criação de tais sistemas passa pela aquisição de corpora de qualidade e em quantidade suficiente nas duas línguas, o que para o par de línguas escolhido é um grande desafio; e passa também pela escolha da arquitetura que melhor se adapta a esse corpora. Para a criação destes sistemas de tradução, exploro três abordagens, que são referidas neste documento como: (i) abordagem direta (direct approach), que faz uso apenas de corpora paralelo entre Português e Chinês; (ii) abordagem pivô (pivot approach), que usa uma terceira língua como intermediário para a tradução; e (iii) abordagem muitos-para muitos (many-to-many approach), que tira partido de toda a informação usada nas outras duas abordagens. As várias abordagens são implementadas com recurso a redes neuronais, mais propriamente à arquitetura Transformer (Vaswani et al., 2017), e obtêm desempenho assinalável, com uma das abordagens a alcançar resultados superiores aos do Google Tradutor para o par de línguas escolhido em ambas as direções. Para efeitos de teste e comparação entre as várias abordagens e as traduções do Google Tradutor, o mesmo corpus de teste é usado para avaliar todos os sistemas. Esse corpus de teste é constituído pelas primeiras 1000 frases do News Commentary v11 corpus (Tiedemann, 2012), sendo composto por textos jornalísticos bem curados e com grande qualidade gramatical. A abordagem direta é a solução mais comum usada para a criação de um sistema de tradução automática. No caso deste estudo, um corpus paralelo entre Português e Chinês é usado para a criação de dois modelos, um para cada direção de tradução, isto é um para PT → ZH e outro para ZH → PT. Apesar das dificuldades em encontrar corpora paralelo entre Português e Chinês, foi possível encontrar um corpus com cerca de 1 milhão de frases, o qual é usado para o treino desta abordagem. O artigo que apresenta este corpus (Chao et al., 2018) foi publicado poucos meses antes do início desta dissertação e tanto quanto sei não existem outros trabalhos que usem este corpus além de (Chao et al., 2018). Usando a métrica BLEU (Papineni et al., 2002), a abordagem direta consegue um melhor desempenho que a base dada pelo Google Tradutor para a direção ZH → PT, não conseguindo, contudo, ultrapassar esta base para a direção de tradução PT → ZH. A falta de qualidade e quantidade de corpora paralelos entre Português e Chinês motiva a experimentação com uma abordagem pivô. Numa abordagem pivô, o sistema faz uso de uma língua intermediária escolhida de forma a que haja grande quantidade e qualidade de corpora paralelos entre esta e as outras duas línguas. O sistema começa por traduzir de Português ou Chinês para a língua pivô e de seguida traduz da língua pivô para Chinês ou Português. A ideia por detrás desta abordagem é que as redes neuronais tendem a ter melhor performance quanto maior for o número de exemplos usados para treino da rede, e que esta melhoria será capaz de compensar a degradação da tradução introduzida pela passagem por uma língua intermédia. Usando a métrica BLEU, esta abordagem obtém resultados superiores à base e à abordagem direta em ambas as direções de tradução. Finalmente, a abordagem muitos-para-muitos segue as propostas de Johnson et al. (2017), Lakew et al. (2017) e Aharoni et al. (2019), que permitem o uso dos vários corpora paralelos usados para treino das outras duas abordagens. Usando a métrica BLEU, os resultados deste sistema ficam entre os da abordagem direta e os da abordagem pivô, não conseguindo ultrapassar a base para a direção de tradução PT → ZH. De entre os vários sistemas criados, a abordagem com melhores resultados é a abordagem pivô, que por sua vez foi a única abordagem que não viu qualquer tipo de dados paralelos entre as línguas Portuguesa e Chinesa. Porém, a abordagem muitos-para-muitos é a que demonstra maior potencial de desenvolvimento pois tem a capacidade de facilmente incorporar mais dados e assim melhorar a qualidade de tradução. O trabalho final, para além de uma panorâmica sobre o estado da arte da tradução automática, fornece uma solução prática com boa qualidade para a tradução entre Português e Chinês usando apenas recursos e ferramentas livremente disponíveis. Foi também criado um serviço online de tradução entre Português e Chinês disponível gratuitamente em https://portulanclarin.net/workbench/lx/translator/, resultante do trabalho descrito neste documento. Cabe notar que parte do trabalho apresentado nesta dissertação já foi alvo de revisão por pares (peer review) e aceite para publicação (Santos et al., to appear).This dissertation reports on a study addressing Neural Machine Translation for the language pair Portuguese ↔ Chinese and also on the development of a state of the art Machine Translation system for this pair using only freely available resources. The choice of this particular language pair was due to the fact that China is regarded as an emerging super power whose ties are steadily increasing with western countries, and as such the need for appropriate communication tools that can cross linguistic barriers is becoming a more pressing issue. The use of Machine Translation supports fast access to big quantities of data in another language. Portugal and its language have several ties with China. With Macau being a special administrative region of the People’s Republic of China where the two languages are official languages, a Machine Translation system for this pair is of high importance. In this work, both translation directions are considered. That is, there are systems for the translation direction Chinese → Portuguese, and systems for the direction Portuguese → Chinese. The key issue underlying the creation of such systems is twofold: (i) the gathering of corpora with good enough quality and quantity, which for this pair is a challenge; and (ii) the choice of a suitable architecture to accommodate such corpora. Three approaches are followed to address the problem, with all the implemented systems making use of neural networks, namely the Transformer architecture, and with the performance of one approach surpassing that of the baseline Google Translate for the chosen language pairs in both translation directions. An online translation service was also developed, showcasing one of the three approaches studied in this document for the two translation directions, and is freely available at https://portulanclarin.net/workbench/lx/translator/. Note that part of the work presented in this dissertation already passed peer review, and was accepted for publication (Santos et al., to appear)
    corecore