181 research outputs found

    Findings of the 2019 Conference on Machine Translation (WMT19)

    Get PDF
    This paper presents the results of the premier shared task organized alongside the Conference on Machine Translation (WMT) 2019. Participants were asked to build machine translation systems for any of 18 language pairs, to be evaluated on a test set of news stories. The main metric for this task is human judgment of translation quality. The task was also opened up to additional test suites to probe specific aspects of translation

    Low-Resource Unsupervised NMT:Diagnosing the Problem and Providing a Linguistically Motivated Solution

    Get PDF
    Unsupervised Machine Translation hasbeen advancing our ability to translatewithout parallel data, but state-of-the-artmethods assume an abundance of mono-lingual data. This paper investigates thescenario where monolingual data is lim-ited as well, finding that current unsuper-vised methods suffer in performance un-der this stricter setting. We find that theperformance loss originates from the poorquality of the pretrained monolingual em-beddings, and we propose using linguis-tic information in the embedding train-ing scheme. To support this, we look attwo linguistic features that may help im-prove alignment quality: dependency in-formation and sub-word information. Us-ing dependency-based embeddings resultsin a complementary word representationwhich offers a boost in performance ofaround 1.5 BLEU points compared to stan-dardWORD2VECwhen monolingual datais limited to 1 million sentences per lan-guage. We also find that the inclusion ofsub-word information is crucial to improv-ing the quality of the embedding

    Recent advances in Apertium, a free/open-source rule-based machine translation platform for low-resource languages

    Get PDF
    This paper presents an overview of Apertium, a free and open-source rule-based machine translation platform. Translation in Apertium happens through a pipeline of modular tools, and the platform continues to be improved as more language pairs are added. Several advances have been implemented since the last publication, including some new optional modules: a module that allows rules to process recursive structures at the structural transfer stage, a module that deals with contiguous and discontiguous multi-word expressions, and a module that resolves anaphora to aid translation. Also highlighted is the hybridisation of Apertium through statistical modules that augment the pipeline, and statistical methods that augment existing modules. This includes morphological disambiguation, weighted structural transfer, and lexical selection modules that learn from limited data. The paper also discusses how a platform like Apertium can be a critical part of access to language technology for so-called low-resource languages, which might be ignored or deemed unapproachable by popular corpus-based translation technologies. Finally, the paper presents some of the released and unreleased language pairs, concluding with a brief look at some supplementary Apertium tools that prove valuable to users as well as language developers. All Apertium-related code, including language data, is free/open-source and available at https://github.com/apertium

    FluentSigners-50: A signer independent benchmark dataset for sign language processing

    Get PDF
    This paper presents a new large-scale signer independent dataset for Kazakh-Russian Sign Language (KRSL) for the purposes of Sign Language Processing. We envision it to serve as a new benchmark dataset for performance evaluations of Continuous Sign Language Recognition (CSLR) and Translation (CSLT) tasks. The proposed FluentSigners-50 dataset consists of 173 sentences performed by 50 KRSL signers resulting in 43,250 video samples. Dataset contributors recorded videos in real-life settings on a wide variety of backgrounds using various devices such as smartphones and web cameras. Therefore, distance to the camera, camera angles and aspect ratio, video quality, and frame rates varied for each dataset contributor. Additionally, the proposed dataset contains a high degree of linguistic and inter-signer variability and thus is a better training set for recognizing a real-life sign language. FluentSigners-50 baseline is established using two state-of-the-art methods, Stochastic CSLR and TSPNet. To this end, we carefully prepared three benchmark train-test splits for models’ evaluations in terms of: signer independence, age independence, and unseen sentences. FluentSigners-50 is publicly available at https://krslproject.github.io/FluentSigners-50/publishedVersio

    Quality of Machine Translations by Google Translate, Microsoft Bing Translator and iTranslate4

    Get PDF
    Tässä tutkimuksessa on tavoitteena vertailla kolmen konekääntimen tekemien käännösten laatua. Mukaan tutkimukseen valittiin konekääntimet Google Translate, Microsoft Bing ja iTranslate4. Tutkimuksen ensisijaisena tarkoituksena on selvittää, mikä valituista järjestelmistä toimii parhaiten käännettäessä suomen kielestä englannin kielelle. Tutkimuksen alussa asetettiin oletushypoteesiksi, että iTranslate4-konekäännin tulisi tekemään muita konekääntimiä vähemmän virheitä, etunaan suomalainen kehitystausta. Tutkimuksen toisena tarkoituksena oli selvittää, mikä tutkimusmateriaalin kolmesta tekstityypistä on haastavin vertailun konekääntimille. Oletuksena oli, että mitä pidempi teksti, sitä suurempi virheprosentti ja täten ajankohtaisten tapahtumien tekstit osoittautuisivat haastavimmiksi, koska ne olivat pisimpiä valituista teksteistä. Englannin kielelle käännettävä suomenkielinen tutkimusmateriaali otettiin Vaasan yliopiston internet-sivuilta, joilta tutkimukseen valittiin sosiologian ja venäjän kielen opintojen esittelytekstit. Materiaalina käytettiin tämän lisäksi kahta uutisartikkelia, jotka valittiin Pohjalaisen ja Uusisuomen internet-sivuilta, sekä kahta ajankohtaisten tapahtumien kuvausta, joista toinen otettiin koripallojoukkue Vaasan Salaman ja toinen harrastuskerho Waasa Snowmobilen internet-sivustoilta. Käännösten laadun arviointi perustuu Maarit Koposen vuonna 2010 laatimaan virheanalyysiin, jossa käännöksistä etsittiin käsitevirheitä, lajitellen virheet neljään eri kategoriaan: poisjätetyt-, lisätyt-, väärin käännetyt-, sekä kääntämättömät käsitevirheet. Tässä vertailussa vähiten kaikkia neljän eri tyypin käsitevirhettä yhteensä tehnyt konekäännin todettiin vertailun parhaaksi konekääntimeksi ja kaikkien virhetyyppien merkitystä pidettiin yhtä suurena. Tutkimustulokset osoittavat, että suomalaisen Sunda Systems Oy:n sääntöihin perustuvaa tekniikkaa (RBMT) käyttävä iTranslate4-konekäännin teki vähemmän virheitä kuin statistiseen (SMT) konekäännökseen perustuva Google Translate, joka puolestaan suoriutui paremmin kuin vertailun viimeiseksi jäänyt statistinen Microsoft Bing Translator -konekäännin. Tekstityypeistä vaikeimmin käännettäviksi osoittautuivat uutisartikkelit, joiden käännökset sisälsivät prosentuaalisesti eniten käsitevirheitä. Pidempien tekstien todettiin yleensä vaikuttavan käännösten laatuun negatiivisesti, vaikkeivät vertailun pisimmät tekstit osoittautuneetkaan aina haastavimmiksi.fi=Opinnäytetyö kokotekstinä PDF-muodossa.|en=Thesis fulltext in PDF format.|sv=Lärdomsprov tillgängligt som fulltext i PDF-format

    Survey of Low-Resource Machine Translation

    Get PDF
    International audienceWe present a survey covering the state of the art in low-resource machine translation (MT) research. There are currently around 7,000 languages spoken in the world and almost all language pairs lack significant resources for training machine translation models. There has been increasing interest in research addressing the challenge of producing useful translation models when very little translated training data is available. We present a summary of this topical research field and provide a description of the techniques evaluated by researchers in several recent shared tasks in low-resource MT
    corecore