6 research outputs found

    The use of neural machine translation in translating Finnish news articles:an error analysis of the NMT service DeepL

    Get PDF
    Abstract. In this thesis, a brief overview of the functionality of the neural machine translation system DeepL is provided. Machine translation is an expanding field in translation studies, and it continuously provides us with new technology and applications to translate texts as accurately as possible. The aim of this study was to examine the capabilities of DeepL in translating Finnish news articles with no available reference translations. The reason for this was to prevent DeepL from finding completed translations and possibly benefitting from them, as neural machine translation systems seek data from sources available on the internet. The articles were selected randomly from the free internet news providers Yle and Iltalehti. The errors have been listed, categorized and analyzed in the section “Analysis”. Conclusions along with general discussion about the performance of DeepL can be found in the last section of this thesis. Overall, this thesis shows DeepL’s promising capability when translating news text. Still, it must be kept in mind that the aim of this thesis was not to seek perfect translations, but rather successful message transmission. The idea of machine translation being a worthy competitor to human-made translations in more specific areas of translation, such as medical or legal translation, is still far away. Still, any conducted research is vital for the progression and development of machine translation services. The analysis of this study provides examples of areas where DeepL is not sufficient. These areas include for example, the translation of new words, translation of pronouns and culture-specific terms. Instances when DeepL succeeds to make acceptable translations in one of the listed categories, have been presented also in the analysis section.Neuroverkkokääntämisen käyttö käännettäessä suomalaisia uutisartikkeleita : virheanalyysi DeepL:n toiminnasta. Tiivistelmä. Kandidaatintyössäni käsitellään neuroverkkoihin perustuvan käännösohjelman, DeepL:n suoriutumista käännettäessä suomalaisia uutistekstejä. Käytettävät tekstit on poimittu Ylen ja Iltalehden ilmaisista nettiuutispalveluista. Työssä käytettyjä uutistekstejä ei ole käännetty englannin kielelle. Tämä oletettavasti välttää konekääntöohjelmien hyötymisen valmiista käännöksistä, joka on tärkeää ottaen huomioon neuroverkkoihin perustuvien kääntämisohjelmien toimintaperusteet. Konekääntäminen on aiheena trendikäs, ja kuuluu nykypäivänä sovellusten myötä osaksi lähes jokaisen elämää. Alan kehittymisen voi selvästi havaita tarkkailemalla koko ajan uudistuvia konekääntöohjelmia. Käännetyistä teksteistä havaitut virheet on analysoitu virheanalyysin muodossa, ja johtopäätökset esitetty tutkielman lopussa. Virheanalyysi on jaettu kategorioihin virhetyyppien perusteella. Yleisellä tasolla voinee todeta, että DeepL suoriutuu hyvin käännettäessä suomalaista uutistekstiä. Tämän tutkimuksen tavoitteena ei kuitenkaan ollut etsiä täydellistä kääntämistä, vaan onnistunutta viestinvälitystä. Eri kääntämisen alat, kuten lääketieteellinen kääntäminen ja lakitekstikääntäminen vaativat äärimmäistä tarkkuutta, ja tässä työssä esitettävien virhe-esimerkkien perusteella voinee todeta, että konekääntäminen ei vielä sovellu vaikkapa edellä mainittujen alojen tekstien kääntämiseen. Konekääntäminen on joka tapauksessa toimiva apuväline jokapäiväisiin kieleen liittyviin ongelmiin, ja sen tutkiminen on tärkeää sen kehittämiselle. Analyysini antaa pintaraapaisun siitä, missä DeepL:n kaltaiset konekääntöohjelmat eivät vielä suoriudu. Virheitä löytyi esimerkiksi pronominien käytössä, kulttuurille omien termien käännöksessä ja uudissanojen kääntämisessä. Analyysissä on esitelty myös esimerkkejä tapauksista, joissa DeepL suoriutuu kääntämään tiettyyn kategoriaan liittyvän tekstin osan onnistuneesti

    Building End-to-End Neural Machine Translation Systems for Crisis Scenarios: The Case of COVID-19

    Get PDF
    Η Μηχανική Μετάφραση είναι ένα σημαντικό κομμάτι της Επεξεργασίας Φυσικής Γλώσσας, καθώς στοχεύει στην γρήγορη και αυτόματη μετάφραση διαφόρων ειδών κειμένων. Τα τελευταία χρόνια, η επικράτηση της Νευρωνικής Μηχανικής Μετάφρασης και η δημιουργία μεγάλων παράλληλων συλλογών κειμένων έχει οδηγήσει σε σημαντική βελτίωση της ποιότητας μετάφρασης. Ωστόσο, τα μεταφραστικά μοντέλα δεν είναι απαραιτήτως κατάλληλα για όλους τους τομείς κειμένων κι αυτό έχει οδηγήσει σε διάφορες έρευνες σχετικές με την προσαρμογή υπαρχόντων συστημάτων Μηχανικής Μετάφρασης σε διάφορους γνωστικούς τομείς κειμένων, δηλ. στο πώς να βελτιωθεί καλύτερα η ποιότητα μετάφρασης για μία συγκεκριμένη θεματική ή είδος κειμένων. Η Μηχανική Μετάφραση για Καταστάσεις Κρίσεων είναι μία ιδιαίτερη εφαρμογή της εξειδίκευσης συστημάτων σε θεματικούς τομείς, η οποία ασχολείται με την γρήγορη εξειδίκευση ενός υπάρχοντος συστήματος Μηχανικής Μετάφρασης για μία κατάσταση κρίσης, καθώς η ενσωμάτωση ενός τέτοιου συστήματος σε μία υποδομή ταχείας απόκρισης μπορεί να επιταχύνει την παροχή βοήθειας και την λήψη αποφάσεων. Η πανδημία του COVID-19 αποδείχτηκε μία κρίση μεγάλης διάρκειας και διεθνούς χαρακτήρα στην οποία παρουσιάστηκαν μεγάλα κενά στην διαφανή, έγκαιρη και αποτελεσματική επικοινωνία με το κοινό, ενώ σημαδεύτηκε από παραπληροφόρηση, θεωρίες συνομωσίας και σημαντικούς περιορισμούς στην ελευθερία του Τύπου. Περαιτέρω έρευνα στο πεδίο της Μηχανικής Μετάφρασης για Καταστάσεις Κρίσεων θα μπορούσε να συνδράμει σημαντικά στην αντιμετώπιση παρόμοιων μελλοντικών κρίσεων. Η παρούσα διπλωματική εργασία εστιάζει στην περίπτωση της πανδημίας του COVID-19 και στην μετάφραση αγγλικών κειμένων στα ελληνικά, ενώ επίσης κατασκευάζονται δύο εξειδικευμένα πολυγλωσσικά παράλληλα σώματα κειμένων. Το ένα σχετίζεται με τον COVID-19 και το άλλο προέρχεται από περιλήψεις ακαδημαϊκών εργασιών και διατριβών. Στην αρχή περιγράφουμε την διαδικασία συλλογής καινούριων παράλληλων σωμάτων κειμένων για συγκεκριμένους τομείς και την δημιουργία συνθετικών δεδομένων. Αυτά τα δεδομένα συνδυάζονται με υπάρχοντα παράλληλα δεδομένα ώστε να εξειδικεύσουν ένα υπάρχον σύστημα για τον COVID-19. Η διαδικασία αυτή περιλαμβάνει επίσης το φιλτράρισμα, την προεπεξεργασία και την επιλογή κατάλληλων δεδομένων, τα οποία παρουσιάζονται αναλυτικώς. Έπειτα, κάνουμε πειράματα πάνω σε διαφορετικές στρατηγικές εξειδίκευσης υπαρχόντων συστημάτων Μηχανικής Μετάφρασης για μία προσομοιωμένη κατάσταση κρίσης όπου τα σχετικά δεδομένα αυξάνονται με την πάροδο του χρόνου. Μας ενδιαφέρει επίσης το φαινόμενο “catastrophic forgetting” στο οποίο παρουσιάζεται μείωση της ποιότητας μετάφρασης σε κείμενα γενικού περιεχομένου. Τέλος, κατασκευάζουμε ένα ολοκληρωμένο σύστημα Νευρωνικής Μηχανικής Μετάφρασης το οποίο είναι εξειδικευμένο στην μετάφραση αγγλικών κειμένων σχετικά με τον COVID-19 στα ελληνικά. Αξιολογούμε διεξοδικά την απόδοσή του σε διαφορετικά είδη κειμένων ώστε να βρούμε τα δυνατά και αδύνατα σημεία του, κάνοντας χρήση οκτώ εξειδικευμένων δοκιμασιών (εκ των οποίων τα τέσσερα δημιουργήθηκαν για την παρούσα διπλωματική) και άλλων διαθέσιμων μοντέλων και υπηρεσιών μετάφρασης.Machine Translation is a crucial task of Natural Language Processing, as it aims to provide a fast and automatic way of translating various types of texts. In recent years, the emergence of Neural Machine Translation and the compilation of large-scale parallel corpora have led to significant improvements in translation quality. However, translation models are not necessarily suited for all domains and, thus, there has been significant research on domain adaptation of Neural Machine Translation Systems, i.e., on how to best improve the translation quality of an existing system for a specific topic or genre. Crisis Machine Translation is a special case of Domain Adaptation which is concerned with the rapid adaptation of an existing Machine Translation system for a crisis scenario, as the integration of such a system in a rapid response infrastructure can accelerate the speed of decision making and relief provision. The COVID-19 pandemic proved to be a prolonged and global crisis with large gaps in transparent, timely, and effective communication; it was also marked by misinformation, conspiracy theories, and significant restrictions on press freedom. Further research on Crisis Machine Translation could play an important role in better responding to future similar crises. In this thesis, we focus on the case of the COVID-19 pandemic and the English-Greek translation direction, while we also create two domain-specific multilingual parallel corpora; one which is related to COVID-19 and one which has been gathered from the abstracts of academic theses and dissertations. First, we describe the methodologies of acquiring new domain-specific parallel corpora and generating synthetic data which are combined with existing parallel data so as to adapt an existing system to the domain of COVID-19. This process includes data filtering, pre-processing, and selection pipelines, which are also described in detail. Afterwards, we conduct experiments on different fine-tuning strategies for a simulated crisis scenario in which varying amounts of related data become available as time progresses. We are also concerned with the phenomenon of “catastrophic forgetting”, i.e., the degradation of system performance on general texts. Lastly, we construct an end-to-end Neural Machine Translation system which is specialized in translating COVID-19 related English texts into Greek. In order to assess its performance across different domains and determine its strengths and weaknesses, we conduct an extended evaluation with eight test sets (half of them have been specifically created for this thesis) and other publicly available models and commercial translation services

    Signaled and tested skills in the recruitment processes of translators in Portugal

    Get PDF
    Aquest estudi analitza la senyalització i verificació de les competències en el sector de la traducció. En teoria, els senyals eficaços milloren la comunicació i proporcionen una reducció en els costos de la contractació. Portugal s’escull com a estudi de cas per examinar aquestes relacions, en primer lloc perquè la utilització de proves de traducció és particularment evident en aquest país, però també perquè hi ha abundants dades del context nacional. Treballant sobre la base de dades oficials, aquest estudi dibuixa una cartografia de la formació de traductors el 2017, identificant les competències ensenyades. A continuació, es fa servir informació estadística oficial per delinear el perfil del sector de la traducció. A més, s'analitzen 28 anuncis de feina per determinar les competències que busquen les empreses. En base d’aquesta anàlisi i utilitzant un patró de referència basat en el EMT, una enquesta a 14 empreses de traducció a Portugal proporciona informació sobre les seves pràctiques de reclutament, específicament sobre les competències que són senyalitzades i les que són comprovades per les empreses. L'enquesta també proporciona informació sobre les opinions dels empresaris respecte a la formació professional i a les faltes de competències. Per acabar, una sèrie d'entrevistes realitzades el 2022 proporciona informació més detallada i aporta una dimensió diacrònica. Les dades recollides de les institucions d'ensenyament superior són comparades amb les dades sobre les empreses per determinar fins a quin punt coincideixen en els seus objectius. Els resultats indiquen que les universitats donen prioritat a les competències que les empreses de traducció també valoren. Tanmateix, els resultats també suggereixen que les empreses de traducció no confien en la formació universitària com a senyal de competències específiques. En efecte, les proves realitzades a les empreses registren una major incidència en les competències que també tenen més pes a les carreres universitàries.El presente estudio analiza la señalización y verificación de las competencias en el sector de la traducción. En teoría, las señales eficaces mejoran la comunicación y proporcionan una reducción en los costes de la contratación. Se elige Portugal como estudio de caso para examinar dichas relaciones, en primer lugar porque la utilización de pruebas de traducción es particularmente evidente en dicho país, pero también porque existen abundantes datos del contexto nacional. Trabajando sobre la base de datos oficiales, el presente estudio hace una cartografía de la formación de traductores en 2017, identificando las competencias enseñadas. A continuación, se utiliza información estadística oficial para delinear el perfil del sector de la traducción. Además, se analizan 28 anuncios de empleo para determinar las competencias que buscan los empleadores. En base de este análisis y utilizando un patrón de referencia basado en el EMT, una encuesta a 14 empresas de traducción en Portugal proporciona información sobre las prácticas de reclutamiento, específicamente sobre las competencias que son señalizadas y las que son comprobadas por las empresas. La encuesta también da información sobre la formación profesional y las faltas de competencias. Por último, una serie de entrevistas realizadas en 2022 proporciona información más detallada y aporta una dimensión diacrónica. Los datos recogidos de las instituciones de enseñanza superior son comparados con los datos sobre las empresas para determinar hasta qué punto coinciden en sus objetivos. Los resultados indican que las universidades dan prioridad a las competencias que las empresas de traducción también valoran. Sin embargo, los resultados también sugieren que las empresas de traducción no confían en la formación universitaria como señal de competencias específicas. En efecto, las pruebas realizadas en las empresas registran una mayor incidencia en las competencias que también tienen más peso en las carreras universitarias.This research aims at how skills are signaled to and checked by employers in the translation industry. In theory, effective signals enable better communication and provide significant cost-savings. Portugal is chosen here as a case study for the testing of those assumptions. This is firstly because the use of translation tests is particularly in evidence. But it is also because ample data are available on many aspects of the national context. Drawing on official sources, this study maps the translator training landscape in 2017 and identifies the skills being taught at the time. Official Portuguese and European statistics institutions are then used to trace out a profile of the translation industry in Portugal. A survey of 28 job advertisements is analyzed to establish the skills sought by employers. Based on this analysis and an EMT-based benchmark, a questionnaire survey of 14 translation companies operating in Portugal provides information on actual recruitment practices, specifically the skills that are signaled and tested. The questionnaire survey also gives information on training and skills gaps. Finally, interviews carried out in 2022 provide more detailed and diachronic insight into company practices and industry perspectives for the future. The data collected from the higher education institutions are compared with the data from the companies to determine the extent to which translator-training institutions and translation companies are aligned. The findings indicate that universities globally prioritize the competences that translation companies also value. However, perhaps paradoxically, the results also strongly suggest that translation companies do not trust education as a signal of specific skills. Indeed, in-company testing occurs at the highest rates in the skills that carry the most weight in university programs

    The blessings of explainable AI in operations & maintenance of wind turbines

    Get PDF
    Wind turbines play an integral role in generating clean energy, but regularly suffer from operational inconsistencies and failures leading to unexpected downtimes and significant Operations & Maintenance (O&M) costs. Condition-Based Monitoring (CBM) has been utilised in the past to monitor operational inconsistencies in turbines by applying signal processing techniques to vibration data. The last decade has witnessed growing interest in leveraging Supervisory Control & Acquisition (SCADA) data from turbine sensors towards CBM. Machine Learning (ML) techniques have been utilised to predict incipient faults in turbines and forecast vital operational parameters with high accuracy by leveraging SCADA data and alarm logs. More recently, Deep Learning (DL) methods have outperformed conventional ML techniques, particularly for anomaly prediction. Despite demonstrating immense promise in transitioning to Artificial Intelligence (AI), such models are generally black-boxes that cannot provide rationales behind their predictions, hampering the ability of turbine operators to rely on automated decision making. We aim to help combat this challenge by providing a novel perspective on Explainable AI (XAI) for trustworthy decision support.This thesis revolves around three key strands of XAI – DL, Natural Language Generation (NLG) and Knowledge Graphs (KGs), which are investigated by utilising data from an operational turbine. We leverage DL and NLG to predict incipient faults and alarm events in the turbine in natural language as well as generate human-intelligible O&M strategies to assist engineers in fixing/averting the faults. We also propose specialised DL models which can predict causal relationships in SCADA features as well as quantify the importance of vital parameters leading to failures. The thesis finally culminates with an interactive Question- Answering (QA) system for automated reasoning that leverages multimodal domain-specific information from a KG, facilitating engineers to retrieve O&M strategies with natural language questions. By helping make turbines more reliable, we envisage wider adoption of wind energy sources towards tackling climate change
    corecore