16 research outputs found

    Context-dependent factored language models

    Get PDF

    Building End-to-End Neural Machine Translation Systems for Crisis Scenarios: The Case of COVID-19

    Get PDF
    Η Μηχανική Μετάφραση είναι ένα σημαντικό κομμάτι της Επεξεργασίας Φυσικής Γλώσσας, καθώς στοχεύει στην γρήγορη και αυτόματη μετάφραση διαφόρων ειδών κειμένων. Τα τελευταία χρόνια, η επικράτηση της Νευρωνικής Μηχανικής Μετάφρασης και η δημιουργία μεγάλων παράλληλων συλλογών κειμένων έχει οδηγήσει σε σημαντική βελτίωση της ποιότητας μετάφρασης. Ωστόσο, τα μεταφραστικά μοντέλα δεν είναι απαραιτήτως κατάλληλα για όλους τους τομείς κειμένων κι αυτό έχει οδηγήσει σε διάφορες έρευνες σχετικές με την προσαρμογή υπαρχόντων συστημάτων Μηχανικής Μετάφρασης σε διάφορους γνωστικούς τομείς κειμένων, δηλ. στο πώς να βελτιωθεί καλύτερα η ποιότητα μετάφρασης για μία συγκεκριμένη θεματική ή είδος κειμένων. Η Μηχανική Μετάφραση για Καταστάσεις Κρίσεων είναι μία ιδιαίτερη εφαρμογή της εξειδίκευσης συστημάτων σε θεματικούς τομείς, η οποία ασχολείται με την γρήγορη εξειδίκευση ενός υπάρχοντος συστήματος Μηχανικής Μετάφρασης για μία κατάσταση κρίσης, καθώς η ενσωμάτωση ενός τέτοιου συστήματος σε μία υποδομή ταχείας απόκρισης μπορεί να επιταχύνει την παροχή βοήθειας και την λήψη αποφάσεων. Η πανδημία του COVID-19 αποδείχτηκε μία κρίση μεγάλης διάρκειας και διεθνούς χαρακτήρα στην οποία παρουσιάστηκαν μεγάλα κενά στην διαφανή, έγκαιρη και αποτελεσματική επικοινωνία με το κοινό, ενώ σημαδεύτηκε από παραπληροφόρηση, θεωρίες συνομωσίας και σημαντικούς περιορισμούς στην ελευθερία του Τύπου. Περαιτέρω έρευνα στο πεδίο της Μηχανικής Μετάφρασης για Καταστάσεις Κρίσεων θα μπορούσε να συνδράμει σημαντικά στην αντιμετώπιση παρόμοιων μελλοντικών κρίσεων. Η παρούσα διπλωματική εργασία εστιάζει στην περίπτωση της πανδημίας του COVID-19 και στην μετάφραση αγγλικών κειμένων στα ελληνικά, ενώ επίσης κατασκευάζονται δύο εξειδικευμένα πολυγλωσσικά παράλληλα σώματα κειμένων. Το ένα σχετίζεται με τον COVID-19 και το άλλο προέρχεται από περιλήψεις ακαδημαϊκών εργασιών και διατριβών. Στην αρχή περιγράφουμε την διαδικασία συλλογής καινούριων παράλληλων σωμάτων κειμένων για συγκεκριμένους τομείς και την δημιουργία συνθετικών δεδομένων. Αυτά τα δεδομένα συνδυάζονται με υπάρχοντα παράλληλα δεδομένα ώστε να εξειδικεύσουν ένα υπάρχον σύστημα για τον COVID-19. Η διαδικασία αυτή περιλαμβάνει επίσης το φιλτράρισμα, την προεπεξεργασία και την επιλογή κατάλληλων δεδομένων, τα οποία παρουσιάζονται αναλυτικώς. Έπειτα, κάνουμε πειράματα πάνω σε διαφορετικές στρατηγικές εξειδίκευσης υπαρχόντων συστημάτων Μηχανικής Μετάφρασης για μία προσομοιωμένη κατάσταση κρίσης όπου τα σχετικά δεδομένα αυξάνονται με την πάροδο του χρόνου. Μας ενδιαφέρει επίσης το φαινόμενο “catastrophic forgetting” στο οποίο παρουσιάζεται μείωση της ποιότητας μετάφρασης σε κείμενα γενικού περιεχομένου. Τέλος, κατασκευάζουμε ένα ολοκληρωμένο σύστημα Νευρωνικής Μηχανικής Μετάφρασης το οποίο είναι εξειδικευμένο στην μετάφραση αγγλικών κειμένων σχετικά με τον COVID-19 στα ελληνικά. Αξιολογούμε διεξοδικά την απόδοσή του σε διαφορετικά είδη κειμένων ώστε να βρούμε τα δυνατά και αδύνατα σημεία του, κάνοντας χρήση οκτώ εξειδικευμένων δοκιμασιών (εκ των οποίων τα τέσσερα δημιουργήθηκαν για την παρούσα διπλωματική) και άλλων διαθέσιμων μοντέλων και υπηρεσιών μετάφρασης.Machine Translation is a crucial task of Natural Language Processing, as it aims to provide a fast and automatic way of translating various types of texts. In recent years, the emergence of Neural Machine Translation and the compilation of large-scale parallel corpora have led to significant improvements in translation quality. However, translation models are not necessarily suited for all domains and, thus, there has been significant research on domain adaptation of Neural Machine Translation Systems, i.e., on how to best improve the translation quality of an existing system for a specific topic or genre. Crisis Machine Translation is a special case of Domain Adaptation which is concerned with the rapid adaptation of an existing Machine Translation system for a crisis scenario, as the integration of such a system in a rapid response infrastructure can accelerate the speed of decision making and relief provision. The COVID-19 pandemic proved to be a prolonged and global crisis with large gaps in transparent, timely, and effective communication; it was also marked by misinformation, conspiracy theories, and significant restrictions on press freedom. Further research on Crisis Machine Translation could play an important role in better responding to future similar crises. In this thesis, we focus on the case of the COVID-19 pandemic and the English-Greek translation direction, while we also create two domain-specific multilingual parallel corpora; one which is related to COVID-19 and one which has been gathered from the abstracts of academic theses and dissertations. First, we describe the methodologies of acquiring new domain-specific parallel corpora and generating synthetic data which are combined with existing parallel data so as to adapt an existing system to the domain of COVID-19. This process includes data filtering, pre-processing, and selection pipelines, which are also described in detail. Afterwards, we conduct experiments on different fine-tuning strategies for a simulated crisis scenario in which varying amounts of related data become available as time progresses. We are also concerned with the phenomenon of “catastrophic forgetting”, i.e., the degradation of system performance on general texts. Lastly, we construct an end-to-end Neural Machine Translation system which is specialized in translating COVID-19 related English texts into Greek. In order to assess its performance across different domains and determine its strengths and weaknesses, we conduct an extended evaluation with eight test sets (half of them have been specifically created for this thesis) and other publicly available models and commercial translation services

    Survey of Low-Resource Machine Translation

    Get PDF
    International audienceWe present a survey covering the state of the art in low-resource machine translation (MT) research. There are currently around 7,000 languages spoken in the world and almost all language pairs lack significant resources for training machine translation models. There has been increasing interest in research addressing the challenge of producing useful translation models when very little translated training data is available. We present a summary of this topical research field and provide a description of the techniques evaluated by researchers in several recent shared tasks in low-resource MT
    corecore