8 research outputs found

    DistilGREEK-BERT: A distilled version of the GREEK-BERT model

    Get PDF
    Τα γλωσσικά μοντέλα για επεξεργασία φυσικής γλώσσας αποτελούν αντικείμενο ενασχόλησης και ατέρμονης έρευνας για πάνω από 2 δεκαετίες. Όλα τα μοντέλα που έχουν παρουσιαστεί μέσα στο βάθος των χρόνων έχουν την τάση να αυξάνονται σε μέγεθος με ελάχιστες εξαιρέσεις. Έτσι, γίνονται όλο και μεγαλύτερα και πιο πολύπλοκα, φιλοδοξώντας ότι τα νέα μοντέλα θα αποδίδουν καλύτερα από τα παλαιότερα και θα παράγουν έξοχα αποτελέσματα ακολουθώντας αυτή την τακτική. Αυτό φαίνεται ότι συμβαίνει μέχρι στιγμής μέσα από χιλιάδες έρευνες και δημοσιεύσεις μοντέλων ανά τα χρόνια. Ωστόσο, η αύξηση του μεγέθους των μοντέλων συνεπάγεται αυτόματη αύξηση των παραμέτρων τους, οι οποίες χρειάζεται να εκπαιδευτούν, και αναπόφευκτη αύξηση του χρόνου που απαιτείται για την εκπαίδευσή τους. Στην παρούσα εργασία θα παρουσιάσουμε ένα μοντέλο για επεξεργασία φυσικής γλώσσας, συγκεκριμένα για τα νέα ελληνικά. Δεν υπάρχει ποικιλία μοντέλων για τα νέα ελληνικά (όπως για παράδειγμα για τα αγγλικά), ώστε να υπάρχει ευελιξία στην επιλογή ανάλογα με την εργασία που εκτελεί κάποιος. Το μοντέλο μας, το DistilGREEK-BERT, είναι μικρότερο σε μέγεθος από τα συνήθη κατά περίπου 40%, με αποτέλεσμα η εκπαίδευσή του να είναι γρηγορότερη. Η αρχιτεκτονική του μοντέλου βασίζεται στην αρχιτεκτονική δύο μοντέλων πυλώνων στον τομέα της επεξεργασίας φυσικής γλώσσας. Αυτά είναι το BERT και το DistilBERT, τα οποία θα αναλυθούν όσο το δυνατόν πιο διεξοδικά στη συνέχεια. Η (σχετική) πρωτοτυπία του μοντέλου έγκειται στον τρόπο με τον οποίο εκπαιδεύτηκε: για την εκπαίδευσή του χρησιμοποιήθηκε ένα άλλο μεγαλύτερο μοντέλο, το GREEK-BERT το οποίο έχει επιβλέπει το μοντέλο μας και έχει το ρόλο δασκάλου. Το μοντέλο μας έχει το ρόλο του μαθητή, ο οποίος μαθαίνει και αποκτάει γνώσεις μέσω του δασκάλου. Η τεχνική που χρησιμοποιείται ώστε το μεγαλύτερο μοντέλο (δάσκαλος) να μεταλαμπαδεύσει γνώση στο μικρότερο (μαθητής) ονομάζεται Απόσταξη Γνώσης. Αφότου, λοιπόν, δημιουργηθεί και εκπαιδευτεί το μοντέλο μας σε έναν μεγάλο όγκο δεδομένων με τη βοήθεια του δασκάλου, αξιολογήθηκε η απόδοσή του σε 3 μικρότερες εργασίες, δημοφιλείς στην επεξεργασία φυσικής γλώσσας: Επισήμανση των Μερών του Λόγου, Αναγνώριση Ονοματοποιημένων Οντοτήτων και Εξαγωγή Λογικού Συμπεράσματος. Ελέγθηκε πόσο γρήγορα εκτελούνται οι εργασίες καθώς και η ποιότητα των αποτελεσμάτων βάσει 3 μετρικών (ακρίβεια, ανάκληση, F1 μετρική). Τα αποτελέσματα ήταν εξαιρετικά για την 1η εργασία, αρκετά καλά για τη 2η και ικανοποιητικά για την 3η. Τέλος, συγκρίθηκαν τα παραπάνω αποτελέσματα με τα αποτελέσματα που είχαν δημοσιευθεί για τις ίδιες εργασίες με τα ίδια δεδομένα ακριβώς για το μοντέλο GREEK-BERT. Φιλοδοξία και σκοπός μας ήταν το DistilGREEK-BERT να επιτύχει σχετικά κοντινά αποτελέσματα με αυτά του GREEK-BERT. Σε όλες τις εργασίες το GREEK-BERT απέδιδε καλύτερα κατά 2% με 5%. Συμπεραίνουμε λοιπόν ότι η δημιουργία και η εκπαίδευση του μοντέλου μας είχε επιτυχία, διότι, διατηρώντας μόνο το 60% του μεγέθους του μεγάλου, κατάφερε να είναι 60% πιο γρήγορο επιτυγχάνοντας μια απόδοση πολύ κοντά σε αυτή του μεγάλου. Συνολικά διατηρεί το 96% με 97% της απόδοσης του GREEK-BERT.Language Models for Natural Language Processing (NLP) have constituted subject of engagement and endless research for over two decades. All models, having been introduced through the years, have the tendency to increase in size with only few exceptions. As a result, we end up with bigger and bigger and more and more complex models, aspiring that the newer ones will outperform their predecessors and will present outstanding results. This seems to be the case for the time being, considering the magnitude of the research and the thousands of models having been presented though the years. Nevertheless, the increase in size of the models entails increment in their trainable parameters as well, leading inevitably to increase in the time required for their training. In the present thesis we will present a model for NLP in modern Greek. There is a lack of variety in NLP models for modern Greek (in contrast to English for example). Thus, there is no flexibility when it comes to choosing a model for a specific task. Our model’s name is DistilGREEK-BERT and it is smaller is size than the more common ones resulting to its faster training. The architecture of our model is based on the architecture of two state-of-the-art models in NLP, namely BERT and DistilBERT. These will be analyzed further as thoroughly as possible. The (relative) innovation of our model lies in the way it is pre-trained: another model, GREEK-BERT, being bigger in size, is used to supervise the training of our model and GREEK-BERT has the role of a teacher. Our model has the role of a student, who learns constantly and gains knowledge through the teacher. The technique being used during training, so that the bigger model (teacher) imparts knowledge to the smaller model (student), is called Knowledge Distillation. After our model has been created and pre-trained to a large amount of data under the supervision of the teacher, its performance is evaluated on 3 popular in NLP downstream tasks: these are Part of Speech Tagging (PoS Tagging), Named Entity Recognition (NER) and Natural Language Inference (NLI). The time needed for each task to be accomplished is evaluated, as well as the quality of the results based on 3 metrics (precision, recall and f1-score). The results are exceptional for the 1st task, pretty good for the 2nd and satisfying for the 3rd. Finally, we compare the aforementioned results to the results which had been presented for the GREEK-BERT model on the same tasks with exactly the same data. Our ambition and aspiration was to make DistilGREEK-BERT achieve relatively close results to the ones of the GREEK-BERT model. GREEK-BERT outperformed our model on all 3 tasks, though only by 2% - 5%. We can easily infer that the development and pre-training of our model was successful, since by maintaining only 60% of the size of GREEK-BERT, DistilGREEK-BERT managed to be 60% faster, while having a comparable performance to the one of the bigger model. Overall, it retains 96% - 97% of GREEK-BERT performance
    corecore