Abstract

Τα τελευταία χρόνια, η Τεχνητή Νοημοσύνη με Νομικά Δεδομένα προσελκύει ολοένα και μεγαλύτερη προσοχή τόσο από τους ερευνητές της Τεχνητής Νοημοσύνης όσο και από τους επαγγελματίες νομικούς. Αυτό οφείλεται στο γεγονός ότι η Τεχνητή Νοημοσύνη με Νομικά Δεδομένα ωφελεί το νομικό σύστημα μέσω της απελευθέρωσης των επαγγελματιών νομικών από έναν επίπονο λαβύρινθο γραφειοκρατίας. Η Τεχνητή Νοημοσύνη με Νομικά Δεδομένα επικεντρώνεται στην εφαρμογή τεχνολογιών τεχνητής νοημοσύνης, ιδιαίτερα στην Επεξεργασία Φυσικής Γλώσσας, προς όφελος εργασιών σε νομικό τομέα. Ως μέρος αυτής της προσπάθειας, το μοντέλο BERT έχει αρχίσει να χρησιμοποιείται στο νομικό τομέα, κυρίως στην Αγγλική γλώσσα, για εργασίες όπως η πρόβλεψη νομικής κρίσης και η πρόβλεψη παραβίασης, καθώς είναι ευρεώς αναγνωρισμένο για την αξιοσημείωτη απόδοση του σε μια πληθώρα διεργασιών Επεξεργασίας Φυσικής Γλώσσας. Από όσα μπορούμε να γνωρίζουμε, υπάρχουν δύο μοναδικά μοντέλα που αφορούν την Ελληνική γλώσσα: το μοντέλο Greek-BERT και το μοντέλο Greek-Legal-BERT-v1. Σε αυτήν τη διατριβή, εστιάζουμε στη δημιουργία και την παρουσίαση της δεύτερης έκδοσης του Greek-Legal-BERT, δηλαδή του GreekLegalBERT v2, το οποίο δημιουργείται με περισσότερα Νομικά Δεδομένα από την πρώτη έκδοση. Έτσι, πρωταρχικός μας στόχος είναι η αύξηση του μεγέθους των Ελληνικών μοντέλων Επεξεργασίας Φυσικής Γλώσσας. Ο επόμενος στόχος της τρέχουσας διατριβής είναι η σύγκριση των τριών Ελληνικών μοντέλων, που βασίζονται στο μοντέλο BERT, μεταξύ διαφόρων διεργασιών Επεξεργασίας Φυσικής Γλώσσας, δηλαδή στην Αναγνώριση Ονοματισμένης Οντότητας, την Εξαγωγή Φυσικής Γλώσσας και την Πολυεπίπεδη Ταξινόμηση στο σύνολο δεδομένων Raptarchis. Έπειτα, αποφασίσαμε συνειδητά να ξεκινήσουμε τη μελέτη μας για την αρχιτεκτονική του BERT και τις θεμελιώδεις διεργασίες στις οποίες έχει προεκπαιδευτεί. Έχοντας μια πλήρη γνώση του μοντέλου BERT, συνεχίζουμε με τη περεταίρω ανάλυση των Greek-BERT και Greek-Legal-BERT-v1 για να επισημάνουμε τις διαφορές μεταξύ των μοντέλων. Εν συνέχεια, χρησιμοποιώντας περισσότερα Νομικά Δεδομένα από το Greek-Legal-BERT-v1, προχωρούμε στην εκπαίδευση του δικού μας μοντέλου GreekLegalBERT v2, με απώτερο στόχο τη μεγιστοποίηση της απόδοσής του. Τέλος, αξιολογούμε τα τρία προαναφερθέντα μοντέλα για τις τρεις προαναφερθείσες διεργασίες Επεξεργασίας Φυσικής Γλώσσας και παρουσιάζουμε τα αποτελέσματα. Η ακρίβεια, η ανάκληση και η βαθμολογία F1 ήταν οι μετρικές που χρησιμοποιήσαμε στην αξιολόγησή μας. Επιλέξαμε αυτές τις μετρικές, ούτως ώστε να μπορούμε να τα συγκρίνουμε άμεσα με προηγούμενα μοντέλα που αξιολογήθηκαν στο ίδιο σύνολο δεδομένων. Όσον αφορά το NER, το μοντέλο μας πέτυχε τη μεγαλύτερη απόδοση με μια μικρή διαφορά μεταξύ των δύο υπολοίπων μοντέλων. Όσον αφορά το NLI, το μοντέλο μας ξεπερνά το Greek-Legal-BERT-v1 και στις τρεις κατηγορίες, αλλά δεν κατάφερε να ξεπεράσει τις βαθμολογίες του Greek-BERT. Τέλος, στην περίπτωση της Πολυεπίπεδης Ταξινόμησης στο σύνολο δεδομένων Raptarchis, το μοντέλο μας ξεπέρασε στις δύο πρώτες κατηγορίες, ωστόσο στην τελευταία κατηγορία, το Greek-Legal-BERT-v1 ήταν ο μοναδικός νικητής μεταξύ όλων των μοντέλων.In recent years, Legal Artificial Intelligence (LegalAI) has drawn increasing attention rapidly from both AI researchers and legal professionals. This is due to the fact that LegalAI benefits the legal system for liberating legal professionals from a maze of paperwork. LegalAI focuses on applying artificial intelligence technologies, particularly Natural Language Processing, to benefit tasks in legal domain. As part of this endeavor, BERT has started to be employed in legal domain, mostly in English language, for tasks such as legal judgement prediction and violation prediction, as it is well recognized for its remarkable performance in a variety of NLP tasks. As far as we can discern, there are two unique models in the Greek NLP era: the general-purpose Greek-BERT model and the specific-domain Greek-Legal-BERT-v1 model. In this thesis, we focus on the generation and representation of the second version of Greek-Legal-BERT, namely GreekLegalBERT v2, which was provided with more Legal Data than the first version. So, our primary goal is to increase the size of Greek NLP models. The current thesis' next goal is to compare the three dinstict Greek NLP models, based on BERT model, between different downstream NLP tasks, notably in Named Entity Recognition, Natural Language Inference and Multiclass Classification on Raptarchis dataset. Therefore, we consciously choose to begin our study with BERT’s Architecture and the tasks it has been pretrained on. Having a thorough knowledge of the BERT model, we continue with break down Greek-BERT and Greek-Legal-BERT-v1 to highlight the distinctions between models. Then, using more Legal Data than Greek-Legal-BERT-v1, we proceed to train our own comparable GreekLegalBERT v2 model, with aim of maximizing its performance. Finally, we assessed the three previously mentioned NLP models on the three previously mentioned NLP tasks and presented the results. Precision, Recall and F1 score were the metrics we used in our evaluation. We selected these metrics so that we could compare them directly to previous models evaluated on the same dataset. In terms of NER, our model achieved the greatest performance with a slight difference among the two remaining models. As far as NLI is concerned, our model outperforms Greek-Legal-BERT-v1 in all three categories, but it didn't manage to surpass the scores of Greek-BERT. Eventually, in case of Multiclass Classification on Raptarchis dataset, our model surpassed in the first two categories, namely Volume and Chapter, however in the last category, Subject, Greek-Legal-BERT-v1 was the unique winner among all models

    Similar works