20,280 research outputs found

    Named Entity Recognition and Linking in Greek Legislation

    Get PDF
    Δείχνουμε πώς η αναγνώριση οντοτήτων σε κείμενα Ελληνικής νομοθεσίας μπορεί να επιτευχθεί με την χρήση ενός αναγνωριστή ονομασμένων οντοτήτων (named entity rec- ognizer, NER). Η δουλειά μας είναι η πρώτη του είδους της που ασχολείται με την ελλη- νική γλώσσα σε τόσο βάθος και μία από ελάχιστες που μελετούν νομικό κείμενο. Εφαρ- μόζουμε αναζήτηση δικτύου (grid search) σε πολλαπλές αρχιτεκτονικές νευρωνικών δι- κτύων και συνδυασμούς υπερ-παραμέτρων (hyper-parameters) για να μεγιστοποιήσουμε την αποτε- λεσματικότητα της προσέγγισής μας. Δείχνουμε ότι, χρησιμοποιώντας ένα με- γάλο νομικό λεξικό χτίσαμε ενσωματωμένες/συμβολικές λέξεις (word/token-shaped em- beddings) χρη- σιμοποιώντας το Word2Vec και τελικά πετυχαίνουμε κατά μέσο όρο 86% ακρίβεια σε ανα- γνώριση οργανισμών, νομικών αναφορών, γεωγραφικών τοποθεσιών, ανθρώπων, γεω-πολιτικών οντοτήτων (GPEs) και δημοσίων εγγράφων. Η αξιολόγηση της μεθοδολογίας μας βασίζεται στις μετρικές της ακριβείας (precision), της ανάκλησης (recall) και της f 1 μετρικής (f1-score) ανά τύπο οντότητας για κάθε νευρωνικό δίκτυο. Τέ- λος, μετράμε την αναλογία των σωστά προβλεπόμενων συνδέσμων για την διασύνδεση RDF συνόλων δεδομένων (datasets) που παράγονται από την προσέγγισή μας με άλλα γνωστά σύνολα δεδομένων που έχουν εκδοθεί δημόσια και πώς μπορούμε να εξάγουμε νέα γνώση έμμεσα με την προσέγγισή μας από την DBpedia, το ELI (Europeal Legislation Identifier) και το GAG (Greek administrative geography, Ελληνική διοικητική γεωγραφία) του Καλλικράτη.We show how entity recognition in Greek legislation texts can be achieved by utilizing a named entity recognizer (NER). Our work is the first of its kind for the Greek language in such an extended form and one of the few that examines legal text. We apply grid search on multiple neural network architectures and combination of hyper-parameters to maxi- mize the efficiency of our approach. We show that, utilizing a big legal corpus we built word/token-shape embeddings using Word2Vec, and finally achieve 86% accuracy on av- erage in recognition of organizations, legal references, geographical landmarks, persons, geo-political entities (GPEs) and public documents. The evaluation of our methodology is based on the metrics of precision, recall, f 1 -score per entity type for each neural network. Finally, we measure the ratio of correctly guessed links for the interlinking of RDF datasets produced by our approach with well-known public datasets and how new knowledge can be inferred indirectly by our approach from DBpedia, ELI (Europeal Legislation Identifier) and GAG (Greek administrative geography) of Kallikratis

    Named Entity Recognition in Indian court judgments

    Full text link
    Identification of named entities from legal texts is an essential building block for developing other legal Artificial Intelligence applications. Named Entities in legal texts are slightly different and more fine-grained than commonly used named entities like Person, Organization, Location etc. In this paper, we introduce a new corpus of 46545 annotated legal named entities mapped to 14 legal entity types. The Baseline model for extracting legal named entities from judgment text is also developed.Comment: to be published in NLLP 2022 Workshop at EMNL

    RuLegalNER: a new dataset for Russian legal named entities recognition

    Get PDF
    We address the scarcity of datasets specifically tailored for legal NER in the Russian language and investigate the generalization capabilities of models towards unseen named entities. A rule-based program developed by legal experts at Tag-Consulting Company was employed to automatically annotate legal texts and create the RuLegalNER dataset. Part of the named entities only exists in the development and test splits, and they are unseen in the training set. RuBERT was utilized as the base architecture for experimental evaluation. Two different architectural extensions were explored: RuBERT with CRF and RuBERT with adapters. These architectures were used to train and evaluate NER models on the RuLegalNER dataset. Utilize RuLegalNER to train and evaluate legal NER models, enhancing performance in the legal domain and studying generalization on unseen entities. A published version of RuLegalNER is presented with detailed statistics and demonstration of the usefulness of RuLegalNER by evaluating modern architectures

    MultiLegalPile: A 689GB Multilingual Legal Corpus

    Get PDF
    Large, high-quality datasets are crucial for training Large Language Models (LLMs). However, so far, there are few datasets available for specialized critical domains such as law and the available ones are often only for the English language. We curate and release MULTILEGALPILE, a 689GB corpus in 24 languages from 17 jurisdictions. The MULTILEGALPILE corpus, which includes diverse legal data sources with varying licenses, allows for pretraining NLP models under fair use, with more permissive licenses for the Eurlex Resources and Legal mC4 subsets. We pretrain two RoBERTa models and one Longformer multilingually, and 24 monolingual models on each of the language-specific subsets and evaluate them on LEXTREME. Additionally, we evaluate the English and multilingual models on LexGLUE. Our multilingual models set a new SotA on LEXTREME and our English models on LexGLUE. We release the dataset, the trained models, and all of the code under the most open possible licenses

    NLP Tasks with GreekLegalBERT v2

    Get PDF
    Τα τελευταία χρόνια, η Τεχνητή Νοημοσύνη με Νομικά Δεδομένα προσελκύει ολοένα και μεγαλύτερη προσοχή τόσο από τους ερευνητές της Τεχνητής Νοημοσύνης όσο και από τους επαγγελματίες νομικούς. Αυτό οφείλεται στο γεγονός ότι η Τεχνητή Νοημοσύνη με Νομικά Δεδομένα ωφελεί το νομικό σύστημα μέσω της απελευθέρωσης των επαγγελματιών νομικών από έναν επίπονο λαβύρινθο γραφειοκρατίας. Η Τεχνητή Νοημοσύνη με Νομικά Δεδομένα επικεντρώνεται στην εφαρμογή τεχνολογιών τεχνητής νοημοσύνης, ιδιαίτερα στην Επεξεργασία Φυσικής Γλώσσας, προς όφελος εργασιών σε νομικό τομέα. Ως μέρος αυτής της προσπάθειας, το μοντέλο BERT έχει αρχίσει να χρησιμοποιείται στο νομικό τομέα, κυρίως στην Αγγλική γλώσσα, για εργασίες όπως η πρόβλεψη νομικής κρίσης και η πρόβλεψη παραβίασης, καθώς είναι ευρεώς αναγνωρισμένο για την αξιοσημείωτη απόδοση του σε μια πληθώρα διεργασιών Επεξεργασίας Φυσικής Γλώσσας. Από όσα μπορούμε να γνωρίζουμε, υπάρχουν δύο μοναδικά μοντέλα που αφορούν την Ελληνική γλώσσα: το μοντέλο Greek-BERT και το μοντέλο Greek-Legal-BERT-v1. Σε αυτήν τη διατριβή, εστιάζουμε στη δημιουργία και την παρουσίαση της δεύτερης έκδοσης του Greek-Legal-BERT, δηλαδή του GreekLegalBERT v2, το οποίο δημιουργείται με περισσότερα Νομικά Δεδομένα από την πρώτη έκδοση. Έτσι, πρωταρχικός μας στόχος είναι η αύξηση του μεγέθους των Ελληνικών μοντέλων Επεξεργασίας Φυσικής Γλώσσας. Ο επόμενος στόχος της τρέχουσας διατριβής είναι η σύγκριση των τριών Ελληνικών μοντέλων, που βασίζονται στο μοντέλο BERT, μεταξύ διαφόρων διεργασιών Επεξεργασίας Φυσικής Γλώσσας, δηλαδή στην Αναγνώριση Ονοματισμένης Οντότητας, την Εξαγωγή Φυσικής Γλώσσας και την Πολυεπίπεδη Ταξινόμηση στο σύνολο δεδομένων Raptarchis. Έπειτα, αποφασίσαμε συνειδητά να ξεκινήσουμε τη μελέτη μας για την αρχιτεκτονική του BERT και τις θεμελιώδεις διεργασίες στις οποίες έχει προεκπαιδευτεί. Έχοντας μια πλήρη γνώση του μοντέλου BERT, συνεχίζουμε με τη περεταίρω ανάλυση των Greek-BERT και Greek-Legal-BERT-v1 για να επισημάνουμε τις διαφορές μεταξύ των μοντέλων. Εν συνέχεια, χρησιμοποιώντας περισσότερα Νομικά Δεδομένα από το Greek-Legal-BERT-v1, προχωρούμε στην εκπαίδευση του δικού μας μοντέλου GreekLegalBERT v2, με απώτερο στόχο τη μεγιστοποίηση της απόδοσής του. Τέλος, αξιολογούμε τα τρία προαναφερθέντα μοντέλα για τις τρεις προαναφερθείσες διεργασίες Επεξεργασίας Φυσικής Γλώσσας και παρουσιάζουμε τα αποτελέσματα. Η ακρίβεια, η ανάκληση και η βαθμολογία F1 ήταν οι μετρικές που χρησιμοποιήσαμε στην αξιολόγησή μας. Επιλέξαμε αυτές τις μετρικές, ούτως ώστε να μπορούμε να τα συγκρίνουμε άμεσα με προηγούμενα μοντέλα που αξιολογήθηκαν στο ίδιο σύνολο δεδομένων. Όσον αφορά το NER, το μοντέλο μας πέτυχε τη μεγαλύτερη απόδοση με μια μικρή διαφορά μεταξύ των δύο υπολοίπων μοντέλων. Όσον αφορά το NLI, το μοντέλο μας ξεπερνά το Greek-Legal-BERT-v1 και στις τρεις κατηγορίες, αλλά δεν κατάφερε να ξεπεράσει τις βαθμολογίες του Greek-BERT. Τέλος, στην περίπτωση της Πολυεπίπεδης Ταξινόμησης στο σύνολο δεδομένων Raptarchis, το μοντέλο μας ξεπέρασε στις δύο πρώτες κατηγορίες, ωστόσο στην τελευταία κατηγορία, το Greek-Legal-BERT-v1 ήταν ο μοναδικός νικητής μεταξύ όλων των μοντέλων.In recent years, Legal Artificial Intelligence (LegalAI) has drawn increasing attention rapidly from both AI researchers and legal professionals. This is due to the fact that LegalAI benefits the legal system for liberating legal professionals from a maze of paperwork. LegalAI focuses on applying artificial intelligence technologies, particularly Natural Language Processing, to benefit tasks in legal domain. As part of this endeavor, BERT has started to be employed in legal domain, mostly in English language, for tasks such as legal judgement prediction and violation prediction, as it is well recognized for its remarkable performance in a variety of NLP tasks. As far as we can discern, there are two unique models in the Greek NLP era: the general-purpose Greek-BERT model and the specific-domain Greek-Legal-BERT-v1 model. In this thesis, we focus on the generation and representation of the second version of Greek-Legal-BERT, namely GreekLegalBERT v2, which was provided with more Legal Data than the first version. So, our primary goal is to increase the size of Greek NLP models. The current thesis' next goal is to compare the three dinstict Greek NLP models, based on BERT model, between different downstream NLP tasks, notably in Named Entity Recognition, Natural Language Inference and Multiclass Classification on Raptarchis dataset. Therefore, we consciously choose to begin our study with BERT’s Architecture and the tasks it has been pretrained on. Having a thorough knowledge of the BERT model, we continue with break down Greek-BERT and Greek-Legal-BERT-v1 to highlight the distinctions between models. Then, using more Legal Data than Greek-Legal-BERT-v1, we proceed to train our own comparable GreekLegalBERT v2 model, with aim of maximizing its performance. Finally, we assessed the three previously mentioned NLP models on the three previously mentioned NLP tasks and presented the results. Precision, Recall and F1 score were the metrics we used in our evaluation. We selected these metrics so that we could compare them directly to previous models evaluated on the same dataset. In terms of NER, our model achieved the greatest performance with a slight difference among the two remaining models. As far as NLI is concerned, our model outperforms Greek-Legal-BERT-v1 in all three categories, but it didn't manage to surpass the scores of Greek-BERT. Eventually, in case of Multiclass Classification on Raptarchis dataset, our model surpassed in the first two categories, namely Volume and Chapter, however in the last category, Subject, Greek-Legal-BERT-v1 was the unique winner among all models
    corecore