86 research outputs found

    Large-Scale Multi-label Classification of Greek legislation

    Get PDF
    Η επεξεργασία φυσικής γλώσσας είναι ένας τομεάς της Τεχνητής Νοημοσύνης που διαρκώς προσεγγίζει επιστημονικό ενδιαφέρον και διευκολύνει ανάγκες της καθημερινότητας. Θα επικεντρωθούμε σε μια συγκεκριμένη περίπτωση κατηγοριοποίησης πολλαπλών ετικετών, η οποία με την πάροδο του χρόνου και το διαρκώς αυξανόμενο όγκο δεδομένων, γίνεται όλο και πιο συχνή. Η Κατηγοριοποίηση Πολλαπλής Ετικέτας Μεγάλης Κλίμακας χαρακτηρίζεται απο μεγάλο χώρο ετικετών, οργανωμένες με ιεραρχικό τρόπο και ανισσοροπία στην κατανομή των ετικετών. Ο τομέας ενδιαφέροντός μας είναι η νομική επιστήμη και επιλέξαμε να ασχοληθούμε με την ελληνική γλώσσα, και πιο συγκεκριμένα με το σύνολο δεδομένων "RAPTARCHIS47K“, το οποίο αποτελείται απο πάνω απο 47 χιλιάδες νομικές πηγές. Στόχος αυτής της πτυχιακής είναι η πρακτική αξιολόγηση μεθόδων κατηγοριοποίησησς πάνω σε ελληνικά νομικά κείμενα, η σύγκριση μεθόδων ειδικά διαμορφωμένων για προβλήματα κατηγοιοποίησης πολλαπλών ετικετών μεγάλης κλίμακας με σύγχρονες τεχνολογίες αιχμής, καθώς και ο πειραματισμός στην εκμάθηση πρόβλεψης ετικετέων που εμφανίζονται σπάνια στο σύνολο εκμάθησης. Θα επικεντρωθούμε σε κάποιες απο τις πιο διαδεδομένες και υποσχόμενες μεθόδους πιθανοτικών δέντρων ετικέτας, υβριδικών μεθόδων πιθανοτικών δέντρων, και νευρωνικών δικτύων κάθως επίσης και σε τεχνικές διαδιδόμενης μάθησης που αξιοπούν τις σύγχρονες μεθόδους βασισμένες σε μετασχηματιστές (Transformers). Αξιολογούμε αυτές τις μεθόδους πάνω σε τρία διαφορετικά επίπεδα συχνότητας εμφάνισης ετικετών (όλες οι ετικές, οι πιο συχνές, οι πιο σπάνιες), και ερευνούμε μια πληθώρα παραμαετροποιήσεων για κάθε μέθοδο ξεχωριστά. Τα πειράματα μας έδειξαν ότι δεν υπάρχει κανόνας για το ποια μέθοδος πρέπει να προτιμάται πάντα καθώς διαφορετικές επιλογές έδωσαν τα καλύτερα αποτελέσματα στα διαφορετικά επιπεδα εξέτασης. Τα μοντέλα βασισμένα σε τελευταίας τεχνολογίας μετασχηματιστές έδωσαν καλύτερα αποτελέσματα στα προβλήματα όπου οι συχνές ετικέτες κυριαρχούσαν, ενώ οι μέθοδοι βασισμένες σε πιθανοτικά δέντρα έδειξαν την υπεροχή τους σε προβλήματα που υπήρχαν κυρίως σπάνιες ετικέτες. Από όσο γνωρίζουμε, η επιστημονική περιοχή της κατηγοριοποίησης πολλαπλών ετικετών μεγάλης κλίμακας είναι υπομελετημένη ειδικά στην περίπτωση της ελληνικής γλώσσας, και ελπίζουμε ότι αυτή η μελέτη θα αποτελέσει σημείο αναφοράς για μελλοντικές έρευνες.Natural Language Processing is an area in Artificial Intelligence that is constantly attracting scientific interest and facilitates everyday tasks. We focus on a specific case of multi-label classification problem, which over time and with the constantly increasing volume of data, becomes more and more frequent. Large-scale Multi-label Text Classification is characterized by large label space typically organized in a hierarchical manner and unbalanced label distributions. Our area of interest is the legal domain and we chose to experiment with the Greek language and more specifically, ”RAPTARCHIS47k“, a dataset consisting of more than forty seven thousand Greek legal documents. Objective of this thesis constitutes the hands-on evaluation of multi-label approaches on Greek legal docu-ments, the comparison of LMTC dedicated techniques to general state-of-the-art methods and the experimentation of learning to predict labels that rarely occur in the training set. We focus on some of the most well-known and promising hierarchical Probabilistic Label Tree methods, hybrid PLT-neural network methods, and we further experiment with transfer learning utilizing the latest transformer-based approaches. We evaluate these methods on three different levels of frequency (all-labels, frequent, few-case), and we investigate a multitude of configurations for every method separately. Our experiments showed that there is no rule of thumb about what method should be used, as different approaches gave the best performance in all three sub-tasks. Cutting edge technology Transformer-based models gave the best performance in sub-tasks, where the common labels dominate the hierarchy, while PLTs proved their supremacy on the task involving tail labels. As far as we know the scientific area of Large-scale Multi-label Text Classification is vastly understudied, especially for the Greek language, and we hope that this study will be a reference point for future research

    Multi-modal Extreme Classification

    Full text link
    This paper develops the MUFIN technique for extreme classification (XC) tasks with millions of labels where datapoints and labels are endowed with visual and textual descriptors. Applications of MUFIN to product-to-product recommendation and bid query prediction over several millions of products are presented. Contemporary multi-modal methods frequently rely on purely embedding-based methods. On the other hand, XC methods utilize classifier architectures to offer superior accuracies than embedding only methods but mostly focus on text-based categorization tasks. MUFIN bridges this gap by reformulating multi-modal categorization as an XC problem with several millions of labels. This presents the twin challenges of developing multi-modal architectures that can offer embeddings sufficiently expressive to allow accurate categorization over millions of labels; and training and inference routines that scale logarithmically in the number of labels. MUFIN develops an architecture based on cross-modal attention and trains it in a modular fashion using pre-training and positive and negative mining. A novel product-to-product recommendation dataset MM-AmazonTitles-300K containing over 300K products was curated from publicly available amazon.com listings with each product endowed with a title and multiple images. On the all datasets MUFIN offered at least 3% higher accuracy than leading text-based, image-based and multi-modal techniques. Code for MUFIN is available at https://github.com/Extreme-classification/MUFI

    Label Embedding by Johnson-Lindenstrauss Matrices

    Full text link
    We present a simple and scalable framework for extreme multiclass classification based on Johnson-Lindenstrauss matrices (JLMs). Using the columns of a JLM to embed the labels, a CC-class classification problem is transformed into a regression problem with \cO(\log C) output dimension. We derive an excess risk bound, revealing a tradeoff between computational efficiency and prediction accuracy, and further show that under the Massart noise condition, the penalty for dimension reduction vanishes. Our approach is easily parallelizable, and experimental results demonstrate its effectiveness and scalability in large-scale applications

    The Emerging Trends of Multi-Label Learning

    Full text link
    Exabytes of data are generated daily by humans, leading to the growing need for new efforts in dealing with the grand challenges for multi-label learning brought by big data. For example, extreme multi-label classification is an active and rapidly growing research area that deals with classification tasks with an extremely large number of classes or labels; utilizing massive data with limited supervision to build a multi-label classification model becomes valuable for practical applications, etc. Besides these, there are tremendous efforts on how to harvest the strong learning capability of deep learning to better capture the label dependencies in multi-label learning, which is the key for deep learning to address real-world classification tasks. However, it is noted that there has been a lack of systemic studies that focus explicitly on analyzing the emerging trends and new challenges of multi-label learning in the era of big data. It is imperative to call for a comprehensive survey to fulfill this mission and delineate future research directions and new applications.Comment: Accepted to TPAMI 202
    corecore