11 research outputs found
Evaluation of Diversification Techniques for Legal Information Retrieval
“Public legal information from all countries and international institutions is part of the common heritage of humanity. Maximizing access to this information promotes justice and the rule of law”. In accordance with the aforementioned declaration on free access to law by legal information institutes of the world, a plethora of legal information is available through the Internet, while the provision of legal information has never before been easier. Given that law is accessed by a much wider group of people, the majority of whom are not legally trained or qualified, diversification techniques should be employed in the context of legal information retrieval, as to increase user satisfaction. We address the diversification of results in legal search by adopting several state of the art methods from the web search, network analysis and text summarization domains. We provide an exhaustive evaluation of the methods, using a standard dataset from the common law domain that we objectively annotated with relevance judgments for this purpose. Our results: (i) reveal that users receive broader insights across the results they get from a legal information retrieval system; (ii) demonstrate that web search diversification techniques outperform other approaches (e.g., summarization-based, graph-based methods) in the context of legal diversification; and (iii) offer balance boundaries between reinforcing relevant documents or sampling the information space around the legal query
Modeling, analysis and diversification of legal information
Information society poses new threats to the legal informatics discipline, mainly due to the volume and complexity of legal data. In this context, legal information management and dissemination, legal complexity, techniques facilitating users in seeking legal information, and methods to encourage citizens’ participation in regulatory planning activities are challenging research issues to be addressed.This doctoral thesis reports upon studies for a) legal sources management with semantic standards; b) modeling civil law as a complex network, c) application of diversification methods for legal information retrieval, and d) application of diversification methods for public consultation texts and social networks.We present a novel methodology that acquires a semantic representation of legislation, from unstructured formats, by expressing legal documents structure in the form of a set of syntactic rules, i.e., a domain-specific language for legal documents. Since legal documents are usually disseminated in unstructured formats, it is advisable to transform them to another format, suitable for modelling legal sources, capturing the internal organization of the textual structure and the legal semantics, interlinking them based on discovered legal references and classifying them. The above has been integrated on legal document management platform aiming to improve access to legal sources by offering advanced modelling, managing and mining functions. The platform has been successfully deployed in a public sector operated production environment, providing citizens semantic access to Greek tax law.We also propose a novel approach to model civil law collections as a complex network. We applied our approach on the European Union legislation corpus and identified otherwise, hidden organizing principles of the legislation corpus, interpreted the influence of the network structure to individual legal sources and quantified the relative importance of a legal source within the legislation corpus. Among others, legal sources have a strong tendency to connect with legal documents of the same type, forming clusters of the same sector. Communication between highly clustered areas of sparsely connected nodes is maintained by a few hubs, since the Legislation Network is also highly heterogeneous with respect to the number of edges incident on a node and in particular it is a small world power law network. The origin of this heterogeneity may be derived by the preferential attachment process, which amplifies the popularity of highly ranked sources. Further, we studied the temporal evolution of the legislation corpus and evaluated its tolerance to errors, by performing a resilience test. Our approach aims to improve the efficiency of the legal system and future research directions can be built on our findings.Additionally, we address diversification of results in legal search as a means of assisting user’s searching for useful information in a huge amount of legal data. For example, a lawyer preparing his/her arguments for a given case will find more informative and helpful a diverse result, i.e., a result containing several claims, varying in the type of court and other characteristics, than a set of homogeneous results that contain only relevant cases with similar features. We adopt several state of the art methods from the web search, network analysis and text summarization domains. We also look at the contribution of legal sources diversification criteria, which we also incorporate into the algorithms. We provide an exhaustive evaluation of the methods and criteria in a variety of settings, using real collections of legal documents, from different legal systems, that we objectively annotated with relevance judgments for this purpose, using widely accepted metrics, offering balance boundaries between reinforcing relevant documents or sampling the information space around the legal queryAlso, taking into consideration citizen’s involvement in regulations through public consultation, as well as the widespread use of social networks, we address result diversification on user comments/microblog post. Towards this direction, we define comment and microblog posts-specific diversification criteria and apply them on heuristic diversification algorithms. We perform an experimental analysis showing that the diversity criteria we introduce result in distinctively diverse subsets of user’s posts.Στην εποχή της κοινωνίας της πληροφορίας ο κλάδος της νομικής Πληροφορικής έχει να αντιμετωπίσει σημαντικές προκλήσεις εξαιτίας του όγκου και της πολυπλοκότητας των νομικών δεδομένων. Σε αυτό το πλαίσιο, ζητήματα διαχείρισης και διάχυσης της νομικής πληροφορίας, μοντέλα διαχείρισης της νομικής πολυπλοκότητας, τεχνικές διευκόλυνσης των χρηστών στην αναζήτηση νομικών πληροφοριών και μέθοδοι ενθάρρυνσης της συμμετοχής των πολιτών στο σχεδιασμό των ρυθμίσεων, αποτελούν ανοιχτά ερευνητικά ζητήματα. Προς την κατεύθυνση αυτή, η παρούσα διατριβή μελετά και προτείνει μεθόδους: α) διαχείρισης της νομικής πληροφορίας με σημασιολογικά πρότυπα, β) μοντελοποίησης του δικαίου σε μορφή σύνθετου δικτύου, γ) διαφοροποιημένης ανάκτησης νομικής πληροφορίας και δ) διαφοροποιημένης ανάκτησης καταχωρήσεων σε κείμενα διαβουλεύσεων και κοινωνικά δίκτυα.Στο πλαίσιο της διατριβής προτείνουμε ένα μοντέλο σημασιολογικής αναπαράστασης της ελληνικής νομικής πληροφορίας και τεχνικές αυτόματης εξαγωγής και αναπαράστασης σε αυτό το μοντέλο νομικής πληροφορίας. Δεδομένου ότι τα νομικά έγγραφα διαχέονται σε μη μηχαναγνώσιμες μορφές, είναι απαραίτητος ο αυτόματος μετασχηματισμός τους σε μορφή κατάλληλη για τη μοντελοποίηση νομικών πηγών, με σκοπό την δομική και σημασιολογική αναπαράστασή τους, τη διασύνδεσή τους βάσει νομικών παραπομπών και την ταξινόμησή τους. Τα παραπάνω έχουν υλοποιηθεί σε μια πλατφόρμα διαχείρισης, νομικής πληροφορίας, η οποία αξιοποιεί την σημασιολογική αναπαράσταση των νομικών πηγών, προσφέροντας, μεταξύ άλλων, εξελιγμένα αποτελέσματα αναζήτησης. Η προτεινόμενη αρχιτεκτονική αξιολογήθηκε σε πραγματικό περιβάλλον παραγωγής, του δημοσίου τομέα, παρέχοντας στο ευρύ κοινό σημασιολογική πρόσβαση στην ελληνική φορολογική νομοθεσία.Ταυτόχρονα, προτείνουμε ένα μοντέλο αναπαράστασης του γραπτού δικαίου σε μορφή σύνθετου δικτύου. Εφαρμόζουμε το μοντέλο στο σύνολο του γραπτού δίκαιου της Ε.Ε. και εξετάζουμε την δομή και την τοπολογία του, προσπαθώντας να εντοπίσουμε οργανωτικές αρχές του γραπτού δικαίου. Η εμπειρική μας ανάλυση αναδεικνύει σε μακροσκοπικό επίπεδο αφανείς οργανωτικές αρχές του σώματος του δικαίου και παρέχει ερμηνεία για την επίδραση της δομής του δικτύου σε μεμονωμένες νομικές πηγές και σε μικροσκοπικό επίπεδο επιτρέπει την ποσοτικοποίηση της σχετικής σημασίας μιας νομικής πηγής μέσα σε ένα σώμα κειμένων. Προκύπτει, μεταξύ άλλων, ότι οι νομικές πηγές έχουν έντονη τάση να συνδέονται με νομικές πηγές του ιδίου τύπου, σχηματίζοντας ομάδες του ίδιου τύπου/τομέα. Η επικοινωνία μεταξύ των πολύ συσσωρευμένων περιοχών αραιά συνδεδεμένων κόμβων διατηρείται από μερικούς κόμβους, καθώς το δίκτυο είναι επίσης εξαιρετικά ετερογενές σε σχέση με τον αριθμό των συνδέσεων των νομικών πηγών και συγκεκριμένα είναι ένα δίκτυο νόμου δύναμης μικρού κόσμου (power law small-world network). Η προέλευση αυτής της ετερογένειας, μπορεί να εξηγηθεί από τη διαδικασία της επιλεκτικής προσκόλλησης, η οποία ενισχύει τη δημοτικότητα των πηγών υψηλής κατάταξης. Ταυτόχρονα, αξιολογούμε την χρονική εξέλιξη καθώς και την ανθεκτικότητα του σε περίπτωση μεταβολών. Η πρόταση μας παρέχει μια πρώτη προσέγγιση για την βελτίωση της αποτελεσματικότητας του νομικού συστήματος, ενώ παράλληλα νέες ερευνητικές κατευθύνσεις είναι δυνατό να προκύψουν μέσω αυτής.Επιπρόσθετα, στην παρούσα διατριβή, εξετάζονται θέματα μεγιστοποίησης της νομικής ποικιλομορφίας των αποτελεσμάτων αναζήτησης, με στόχο την διευκόλυνση των χρηστών κατά την αναζήτηση χρήσιμης πληροφορίας σε ένα τεράστιο όγκο νομικών δεδομένων. Για παράδειγμα, ένας δικηγόρος που προετοιμάζει τα επιχειρήματα του για δεδομένη υπόθεση θα διευκολυνθεί περισσότερο από μια λίστα αποφάσεων που περιέχει αποφάσεις από διαφορετικούς κλάδους, διαφορετικά δικαστήρια, σε διαφορετικές εποχές, σε σχέση με μια λίστα ομοιογενών αποφάσεων με παρόμοια χαρακτηριστικά. Συγκεκριμένα, προσαρμόζουμε αλγορίθμους που έχουν προταθεί στη βιβλιογραφία για την κάλυψη ετερογενών αναγκών, όπως η δημιουργία περιλήψεων κειμένων, η διαφοροποιημένη κατάταξη σε γράφους και η διαφοροποίηση αποτελεσμάτων αναζήτησης. Ταυτόχρονα, εξετάζουμε την συνεισφορά εξειδικευμένων κριτηρίων διαφοροποίησης νομικών πηγών, τα οποία και ενσωματώνουμε στους αλγορίθμους. Πραγματοποιούμε εκτενή πειραματική αξιολόγηση των μεθόδων και κριτηρίων διαφοροποίησης σε ποικίλες περιπτώσεις, με πραγματικές συλλογές νομικών εγγράφων, από διαφορετικά νομικά συστήματα, χρησιμοποιώντας διεθνώς αποδεκτές μετρικές και αντικειμενική μεθοδολογία επισημείωσης του συνόλου δεδομένων, παρέχοντας όρια εξισορρόπησης μεταξύ της σχετικότητας και της ποικιλομορφίας του συνόλου αποτελεσμάτων.Παράλληλα, με βάση την συμμετοχή των πολιτών στο σχεδιασμό των ρυθμίσεων μέσω της διαδικασίας διαβούλευσης, αλλά και της ευρείας εξάπλωσης των κοινωνικών δικτύων, εξετάζουμε τη διαφοροποιημένη ανάκτηση καταχωρήσεων χρηστών σε κείμενα διαβουλεύσεων και σε κοινωνικά δίκτυα. Στην κατεύθυνση αυτή, ορίζουμε εξειδικευμένα κριτήρια διαφοροποίησης που λαμβάνουν υπόψη τα χαρακτηριστικά των καταχωρήσεων και του κοινωνικού δικτύου, τα οποία και εισάγουμε σε ευριστικούς αλγόριθμους διαφοροποίησης, με στόχο την ανάκτηση συνόλου ετερογενών/ποικιλόμορφων καταχωρήσεων. Για τις ανάγκες της πειραματικής αξιολόγησης των μεθόδων/κριτηρίων διαφοροποίησης, που πραγματοποιήθηκε με βάση δημοσίως διαθέσιμα πραγματικά σύνολα δεδομένων, επεκτείναμε μετρικές αξιολόγησης για την αποτίμηση της ποικιλομορφίας των καταχωρήσεων
Diversifying the Legal Order
Part 10: Mining Humanistic Data Workshop (MHDW)International audience“Public legal information from all countries and international institutions is part of the common heritage of humanity. Maximizing access to this information promotes justice and the rule of law.” In accordance with the aforementioned declaration on Free Access to Law by Legal information institutes of the world (http://www.worldlii.org/worldlii/declaration/), a plethora of legal information is available through the Internet, while the provision of legal information has never before been easier. Given that law is accessed by a much wider group of people, the majority of whom are not legally trained or qualified, diversification techniques, should be employed in the context of legal information retrieval, as to increase user satisfaction. We address diversification of results in legal search by adopting several state of the art methods from the web search domain. We provide an exhaustive evaluation of the methods, using a standard data set from the Common Law domain that we subjectively annotated with relevance judgments for this purpose. Our results reveal that users receive broader insights across the results they get from a legal information retrieval system
Solon: A Holistic Approach for Modelling, Managing and Mining Legal Sources
Recently there has been an exponential growth of the number of publicly available legal resources. Portals allowing users to search legal documents, through keyword queries, are now widespread. However, legal documents are mainly stored and offered in different sources and formats that do not facilitate semantic machine-readable techniques, thus making difficult for legal stakeholders to acquire, modify or interlink legal knowledge. In this paper, we describe Solon, a legal document management platform. It offers advanced modelling, managing and mining functions over legal sources, so as to facilitate access to legal knowledge. It utilizes a novel method for extracting semantic representations of legal sources from unstructured formats, such as PDF and HTML text files, interlinking and enhancing them with classification features. At the same time, utilizing the structure and specific features of legal sources, it provides refined search results. Finally, it allows users to connect and explore legal resources according to their individual needs. To demonstrate the applicability and usefulness of our approach, Solon has been successfully deployed in a public sector production environment, making Greek tax legislation easily accessible to the public. Opening up legislation in this way will help increase transparency and make governments more accountable to citizens
Evaluation of Automatic Legal Text Summarization Techniques for Greek Case Law
The increasing amount of legal information available online is overwhelming for both citizens and legal professionals, making it difficult and time-consuming to find relevant information and keep up with the latest legal developments. Automatic text summarization techniques can be highly beneficial as they save time, reduce costs, and lessen the cognitive load of legal professionals. However, applying these techniques to legal documents poses several challenges due to the complexity of legal documents and the lack of needed resources, especially in linguistically under-resourced languages, such as the Greek language. In this paper, we address automatic summarization of Greek legal documents. A major challenge in this area is the lack of suitable datasets in the Greek language. In response, we developed a new metadata-rich dataset consisting of selected judgments from the Supreme Civil and Criminal Court of Greece, alongside their reference summaries and category tags, tailored for the purpose of automated legal document summarization. We also adopted several state-of-the-art methods for abstractive and extractive summarization and conducted a comprehensive evaluation of the methods using both human and automatic metrics. Our results: (i) revealed that, while extractive methods exhibit average performance, abstractive methods generate moderately fluent and coherent text, but they tend to receive low scores in relevance and consistency metrics; (ii) indicated the need for metrics that capture better a legal document summary’s coherence, relevance, and consistency; (iii) demonstrated that fine-tuning BERT models on a specific upstream task can significantly improve the model’s performance
Algorithms and criteria for diversification of news article comments
In this paper, we introduce an approach for diversifying user comments on news articles. We claim that, although content diversity suffices for the keyword search setting, as proven by existing work on search result diversification, it is not enough when it comes to diversifying comments of news articles. Thus, in our proposed framework, we define comment-specific diversification criteria in order to extract the respective diversification dimensions in the form of feature vectors. These criteria involve content similarity, sentiment expressed within comments, named entities, quality of comments and combinations of them. Then, we apply diversification on comments, utilizing the extracted features vectors. The outcome of this process is a subset of the initial set that contains heterogeneous comments, representing different aspects of the news article, different sentiments expressed, different writing quality, etc. We perform an experimental analysis showing that the diversity criteria we introduce result in distinctively diverse subsets of comments, as opposed to the baseline of diversifying comments only w.r.t. to their content. We also present a prototype system that implements our diversification framework on news articles comments
Towards automatically classifying case law citation treatment using neural networks
In common law legal systems, judges decide issues between parties (legal decision or case law) by reference to previous decisions that consider similar factual situations. Accordingly, these decisions typically feature rich citation networks, i.e., a new decision frequently cites previous relevant decisions (citation). These citations may, in varying degrees, express that a cited decision is applicable, not-applicable, or no longer current law. Such treatment label is important to a lawyer’s process of determining whether a case is proper law. These labels serve as a matter of convenience in citation indices enabling lawyers to prioritise decisions to examine to understand the current state of the law. They also prove useful in other areas such as prioritisation for manual summarisation of cases, where not all cases can be summarised, and automatic summarisation, or, potentially, as a ranking feature in case law retrieval. While a lawyer can determine the treatment of a cited case by reading a decision, this is time consuming and can increase legal costs. Currently, not all newly decided cases feature these treatment labels. Further, older cases typically do not. Given the large amount of new legal decisions decided each year, manual annotation of such treatment is not feasible. In this paper, we explore the effectiveness of neural network architectures for identifying case law citation treatment and importance (whether a case is important to a lawyer’s reasoning process). We find that these tasks are very difficult and various methods for text classification perform poorly. We address more comprehensively the task of citation importance for this reason while limiting our examination of the task of citation treatment to the modelling of the problem and the highlight of the intrinsic difficulty of the task. We make a test dataset available at github.com/ielab/caselaw-citations to stimulate further research that tackles this challenging problem. We also contribute a range of word embeddings learned over a large amount of processed case law text