24 research outputs found

    Il markup automatico su documenti legislativi in lingua albanese

    Get PDF
    La presente dissertazione si basa sull’aggiunta di una funzionalità all’interno dell’editor LIME, la cui principale funzione è il trattamento di documenti legislativi redatti nello standard Akoma Ntoso, basato sul linguaggio XML. Tale funzionalità implementata riguarda l’estensione della funzione di markup automatico anche ai documenti legislativi Albanesi, essa era già presente per i testi in lingua italiana, inglese, spagnola, russa e rumena. Tale funzione utilizza parser basati su espressioni regex permettono la rilevazione automatica degli elementi presenti all’interno del testo legislativo. All’interno della dissertazione verrà spiegato nel dettaglio il funzionamento di tale funzione di markup automatico, dei relativi parser e delle relative espressioni regolari utilizzate da essi per rilevazione degli elementi all’interno dei documenti

    Sviluppo di un editor di metadati per Simplex

    Get PDF
    Il presente lavoro si basa su un progetto applicativo chiamato Simplex, un editor per documenti legislativi redatti nel formato Akoma Ntoso, basato su standard XML e nato con lo scopo di ovviare ai problemi del suo predecessore LIME. Obiettivo principale del lavoro è la creazione di un componente fondamentale nell'editor Simplex, ovvero l'editor di metadati. Come suggerito dal nome, il componente ha il compito di interfacciarsi con il documento che si sta elaborando e in particolar modo con i metadati che descrivono la natura del documento, dando la possibilità all'utente di modificare questi ultimi. Durante lo sviluppo di questo progetto sono state create e definite le basi applicative su cui la tesi si è incentrata. Questo progetto è stato sviluppato tenendo in considerazione anche delle possibili future implementazioni che verranno discusse nel capitolo dedicato agli sviluppi futuri

    Uno strumento di supporto all’analisi e visualizzazione di dati strutturati nel contesto giuridico

    Get PDF
    La dissertazione ha l’obiettivo di verificare la tesi secondo cui la semplificazione delle attività di archiviazione e recupero dei documenti giuridici nello standard più appropriato supporta meccanismi di Data Analysis e favorisce lo sviluppo di strumenti per la Data Visualization. L’ambito riguardante l’analisi dei documenti giuridici è sempre più rilevante sia per il valore sociale ed economico che può emergere da tali documenti, sia per l’incremento delle quantità di dati disponibile e accessibili attraverso la rete e in particolare mediante le fonti ufficiali di produzione del diritto quali le gazzette. Questo contesto applicativo è strettamente collegato agli standard XML, i quali permettono ai documenti di essere processati tramite gli elaboratori. Uno standard XML adatto al contesto della Data Analysis è Akoma Ntoso che si differenzia da altri per il carattere universale e per la ricchezza semantica capace di catturare e modellare la conoscenza giuridica. Per la verifica della tesi iniziale sono presentati due strumenti che si basano sullo standard Akoma Ntoso: SOFIA, dashboard in cui sono definite alcune analisi su collezioni di documenti Akoma Ntoso e che consente la rappresentazione grafica dei risultati ottenuti; akomando-db, libreria JavaScript utilizzabile tramite API e CLI per la gestione delle fasi di archiviazione e di recupero dei documenti Akoma Ntoso. Infine viene presentata una valutazione qualitativa riguardante la complessità dello sviluppo di SOFIA con e senza l’ausilio di akomando-db

    Bridging the gap between closed and open data. System proposal for the Portuguese Legislation

    Get PDF
    Esta dissertação apresenta uma proposta de sistema capaz de preencher a lacuna entre documentos legislativos em formato PDF e documentos legislativos em formato aberto. O objetivo principal é mapear o conhecimento presente nesses documentos de maneira a representar essa coleção como informação interligada. O sistema é composto por vários componentes responsáveis pela execução de três fases propostas: extração de dados, organização de conhecimento, acesso à informação. A primeira fase propõe uma abordagem à extração de estrutura, texto e entidades de documentos PDF de maneira a obter a informação desejada, de acordo com a parametrização do utilizador. Esta abordagem usa dois métodos de extração diferentes, de acordo com as duas fases de processamento de documentos – análise de documento e compreensão de documento. O critério utilizado para agrupar objetos de texto é a fonte usada nos objetos de texto de acordo com a sua definição no código de fonte (Content Stream) do PDF. A abordagem está dividida em três partes: análise de documento, compreensão de documento e conjunção. A primeira parte da abordagem trata da extração de segmentos de texto, adotando uma abordagem geométrica. O resultado é uma lista de linhas do texto do documento; a segunda parte trata de agrupar os objetos de texto de acordo com o critério estipulado, produzindo um documento XML com o resultado dessa extração; a terceira e última fase junta os resultados das duas fases anteriores e aplica regras estruturais e lógicas no sentido de obter o documento XML final. A segunda fase propõe uma ontologia no domínio legal capaz de organizar a informação extraída pelo processo de extração da primeira fase. Também é responsável pelo processo de indexação do texto dos documentos. A ontologia proposta apresenta três características: pequena, interoperável e partilhável. A primeira característica está relacionada com o facto da ontologia não estar focada na descrição pormenorizada dos conceitos presentes, propondo uma descrição mais abstrata das entidades presentes; a segunda característica é incorporada devido à necessidade de interoperabilidade com outras ontologias do domínio legal, mas também com as ontologias padrão que são utilizadas geralmente; a terceira característica é definida no sentido de permitir que o conhecimento traduzido, segundo a ontologia proposta, seja independente de vários fatores, tais como o país, a língua ou a jurisdição. A terceira fase corresponde a uma resposta à questão do acesso e reutilização do conhecimento por utilizadores externos ao sistema através do desenvolvimento dum Web Service. Este componente permite o acesso à informação através da disponibilização de um grupo de recursos disponíveis a atores externos que desejem aceder à informação. O Web Service desenvolvido utiliza a arquitetura REST. Uma aplicação móvel Android também foi desenvolvida de maneira a providenciar visualizações dos pedidos de informação. O resultado final é então o desenvolvimento de um sistema capaz de transformar coleções de documentos em formato PDF para coleções em formato aberto de maneira a permitir o acesso e reutilização por outros utilizadores. Este sistema responde diretamente às questões da comunidade de dados abertos e de Governos, que possuem muitas coleções deste tipo, para as quais não existe a capacidade de raciocinar sobre a informação contida, e transformá-la em dados que os cidadãos e os profissionais possam visualizar e utilizar.This dissertation presents a system proposal capable of bridging the gap between legal documents in PDF format and open legislative documents. The objective is mainly to map the knowledge present in these documents in order to represent the collection as linked information. The system contains various components responsible for the execution of three proposed phases of execution: data extraction, knowledge organization and information access. The first phase proposes an approach to extract structure, text and entities from PDF documents in order to obtain the desired information in accordance with the user parameterization. The second phase proposes a legal domain ontology in order to organize the information extracted from the extraction process of the first phase and is also responsible for the indexing process of the legislative text of the documents. The third phase provides an answer to the access and reuse of the knowledge by third parties through the development of a Web Service. Additionally, an Android Mobile Application was developed to provide visualizations of the information requests. The desired final outcome is thus the development of a system that transforms collections of PDF documents to open data format collections in a way that it should become accessible and reusable by third parties

    Definición de un catálogo de servicios de información basados en la web semántica. Caso: Entidad Autónoma del Diario Oficial y de Publicaciones de la Generalidad de Cataluña

    Get PDF
    Màster en Gestió de Continguts Digitals, Facultat de Biblioteconomia i Documentació, Universitat de Barcelona i UPF, curs 2017-2018. Tutor: Miquel Centelles Velilla (UB)La definición de un catálogo de servicios de información basados en la web semántica se enmarca en el trabajo que la EADOP desarrolla para la mejora de sus servicios de información, específicamente para el portal del DOGC y el PJC. El DOGC es el medio mediante el cual se publican los Diarios Oficiales de la Generalidad de Cataluña, y el PJC permite un acceso estructurado a estos datos mediante un trabajo editorial que añade valor a la información legislativa emanada del DOGC. Para poder ofrecer un mejor acceso al vasto cúmulo de información legislativa y jurídica que es atesorada por la EADOP se apela al uso de la web semántica como el mecanismo tecnológico ideal que permite la optimización del flujo de trabajo de publicación y a la vez proporciona servicios de recuperación de información acordes con la filosofía de acceso abierto en repositorios institucionales utilizando modelos de datos enlazados como marco de referencia. De esta forma se garantiza no sólo el acceso y recuperación de la información contenida en las bases de datos de la EADOP sino también el enlace de la misma con otras fuentes basadas en modelos semánticos, especialmente del ámbito europeo, potenciando enormemente el uso de estos servicios públicos a través de la interoperabilidad entre sistemas, lo que permite, entre otros beneficios, la automatización de tareas de clasificación y búsqueda de información así como la optimización de recursos. En este marco de aplicación de la web semántica y el e-government, en servicios de información legislativa de la Generalidad de Cataluña, con una visión tanto nacional como comunitaria, se plantea el uso del ELI como el modelo para la estructuración semántica del contenido a publicar en el portal del DOGC y el PJC. Mediante la aplicación del ELI se facilita la gestión documental y se pueden mejorar los servicios de recuperación de la diversa e ingente cantidad de documentos e información que se generan constantemente en materia legislativa y jurídica en la Generalidad de Cataluña. A partir del ELI es posible automatizar estos aspectos de gestión y recuperación, incrementando la usabilidad, accesibilidad, calidad, cantidad, eficacia, eficiencia y pertinencia de los servicios de e-government ofrecidos por la Generalidad de Cataluña. Además, se plantea el uso del estándar internacional para la formalización de documentos jurídicos Akoma Ntoso, que es un el lenguaje de marcado semántico que permite hacer explícita la estructura de los documentos y sus componentes semánticos, facilitando de esta forma la creación de servicios de información de alto valor agregado. Se inicia el proyecto elaborando un marco teórico en donde se definen aspectos inherentes al acceso abierto y los repositorios institucionales, la web semántica y los sistemas de información legales y jurídicos, el uso de documentos legislativos basados en XML, Akoma Ntoso y ELI. Luego, se estructura el desarrollo del proyecto basado en cinco fases principales: análisis, definición, diseño, planificación y ejecución. En la primera fase se realiza un análisis de la EADOP, contemplando aspectos como el organigrama de funcionamiento y recursos asignados; una descripción de la situación actual, en donde se exponen los antecedentes del proyecto, alternativas para la implementación del ELI, visión del proyecto y resultados esperados, acompañados por un cuadro de análisis de debilidades, amenazas, fortalezas y oportunidades; así como la identificación de necesidades y un apartado para la elaboración de un análisis externo, tomando como referencia el desarrollo del ELI en Europa, específicamente el Boletín Oficial de Luxemburgo y el caso español; para llegar a una descripción y finalidad del proyecto con sus objetivos específicos. En la fase de definición se hace una breve descripción de las dimensiones temporales, finalidad y objetivos del proyecto. Para la fase de diseño se plantea una dialéctica basada en metodologías para la recogida y análisis de datos cuantitativos y cualitativos; además de la metodología para la implementación del ELI, basada en la ejecución de tres pilares: el primero consiste en el diseño de un esquema de identificación uniforme de recursos, el segundo pilar comprende la definición de metadatos y el tercero la serialización de la información en base a los dos pilares anteriores. También se contemplan los aspectos documentales del proyecto, definiendo contenidos, servicios e usuarios de los sistemas de información, así como también se exponen las propuestas o estrategias para la satisfacción de requerimientos, a saber: un complemento al actual sistema de gestión documental que permita la creación de documentos XML formados en base al ELI y el estándar Akoma Ntoso y un sistema de gestión de XML nativo; contemplando el contexto tecnológico para ambas propuestas y aspectos legales relacionados con el acceso, difusión y reutilización de contenido, privacidad, firma electrónica en XML jurídicos, propiedad intelectual y confidencialidad, contrataciones y convenios interinstitucionales, entre otras consideraciones legales pertinentes para el manejo general de la información y de los recursos del proyecto. La planificación contempla la especificación de las tareas, organización de las mismas en una secuencia lógica, así como la previsión de recursos humanos, tecnológicos y económicos necesarios. En la fase de ejecución se especifican las medidas de control y seguimiento a adoptar; las políticas de evaluación de la ejecución, resultados e impacto; la definición del equipo de trabajo; las estrategias de difusión y promoción, especificando audiencia, contenidos y canales de comunicación a utilizar; además, todo lo relacionado con los tipos de documentos e informes a generar durante el desarrollo del proyecto. Por último, se dedica un apartado para conclusiones, en donde se presentan los resultados preliminares del proyecto, recomendaciones de tipo estratégico y técnico; además de unas consideraciones finales en donde se abordan aspectos relativos a la experiencia profesional adquirida, el enriquecimiento curricular y la proyección de la web semántica

    Legal Design for the General Data Protection Regulation. A Methodology for the Visualization and Communication of Legal Concepts

    Get PDF
    Privacy policies are known to be impenetrable, lengthy, tedious texts that are hardly read and poorly understood. Therefore, the General Data Protection Regulation (GDPR) introduces provisions to enhance the transparency of such documents and suggests icons as visual elements to provide “in an easily visible, intelligible and clearly legible manner a meaningful overview of the intended processing.” The present dissertation discusses how design, and in particular legal design, can support the concrete implementation of the GDPR’s transparency obligation. Notwithstanding the many benefits that visual communication demonstrably provides, graphical elements do not improve comprehension per se. Research on graphical symbols for legal concepts is still scarce, while both the creation and consequent evaluation of icons depicting abstract or unfamiliar concepts represent a challenge. More- over, precision of representation can support the individuals’ sense-making of the meaning of graphical symbols, but at the expense of simplicity and us- ability. Hence, this research proposed a methodology that combines semantic web technologies with principles of semiotics and ergonomics, and empirical methods drawn from the emerging discipline of legal design, that was used to create and evaluate DaPIS, the Data Protection Icon Set meant to support the data subjects’ navigation of privacy policies. The icon set is modeled on PrOnto, an ontological representation of the GDPR, and is organized around its core modules: personal data, roles and agents, processing operations, processing purposes, legal bases, and data subjects’ rights. In combination with the description of a privacy policy in the legal standard XML Akoma Ntoso, such an approach makes the icons machine-readable and semi-automatically retrievable. Icons can thus serve as information markers in lengthy privacy statements and support the navigation of the text by the data subject

    Semantic Publishing: issues, solutions and new trends in scholarly publishing within the Semantic Web era

    Get PDF
    This work is concerned with the increasing relationships between two distinct multidisciplinary research fields, Semantic Web technologies and scholarly publishing, that in this context converge into one precise research topic: Semantic Publishing. In the spirit of the original aim of Semantic Publishing, i.e. the improvement of scientific communication by means of semantic technologies, this thesis proposes theories, formalisms and applications for opening up semantic publishing to an effective interaction between scholarly documents (e.g., journal articles) and their related semantic and formal descriptions. In fact, the main aim of this work is to increase the users' comprehension of documents and to allow document enrichment, discovery and linkage to document-related resources and contexts, such as other articles and raw scientific data. In order to achieve these goals, this thesis investigates and proposes solutions for three of the main issues that semantic publishing promises to address, namely: the need of tools for linking document text to a formal representation of its meaning, the lack of complete metadata schemas for describing documents according to the publishing vocabulary, and absence of effective user interfaces for easily acting on semantic publishing models and theories
    corecore