3,427 research outputs found

    Bridging the gap between closed and open data. System proposal for the Portuguese Legislation

    Get PDF
    Esta dissertação apresenta uma proposta de sistema capaz de preencher a lacuna entre documentos legislativos em formato PDF e documentos legislativos em formato aberto. O objetivo principal é mapear o conhecimento presente nesses documentos de maneira a representar essa coleção como informação interligada. O sistema é composto por vários componentes responsáveis pela execução de três fases propostas: extração de dados, organização de conhecimento, acesso à informação. A primeira fase propõe uma abordagem à extração de estrutura, texto e entidades de documentos PDF de maneira a obter a informação desejada, de acordo com a parametrização do utilizador. Esta abordagem usa dois métodos de extração diferentes, de acordo com as duas fases de processamento de documentos – análise de documento e compreensão de documento. O critério utilizado para agrupar objetos de texto é a fonte usada nos objetos de texto de acordo com a sua definição no código de fonte (Content Stream) do PDF. A abordagem está dividida em três partes: análise de documento, compreensão de documento e conjunção. A primeira parte da abordagem trata da extração de segmentos de texto, adotando uma abordagem geométrica. O resultado é uma lista de linhas do texto do documento; a segunda parte trata de agrupar os objetos de texto de acordo com o critério estipulado, produzindo um documento XML com o resultado dessa extração; a terceira e última fase junta os resultados das duas fases anteriores e aplica regras estruturais e lógicas no sentido de obter o documento XML final. A segunda fase propõe uma ontologia no domínio legal capaz de organizar a informação extraída pelo processo de extração da primeira fase. Também é responsável pelo processo de indexação do texto dos documentos. A ontologia proposta apresenta três características: pequena, interoperável e partilhável. A primeira característica está relacionada com o facto da ontologia não estar focada na descrição pormenorizada dos conceitos presentes, propondo uma descrição mais abstrata das entidades presentes; a segunda característica é incorporada devido à necessidade de interoperabilidade com outras ontologias do domínio legal, mas também com as ontologias padrão que são utilizadas geralmente; a terceira característica é definida no sentido de permitir que o conhecimento traduzido, segundo a ontologia proposta, seja independente de vários fatores, tais como o país, a língua ou a jurisdição. A terceira fase corresponde a uma resposta à questão do acesso e reutilização do conhecimento por utilizadores externos ao sistema através do desenvolvimento dum Web Service. Este componente permite o acesso à informação através da disponibilização de um grupo de recursos disponíveis a atores externos que desejem aceder à informação. O Web Service desenvolvido utiliza a arquitetura REST. Uma aplicação móvel Android também foi desenvolvida de maneira a providenciar visualizações dos pedidos de informação. O resultado final é então o desenvolvimento de um sistema capaz de transformar coleções de documentos em formato PDF para coleções em formato aberto de maneira a permitir o acesso e reutilização por outros utilizadores. Este sistema responde diretamente às questões da comunidade de dados abertos e de Governos, que possuem muitas coleções deste tipo, para as quais não existe a capacidade de raciocinar sobre a informação contida, e transformá-la em dados que os cidadãos e os profissionais possam visualizar e utilizar.This dissertation presents a system proposal capable of bridging the gap between legal documents in PDF format and open legislative documents. The objective is mainly to map the knowledge present in these documents in order to represent the collection as linked information. The system contains various components responsible for the execution of three proposed phases of execution: data extraction, knowledge organization and information access. The first phase proposes an approach to extract structure, text and entities from PDF documents in order to obtain the desired information in accordance with the user parameterization. The second phase proposes a legal domain ontology in order to organize the information extracted from the extraction process of the first phase and is also responsible for the indexing process of the legislative text of the documents. The third phase provides an answer to the access and reuse of the knowledge by third parties through the development of a Web Service. Additionally, an Android Mobile Application was developed to provide visualizations of the information requests. The desired final outcome is thus the development of a system that transforms collections of PDF documents to open data format collections in a way that it should become accessible and reusable by third parties

    Map4Scrutiny – a linked open data solution for politicians interest registers

    Get PDF
    Dissertação de mestrado em Sistemas de InformaçãoO trabalho desenvolvido no âmbito desta dissertação descreve o processo de recolha, uniformização e transformação de dados abertos em formato de texto e tabelas (CSV) para dados abertos ligados (Linked Open Data). Especificamente, dados sobre os registos de interesses dos deputados à assembleia da república portuguesa e contratação pública, ligados pelas organizações que são mencionadas em ambos. O estado da arte inclui uma análise de fundo aos conceitos de corrupção, transparência, dados abertos, e dados abertos ligados, tal como a projetos de dados abertos e dados abertos ligados relevantes. A seleção dos dados a utilizar, com respeito aos tópicos de conjuntos de dados relevantes e ao interesse público, o desenho da solução proposta e a seleção de ferramentas, métodos e processos, seguiu a proposta de três ciclos de Hevner para uma abordagem ao desenho de investigação na ciência. O processo de implementação é iniciado com a recolha de dados das fontes utilizando bibliotecas Python para web Scraping e a transformação dos mesmos em tabelas (CSV). Estes dados são depois limpos e uniformizados com auxílio do OpenRefine. Esta ferramenta é também usada para mapear os dados da tabela para triples que são exportados em ficheiros Turtle. Este mapeamento foi previamente desenhado num perfil de aplicação que serviu de base para a criação das formas dos dados (ShExC) usadas para conduzir o processo de validação nos ficheiros Turtle. Esta validação assegura que os ficheiros gerados pelo OpenRefine são conformes com o perfil de aplicação. Para descrever adequadamente os dados foram usados vocabulários já existentes complementados, quando necessário, com a criação de novas classes, propriedades e valores. Este processo está também descrito e os vocabulários estão disponíveis para consulta e reutilização. Por fim, foram feitas consultas modelo em SPARQL para ilustrar a diferença entre os dados originais e o conjunto de dados transformado. O objetivo deste trabalho é contribuir para as áreas de dados abertos ligados e dados abertos para a transparência e escrutínio público. Os contributos principais para o primeiro são um novo esquema de dados e a descrição de todos os passos do processo de transformação. Para o segundo o contributo que se destaca é mais uma implementação que demonstra o potencial do escrutínio de dados no aumento da transparência através da comparação entra as consultas possíveis aos conjuntos de dados originais e ao resultante da solução proposta. O processo de implementação está documentado abaixo e os ficheiros resultantes disponibilizados para consulta.The work developed in the scope of this dissertation describes the process of sourcing, uniformizing, and transforming text and tabular (CSV) open data to linked open data. More exactly, data on Portuguese parliamentarians’ interest registers and public procurement, linked by the organisations mentioned in both. The state of the art presented includes a background analysis on the concepts of corruption, transparency, open data, and linked open data and an analysis of relevant open data and linked open data projects. The research was conducted using Hevner’s three-cycle design science research approach which led to the definition of the data scope concerning relevant dataset topics and the public’s interest, the design of the proposed solution, and the selected tools, methods, and processes. The implementation process starts with Scraping the data from the sources with the aid of python libraries and generating tabular (CSV) outputs. These are cleaned and uniformized in OpenRefine. OpenRefine is also the tool used to map the data on the tables into triples and generate outputs in Turtle. The map was designed in an application profile that also served as a base for writing the shapes (in ShExC) and conducting validation on the exported Turtle files. This validation ensures that the data is conformant with the application profile. To successfully describe the data in triples, on top of the external vocabularies used, new classes, properties and values had to be created. This process is also thoroughly described, and the outputs are open to access and reuse. Finally, sample SPARQL queries were made to showcase the difference between the sourced data and the resulting dataset. The goal is to contribute to the field of linked open data and open data for transparency and public scrutiny. The main contributions to the first are a new data scheme and the description of every step in the transformation process, while to the latter the contribution is a further implementation showcasing the scrutiny potential of data in improving transparency by comparing the querying possibilities of the final dataset with the originals. Every step taken is documented below and the resulting outputs of the different stages are available for consultation

    Assessing NER tools for dialogue data anonymization

    Get PDF
    As the number of organizations processing sensitive data grows, so does the need for businesses to protect and ensure the privacy of their customers. However, the prevailing methods for protecting sensitive data often involve manual or semi-automatic procedures, which can be resource-intensive and error-prone. This dissertation addresses data anonymization by focusing on Named Entity Recognition (NER) models. Particularly, we investigate and compare various NER models for the Portuguese language to automatically and effectively anonymize unstructured data. The models SpaCy, STRING, WikiNEuRal and RoBERTta are used in the machine learning approach with the goal of identifying classes such as Person, Location, and Organization. On the other hand, the rule-based approach seeks to identify classifications such as NIF, Email, Car Plate and even Postal Code. Additionally, it was created a Flask API tool capable of processing unstructured data and anonymizing it, more specifically, given a string that simulates a message, automatically anonymize the message content that might be considered as sensitive. This tool combines many techniques for identifying and extracting mentioned entities for the Portuguese language, based on rule models and machine learning. The combination of both rule-based and machine learning models in the same tool was crucial to enable the ability to encompass more sensitive classes for anonymization. The results calculated for the extraction of entities from the tool built in this work encompasses the results for the three classes calculated with the SpaCy model, with the addition of the results calculated for the rule-models created.Com o aumento do número de organizações que processam dados sensíveis, aumenta também a necessidade de as empresas assegurarem a privacidade dos seus clientes. No entanto, os métodos de segurança e proteção de dados sensíveis envolvem, frequentemente, procedimentos manuais ou semi-automáticos, os quais consomem muitos recursos e são propensos a erros. Esta tese aborda anonimização de dados, centrando-se em modelos de Reconhecimento de Entidades Mencionadas. Em particular, investigamos e comparamos vários modelos de Reconhecimento de Entidades Mencionadas para a língua portuguesa para anonimizar automaticamente dados não estruturados. Na abordagem de aprendizagem automática foram utilizados os modelos do SpaCy, STRING, WikiNEuRal e RoBERTta com o intuito de identificar classes como Pessoa, Localização e Organização. Contudo, a abordagem baseada em regras procura identificar classes como NIF, Email, Matrícula de carro e até mesmo Código Postal. Consequentemente, foi construída uma ferramenta em Flask, capaz de processar dados não estruturados e anonimizá-los, mais especificamente, capaz de, dada uma string (que simule uma mensagem), anonimizar o seu conteúdo sensível automaticamente. Esta ferramenta combina diferentes técnicas para a Identificação e Extração de Entidades Mencionadas para a língua portuguesa, baseando-se em modelos de regras e de aprendizagem automática. A junção de ambos os modelos de regras e aprendizagem automática na mesma ferramenta foi essencial para conseguirmos abranger mais classes sensíveis para anonimização, sendo que os resultados calculados para a extração de entidades da ferramenta contruída neste trabalho, engloba os resultados para as três classes calculadas com o modelo SpaCy, com a adição dos modelos de regras criados

    Exploration of documents concerning Foundlings in Fafe along XIX Century

    Get PDF
    Dissertação de mestrado integrado em Informatics EngineeringThe abandonment of children and newborns is a problem in our society. In the last few decades, the introduction of contraceptive methods, the development of social programs and family planning were fundamental to control undesirable pregnancies and support families in need. But these developments were not enough to solve the abandonment epidemic. The anonymous abandonment has a dangerous aspect. In order to preserve the family identity, a child is usually left in a public place at night. Since children and newborns are one of the most vulnerable groups in our society, the time between the abandonment and the assistance of the child is potentially deadly. The establishment of public institutions in the past, such as the foundling wheel, was extremely important as a strategy to save lives. These institutions supported the abandoned children, while simultaneously providing a safer abandonment process, without compromising the anonymity of the family. The focus of the Master’s Project discussed in this dissertation is the analysis and processing of nineteenth century documents, concerning the Foundling Wheel of Fafe. The analysis of sample documents is the initial step in the development of an ontology. The ontology has a fundamental role in the organization and structure of the information contained in these historical documents. The identification of concepts and the relationships between them, culminates in a structured knowledge repository. Other important component is the development of a digital platform, where users are able to access the content stored in the knowledge repository and explore the digital archive, which incorporates the digitized version of documents and books from these historical institutions. The development of this project is important for some reasons. Directly, the implementation of a knowledge repository and a digital platform preserves information. These documents are mostly unique records and due to their age and advanced state of degradation, the substitution of the physical by digital access reduces the wear and tear associated to each consultation. Additionally, the digital archive facilitates the dissemination of valuable information. Research groups or the general public are able to use the platform as a tool to discover the past, by performing biographic, cultural or socio-economic studies over documents dated to the ninetieth century.O abandono de crianças e de recém-nascidos é um flagelo da sociedade. Nas últimas décadas, a introdução de métodos contraceptivos e de programas sociais foram essenciais para o desenvolvimento do planeamento familiar. Apesar destes avanços, estes programas não solucionaram a problemática do abandono de crianças e recém-nascidos. Problemas socioeconómicos são o principal factor que explica o abandono. O processo de abandono de crianças possui uma agravante perigosa. De forma a proteger a identidade da família, este processo ocorre normalmente em locais públicos e durante a noite. Como crianças e recém-nascidos constituem um dos grupos mais vulneráveis da sociedade, o tempo entre o abandono da criança e seu salvamento, pode ser demasiado longo e fatal. A casa da roda foi uma instituição introduzida de forma a tornar o processo de abandono anónimo mais seguro. O foco do Projeto de Mestrado discutido nesta dissertação é a análise e tratamento de documentos do século XIX, relativos à Casa da Roda de Fafe preservados pelo Arquivo Municipal de Fafe. A análise documental representa o ponto de partida do processo de desenvolvimento de uma ontologia. A ontologia possui um papel fundamental na organização e estruturação da informação contida nos documentos históricos. O processo de desenvolvimento de uma base de conhecimento consiste na identificação de conceitos e relações existentes nos documentos. Outra componente fundamental deste projecto é o desenvolvimento de uma plataforma digital, que permite utilizadores acederem à base de conhecimento desenvolvida. Os utilizadores podem pesquisar, explorar e adicionar informação à base de conhecimento. O desenvolvimento deste projecto possui importância. De forma imediata, a implementação de uma plataforma digital permite salvaguardar e preservar informação contida nos documentos. Estes documentos são os únicos registos existentes com esse conteúdo e muitos encontram-se num estado avançado de degradação. A substituição de acessos físicos por acessos digitais reduz o desgaste associado a cada consulta. O desenvolvimento da plataforma digital permite disseminar a informação contida na base documental. Investigadores ou o público em geral podem utilizar esta ferramenta com o intuito de realizar estudos biográficos, culturais e sociais sobre este arquivo histórico

    International overview on the legal framework for highly automated vehicles

    Get PDF
    The evolution of Autonomous and automated technologies during the last decades has been constant and maintained. All of us can remember an old film, in which they shown us a driverless car, and we thought it was just an unreal object born of filmmakers imagination. However, nowadays Highly Automated Vehicles are a reality, even not in our daily lives. Hardly a day we don’t have news about Tesla launching a new model or Google showing the new features of their autonomous car. But don’t have to travel far away from our borders. Here in Europe we also can find different companies trying, with more or less success depending on with, not to be lagged behind in this race. But today their biggest problem is not only the liability of their innovative technology, but also the legal framework for Highly Automated Vehicles. As a quick summary, in only a few countries they have testing licenses, which not allow them to freely drive, and to the contrary most nearly ban their use. The next milestone in autonomous driving is to build and homogeneous, safe and global legal framework. With this in mind, this paper presents an international overview on the legal framework for Highly Automated Vehicles. We also present de different issues that such technologies have to face to and which they have to overcome in the next years to be a real and daily technology

    Design and Implementation of a Collaborative Clinical Practice and Research Documentation System Using SNOMED-CT and HL7-CDA in the Context of a Pediatric Neurodevelopmental Unit

    Get PDF
    This paper introduces a prototype for clinical research documentation using the structured information model HL7 CDA and clinical terminology (SNOMED CT). The proposed solution was integrated with the current electronic health record system (EHR-S) and aimed to implement interoperability and structure information, and to create a collaborative platform between clinical and research teams. The framework also aims to overcome the limitations imposed by classical documentation strategies in real-time healthcare encounters that may require fast access to complex information. The solution was developed in the pediatric hospital (HP) of the University Hospital Center of Coimbra (CHUC), a national reference for neurodevelopmental disorders, particularly for autism spectrum disorder (ASD), which is very demanding in terms of longitudinal and cross-sectional data throughput. The platform uses a three-layer approach to reduce components’ dependencies and facilitate maintenance, scalability, and security. The system was validated in a real-life context of the neurodevelopmental and autism unit (UNDA) in the HP and assessed based on the functionalities model of EHR-S (EHR-S FM) regarding their successful implementation and comparison with state-of-the-art alternative platforms. A global approach to the clinical history of neurodevelopmental disorders was worked out, providing transparent healthcare data coding and structuring while preserving information quality. Thus, the platform enabled the development of user-defined structured templates and the creation of structured documents with standardized clinical terminology that can be used in many healthcare contexts. Moreover, storing structured data associated with healthcare encounters supports a longitudinal view of the patient’s healthcare data and health status over time, which is critical in routine and pediatric research contexts. Additionally, it enables queries on population statistics that are key to supporting the definition of local and global policies, whose importance was recently emphasized by the COVID pandemic.info:eu-repo/semantics/publishedVersio

    Plague Dot Text:Text mining and annotation of outbreak reports of the Third Plague Pandemic (1894-1952)

    Get PDF
    The design of models that govern diseases in population is commonly built on information and data gathered from past outbreaks. However, epidemic outbreaks are never captured in statistical data alone but are communicated by narratives, supported by empirical observations. Outbreak reports discuss correlations between populations, locations and the disease to infer insights into causes, vectors and potential interventions. The problem with these narratives is usually the lack of consistent structure or strong conventions, which prohibit their formal analysis in larger corpora. Our interdisciplinary research investigates more than 100 reports from the third plague pandemic (1894-1952) evaluating ways of building a corpus to extract and structure this narrative information through text mining and manual annotation. In this paper we discuss the progress of our ongoing exploratory project, how we enhance optical character recognition (OCR) methods to improve text capture, our approach to structure the narratives and identify relevant entities in the reports. The structured corpus is made available via Solr enabling search and analysis across the whole collection for future research dedicated, for example, to the identification of concepts. We show preliminary visualisations of the characteristics of causation and differences with respect to gender as a result of syntactic-category-dependent corpus statistics. Our goal is to develop structured accounts of some of the most significant concepts that were used to understand the epidemiology of the third plague pandemic around the globe. The corpus enables researchers to analyse the reports collectively allowing for deep insights into the global epidemiological consideration of plague in the early twentieth century.Comment: Journal of Data Mining & Digital Humanities 202

    many faces, many places (Term21)

    Get PDF
    UIDB/03213/2020 UIDP/03213/2020publishersversionpublishe

    many faces, many places (Term21)

    Get PDF
    UIDB/03213/2020 UIDP/03213/2020Proceedings of the LREC 2022 Workshop Language Resources and Evaluation Conferencepublishersversionpublishe

    Automatic rule verification for digital building permits

    Get PDF
    Dissertação de mestrado em Modelação de Informação na Construção de Edifícios BIM A+O sector da construção está a enfrentar grandes mudanças nas exigências do cliente e do mercado, empurrando para a transformação digital e para uma indústria orientada para os dados. Os governos tomaram parte ativa nesta mudança, apoiando a digitalização de processos como o das licenças de construção, introduzindo a utilização de modelos de informação de construção (BIM). A investigação sobre a digitalização do licenciamento municipal de construções mostrou grandes avanços no que diz respeito à extração de regras de forma interpretável e à automatização de verificações; contudo, a conciliação entre as definições semânticas do modelo de construção e os conceitos definidos nos regulamentos está ainda em discussão. Além disso, a validação da acuidade das informações incluídas nos modelos de construção relativamente às definições do regulamento é importante para garantir a qualidade ao longo do processo de licença de construção. Esta dissertação visa propor um fluxo de trabalho híbrido para verificar a informação extraída explicitamente do modelo BIM e a informação implicitamente derivada das relações entre elementos, seguindo as disposições contidas nos regulamentos no contexto de Portugal. Com base em alguma revisão de literatura, foi proposto um novo processo, e foi desenvolvido um código Python utilizando a biblioteca IfcOpenshell para apoiar a automatização do processo de verificação, tradicionalmente realizada por técnicos nos gabinetes de licenciamento municipal. Os elementos desenvolvidos neste documento foram comprovados num estudo de caso, demonstrando que a validação híbrida pode ajudar a detetar erros de modelação e melhorar a acuidade da informação durante a apresentação inicial de modelos para um processo de licença de construção. Os resultados indicam que a inclusão de uma validação automática do modelo contra definições regulamentares pode ser introduzida para melhorar o grau de certeza da qualidade da informação contida no Modelo de Informação, além disso, a proposta de métodos que produzem resultados a partir de informação implícita pode alargar as capacidades do esquema IFC. Contudo, os esquemas desenvolvidos neste trabalho estão ainda em constante revisão e desenvolvimento e têm limitações de aplicabilidade em relação a certas classes do IFC.The construction sector is facing major changes in the client and market requirements, pushing towards the digital transformation and a data driven industry. Governments have taken an active part in this change by supporting the digitalization of processes such as the one for building permits by introducing the use of building information models (BIM). The research on the digitalization of the building permit has shown great advancements in regarding the rule extraction in interpretable ways and the automation of the verification; however, the conciliation between the building model semantic definitions and the concepts defined in the regulations is still in discussion. Moreover, the validation of the correctness of the information included in building models regarding the regulation definitions is important to guarantee the quality along the digital building permit process. This dissertation aims to propose a hybrid workflow to check the information extracted explicitly from the BIM model and the information implicitly derived from relationships between elements by following the provisions contained in the regulations in the context of Portugal. Based on some context and literature review, a process reengineering was proposed, and a Python code was developed using the IfcOpenShell library to support the automation of the verification process, traditionally carried out by technicians in the building permit offices. The elements developed in this document were proven in a case-study, demonstrating that the hybrid validation can help to detect modelling errors and improve the certainty of correctness of information during the initial submission of models for a building permit process. The results indicate that the inclusion of an automated validation of the model against regulation definitions can be introduced to improve the degree of certainty of the quality of the information contained in the Building Information Model, moreover the proposal of methods that produce results from implicit information can extend the capabilities of the IFC schema. However, the scripts developed in this work are still under constant review and development and have limitations of applicability in relation to certain IFC classes.Erasmus Mundus Joint Master Degree Programme – ERASMUS
    corecore