3,429 research outputs found
Bridging the gap between closed and open data. System proposal for the Portuguese Legislation
Esta dissertação apresenta uma proposta de sistema capaz de preencher a lacuna entre documentos legislativos em formato PDF e documentos legislativos em formato aberto. O objetivo principal é mapear o conhecimento presente nesses documentos de maneira a representar essa coleção como informação interligada.
O sistema é composto por vários componentes responsáveis pela execução de três fases propostas: extração de dados, organização de conhecimento, acesso à informação.
A primeira fase propõe uma abordagem à extração de estrutura, texto e entidades de documentos PDF de maneira a obter a informação desejada, de acordo com a parametrização do utilizador. Esta abordagem usa dois métodos de extração diferentes, de acordo com as duas fases de processamento de documentos – análise de documento e compreensão de documento. O critério utilizado para agrupar objetos de texto é a fonte usada nos objetos de texto de acordo com a sua definição no código de fonte (Content Stream) do PDF. A abordagem está dividida em três partes: análise de documento, compreensão de documento e conjunção. A primeira parte da abordagem trata da extração de segmentos de texto, adotando uma abordagem geométrica. O resultado é uma lista de linhas do texto do documento; a segunda parte trata de agrupar os objetos de texto de acordo com o critério estipulado, produzindo um documento XML com o resultado dessa extração; a terceira e última fase junta os resultados das duas fases anteriores e aplica regras estruturais e lógicas no sentido de obter o documento XML final.
A segunda fase propõe uma ontologia no domínio legal capaz de organizar a informação extraída pelo processo de extração da primeira fase. Também é responsável pelo processo de indexação do texto dos documentos. A ontologia proposta apresenta três características: pequena, interoperável e partilhável. A primeira característica está relacionada com o facto da ontologia não estar focada na descrição pormenorizada dos conceitos presentes, propondo uma descrição mais abstrata das entidades presentes; a segunda característica é incorporada devido à necessidade de interoperabilidade com outras ontologias do domínio legal, mas também com as ontologias padrão que são utilizadas geralmente; a terceira característica é definida no sentido de permitir que o conhecimento traduzido, segundo a ontologia proposta, seja independente de vários fatores, tais como o país, a língua ou a jurisdição.
A terceira fase corresponde a uma resposta à questão do acesso e reutilização do conhecimento por utilizadores externos ao sistema através do desenvolvimento dum Web Service. Este componente permite o acesso à informação através da disponibilização de um grupo de recursos disponíveis a atores externos que desejem aceder à informação. O Web Service desenvolvido utiliza a arquitetura REST. Uma aplicação móvel Android também foi desenvolvida de maneira a providenciar visualizações dos pedidos de informação.
O resultado final é então o desenvolvimento de um sistema capaz de transformar coleções de documentos em formato PDF para coleções em formato aberto de maneira a permitir o acesso e reutilização por outros utilizadores. Este sistema responde diretamente às questões da comunidade de dados abertos e de Governos, que possuem muitas coleções deste tipo, para as quais não existe a capacidade de raciocinar sobre a informação contida, e transformá-la em dados que os cidadãos e os profissionais possam visualizar e utilizar.This dissertation presents a system proposal capable of bridging the gap between legal documents in PDF format and open legislative documents. The objective is mainly to map the knowledge present in these documents in order to represent the collection as linked information.
The system contains various components responsible for the execution of three proposed phases of execution: data extraction, knowledge organization and information access.
The first phase proposes an approach to extract structure, text and entities from PDF documents in order to obtain the desired information in accordance with the user parameterization. The second phase proposes a legal domain ontology in order to organize the information extracted from the extraction process of the first phase and is also responsible for the indexing process of the legislative text of the documents. The third phase provides an answer to the access and reuse of the knowledge by third parties through the development of a Web Service. Additionally, an Android Mobile Application was developed to provide visualizations of the information requests.
The desired final outcome is thus the development of a system that transforms collections of PDF documents to open data format collections in a way that it should become accessible and reusable by third parties
Map4Scrutiny – a linked open data solution for politicians interest registers
Dissertação de mestrado em Sistemas de InformaçãoO trabalho desenvolvido no âmbito desta dissertação descreve o processo de recolha, uniformização e
transformação de dados abertos em formato de texto e tabelas (CSV) para dados abertos ligados (Linked
Open Data). Especificamente, dados sobre os registos de interesses dos deputados à assembleia da
república portuguesa e contratação pública, ligados pelas organizações que são mencionadas em ambos.
O estado da arte inclui uma análise de fundo aos conceitos de corrupção, transparência, dados abertos,
e dados abertos ligados, tal como a projetos de dados abertos e dados abertos ligados relevantes.
A seleção dos dados a utilizar, com respeito aos tópicos de conjuntos de dados relevantes e ao interesse
público, o desenho da solução proposta e a seleção de ferramentas, métodos e processos, seguiu a
proposta de três ciclos de Hevner para uma abordagem ao desenho de investigação na ciência.
O processo de implementação é iniciado com a recolha de dados das fontes utilizando bibliotecas Python
para web Scraping e a transformação dos mesmos em tabelas (CSV). Estes dados são depois limpos e
uniformizados com auxílio do OpenRefine. Esta ferramenta é também usada para mapear os dados da
tabela para triples que são exportados em ficheiros Turtle.
Este mapeamento foi previamente desenhado num perfil de aplicação que serviu de base para a criação
das formas dos dados (ShExC) usadas para conduzir o processo de validação nos ficheiros Turtle. Esta
validação assegura que os ficheiros gerados pelo OpenRefine são conformes com o perfil de aplicação.
Para descrever adequadamente os dados foram usados vocabulários já existentes complementados,
quando necessário, com a criação de novas classes, propriedades e valores. Este processo está também
descrito e os vocabulários estão disponíveis para consulta e reutilização.
Por fim, foram feitas consultas modelo em SPARQL para ilustrar a diferença entre os dados originais e o
conjunto de dados transformado. O objetivo deste trabalho é contribuir para as áreas de dados abertos
ligados e dados abertos para a transparência e escrutínio público. Os contributos principais para o
primeiro são um novo esquema de dados e a descrição de todos os passos do processo de
transformação. Para o segundo o contributo que se destaca é mais uma implementação que demonstra
o potencial do escrutínio de dados no aumento da transparência através da comparação entra as
consultas possíveis aos conjuntos de dados originais e ao resultante da solução proposta. O processo de
implementação está documentado abaixo e os ficheiros resultantes disponibilizados para consulta.The work developed in the scope of this dissertation describes the process of sourcing, uniformizing, and
transforming text and tabular (CSV) open data to linked open data. More exactly, data on Portuguese
parliamentarians’ interest registers and public procurement, linked by the organisations mentioned in
both.
The state of the art presented includes a background analysis on the concepts of corruption, transparency,
open data, and linked open data and an analysis of relevant open data and linked open data projects.
The research was conducted using Hevner’s three-cycle design science research approach which led to
the definition of the data scope concerning relevant dataset topics and the public’s interest, the design
of the proposed solution, and the selected tools, methods, and processes.
The implementation process starts with Scraping the data from the sources with the aid of python libraries
and generating tabular (CSV) outputs. These are cleaned and uniformized in OpenRefine. OpenRefine is
also the tool used to map the data on the tables into triples and generate outputs in Turtle.
The map was designed in an application profile that also served as a base for writing the shapes (in
ShExC) and conducting validation on the exported Turtle files. This validation ensures that the data is
conformant with the application profile. To successfully describe the data in triples, on top of the external
vocabularies used, new classes, properties and values had to be created. This process is also thoroughly
described, and the outputs are open to access and reuse. Finally, sample SPARQL queries were made
to showcase the difference between the sourced data and the resulting dataset.
The goal is to contribute to the field of linked open data and open data for transparency and public
scrutiny. The main contributions to the first are a new data scheme and the description of every step in
the transformation process, while to the latter the contribution is a further implementation showcasing
the scrutiny potential of data in improving transparency by comparing the querying possibilities of the
final dataset with the originals. Every step taken is documented below and the resulting outputs of the
different stages are available for consultation
Assessing NER tools for dialogue data anonymization
As the number of organizations processing sensitive data grows, so does the need for businesses
to protect and ensure the privacy of their customers. However, the prevailing methods
for protecting sensitive data often involve manual or semi-automatic procedures, which
can be resource-intensive and error-prone.
This dissertation addresses data anonymization by focusing on Named Entity Recognition
(NER) models. Particularly, we investigate and compare various NER models for the
Portuguese language to automatically and effectively anonymize unstructured data.
The models SpaCy, STRING, WikiNEuRal and RoBERTta are used in the machine learning
approach with the goal of identifying classes such as Person, Location, and Organization.
On the other hand, the rule-based approach seeks to identify classifications such as
NIF, Email, Car Plate and even Postal Code.
Additionally, it was created a Flask API tool capable of processing unstructured data
and anonymizing it, more specifically, given a string that simulates a message, automatically
anonymize the message content that might be considered as sensitive. This tool combines
many techniques for identifying and extracting mentioned entities for the Portuguese
language, based on rule models and machine learning.
The combination of both rule-based and machine learning models in the same tool was
crucial to enable the ability to encompass more sensitive classes for anonymization. The
results calculated for the extraction of entities from the tool built in this work encompasses
the results for the three classes calculated with the SpaCy model, with the addition of the
results calculated for the rule-models created.Com o aumento do número de organizações que processam dados sensíveis, aumenta também
a necessidade de as empresas assegurarem a privacidade dos seus clientes. No entanto,
os métodos de segurança e proteção de dados sensíveis envolvem, frequentemente,
procedimentos manuais ou semi-automáticos, os quais consomem muitos recursos e são
propensos a erros.
Esta tese aborda anonimização de dados, centrando-se em modelos de Reconhecimento
de Entidades Mencionadas. Em particular, investigamos e comparamos vários modelos
de Reconhecimento de Entidades Mencionadas para a língua portuguesa para anonimizar
automaticamente dados não estruturados.
Na abordagem de aprendizagem automática foram utilizados os modelos do SpaCy,
STRING, WikiNEuRal e RoBERTta com o intuito de identificar classes como Pessoa, Localização
e Organização. Contudo, a abordagem baseada em regras procura identificar classes
como NIF, Email, Matrícula de carro e até mesmo Código Postal.
Consequentemente, foi construída uma ferramenta em Flask, capaz de processar dados
não estruturados e anonimizá-los, mais especificamente, capaz de, dada uma string
(que simule uma mensagem), anonimizar o seu conteúdo sensível automaticamente. Esta
ferramenta combina diferentes técnicas para a Identificação e Extração de Entidades Mencionadas
para a língua portuguesa, baseando-se em modelos de regras e de aprendizagem
automática.
A junção de ambos os modelos de regras e aprendizagem automática na mesma ferramenta
foi essencial para conseguirmos abranger mais classes sensíveis para anonimização,
sendo que os resultados calculados para a extração de entidades da ferramenta contruída
neste trabalho, engloba os resultados para as três classes calculadas com o modelo SpaCy,
com a adição dos modelos de regras criados
Exploration of documents concerning Foundlings in Fafe along XIX Century
Dissertação de mestrado integrado em Informatics EngineeringThe abandonment of children and newborns is a problem in our society.
In the last few decades, the introduction of contraceptive methods, the development of
social programs and family planning were fundamental to control undesirable pregnancies
and support families in need. But these developments were not enough to solve the
abandonment epidemic.
The anonymous abandonment has a dangerous aspect. In order to preserve the family
identity, a child is usually left in a public place at night. Since children and newborns are
one of the most vulnerable groups in our society, the time between the abandonment and
the assistance of the child is potentially deadly.
The establishment of public institutions in the past, such as the foundling wheel, was
extremely important as a strategy to save lives. These institutions supported the abandoned
children, while simultaneously providing a safer abandonment process, without
compromising the anonymity of the family.
The focus of the Master’s Project discussed in this dissertation is the analysis and processing
of nineteenth century documents, concerning the Foundling Wheel of Fafe.
The analysis of sample documents is the initial step in the development of an ontology.
The ontology has a fundamental role in the organization and structure of the information
contained in these historical documents. The identification of concepts and the relationships
between them, culminates in a structured knowledge repository. Other important component
is the development of a digital platform, where users are able to access the content stored in
the knowledge repository and explore the digital archive, which incorporates the digitized
version of documents and books from these historical institutions.
The development of this project is important for some reasons. Directly, the implementation
of a knowledge repository and a digital platform preserves information. These
documents are mostly unique records and due to their age and advanced state of degradation,
the substitution of the physical by digital access reduces the wear and tear associated to
each consultation. Additionally, the digital archive facilitates the dissemination of valuable
information. Research groups or the general public are able to use the platform as a tool
to discover the past, by performing biographic, cultural or socio-economic studies over
documents dated to the ninetieth century.O abandono de crianças e de recém-nascidos é um flagelo da sociedade.
Nas últimas décadas, a introdução de métodos contraceptivos e de programas sociais
foram essenciais para o desenvolvimento do planeamento familiar. Apesar destes avanços,
estes programas não solucionaram a problemática do abandono de crianças e recém-nascidos.
Problemas socioeconómicos são o principal factor que explica o abandono.
O processo de abandono de crianças possui uma agravante perigosa. De forma a proteger
a identidade da família, este processo ocorre normalmente em locais públicos e durante
a noite. Como crianças e recém-nascidos constituem um dos grupos mais vulneráveis da
sociedade, o tempo entre o abandono da criança e seu salvamento, pode ser demasiado
longo e fatal.
A casa da roda foi uma instituição introduzida de forma a tornar o processo de abandono
anónimo mais seguro.
O foco do Projeto de Mestrado discutido nesta dissertação é a análise e tratamento de
documentos do século XIX, relativos à Casa da Roda de Fafe preservados pelo Arquivo
Municipal de Fafe.
A análise documental representa o ponto de partida do processo de desenvolvimento de
uma ontologia. A ontologia possui um papel fundamental na organização e estruturação da
informação contida nos documentos históricos. O processo de desenvolvimento de uma base
de conhecimento consiste na identificação de conceitos e relações existentes nos documentos.
Outra componente fundamental deste projecto é o desenvolvimento de uma plataforma
digital, que permite utilizadores acederem à base de conhecimento desenvolvida. Os
utilizadores podem pesquisar, explorar e adicionar informação à base de conhecimento.
O desenvolvimento deste projecto possui importância. De forma imediata, a implementação
de uma plataforma digital permite salvaguardar e preservar informação contida nos
documentos. Estes documentos são os únicos registos existentes com esse conteúdo e muitos
encontram-se num estado avançado de degradação. A substituição de acessos físicos por
acessos digitais reduz o desgaste associado a cada consulta.
O desenvolvimento da plataforma digital permite disseminar a informação contida na
base documental. Investigadores ou o público em geral podem utilizar esta ferramenta com
o intuito de realizar estudos biográficos, culturais e sociais sobre este arquivo histórico
International overview on the legal framework for highly automated vehicles
The evolution of Autonomous and automated technologies during the last decades has been
constant and maintained. All of us can remember an old film, in which they shown us a
driverless car, and we thought it was just an unreal object born of filmmakers imagination.
However, nowadays Highly Automated Vehicles are a reality, even not in our daily lives.
Hardly a day we don’t have news about Tesla launching a new model or Google showing the
new features of their autonomous car. But don’t have to travel far away from our borders.
Here in Europe we also can find different companies trying, with more or less success
depending on with, not to be lagged behind in this race.
But today their biggest problem is not only the liability of their innovative technology, but also
the legal framework for Highly Automated Vehicles. As a quick summary, in only a few
countries they have testing licenses, which not allow them to freely drive, and to the contrary
most nearly ban their use. The next milestone in autonomous driving is to build and
homogeneous, safe and global legal framework.
With this in mind, this paper presents an international overview on the legal framework for
Highly Automated Vehicles. We also present de different issues that such technologies have
to face to and which they have to overcome in the next years to be a real and daily
technology
Design and Implementation of a Collaborative Clinical Practice and Research Documentation System Using SNOMED-CT and HL7-CDA in the Context of a Pediatric Neurodevelopmental Unit
This paper introduces a prototype for clinical research documentation using the structured information model HL7 CDA and clinical terminology (SNOMED CT). The proposed solution
was integrated with the current electronic health record system (EHR-S) and aimed to implement
interoperability and structure information, and to create a collaborative platform between clinical
and research teams. The framework also aims to overcome the limitations imposed by classical
documentation strategies in real-time healthcare encounters that may require fast access to complex information. The solution was developed in the pediatric hospital (HP) of the University
Hospital Center of Coimbra (CHUC), a national reference for neurodevelopmental disorders, particularly for autism spectrum disorder (ASD), which is very demanding in terms of longitudinal and
cross-sectional data throughput. The platform uses a three-layer approach to reduce components’
dependencies and facilitate maintenance, scalability, and security. The system was validated in a
real-life context of the neurodevelopmental and autism unit (UNDA) in the HP and assessed based
on the functionalities model of EHR-S (EHR-S FM) regarding their successful implementation and
comparison with state-of-the-art alternative platforms. A global approach to the clinical history
of neurodevelopmental disorders was worked out, providing transparent healthcare data coding
and structuring while preserving information quality. Thus, the platform enabled the development
of user-defined structured templates and the creation of structured documents with standardized
clinical terminology that can be used in many healthcare contexts. Moreover, storing structured data
associated with healthcare encounters supports a longitudinal view of the patient’s healthcare data
and health status over time, which is critical in routine and pediatric research contexts. Additionally,
it enables queries on population statistics that are key to supporting the definition of local and global
policies, whose importance was recently emphasized by the COVID pandemic.info:eu-repo/semantics/publishedVersio
Plague Dot Text:Text mining and annotation of outbreak reports of the Third Plague Pandemic (1894-1952)
The design of models that govern diseases in population is commonly built on
information and data gathered from past outbreaks. However, epidemic outbreaks
are never captured in statistical data alone but are communicated by
narratives, supported by empirical observations. Outbreak reports discuss
correlations between populations, locations and the disease to infer insights
into causes, vectors and potential interventions. The problem with these
narratives is usually the lack of consistent structure or strong conventions,
which prohibit their formal analysis in larger corpora. Our interdisciplinary
research investigates more than 100 reports from the third plague pandemic
(1894-1952) evaluating ways of building a corpus to extract and structure this
narrative information through text mining and manual annotation. In this paper
we discuss the progress of our ongoing exploratory project, how we enhance
optical character recognition (OCR) methods to improve text capture, our
approach to structure the narratives and identify relevant entities in the
reports. The structured corpus is made available via Solr enabling search and
analysis across the whole collection for future research dedicated, for
example, to the identification of concepts. We show preliminary visualisations
of the characteristics of causation and differences with respect to gender as a
result of syntactic-category-dependent corpus statistics. Our goal is to
develop structured accounts of some of the most significant concepts that were
used to understand the epidemiology of the third plague pandemic around the
globe. The corpus enables researchers to analyse the reports collectively
allowing for deep insights into the global epidemiological consideration of
plague in the early twentieth century.Comment: Journal of Data Mining & Digital Humanities 202
many faces, many places (Term21)
UIDB/03213/2020
UIDP/03213/2020publishersversionpublishe
many faces, many places (Term21)
UIDB/03213/2020
UIDP/03213/2020Proceedings of the LREC 2022 Workshop Language Resources and Evaluation Conferencepublishersversionpublishe
Automatic rule verification for digital building permits
Dissertação de mestrado em Modelação de Informação na Construção de Edifícios BIM A+O sector da construção está a enfrentar grandes mudanças nas exigências do cliente e do mercado,
empurrando para a transformação digital e para uma indústria orientada para os dados. Os governos
tomaram parte ativa nesta mudança, apoiando a digitalização de processos como o das licenças de
construção, introduzindo a utilização de modelos de informação de construção (BIM). A investigação
sobre a digitalização do licenciamento municipal de construções mostrou grandes avanços no que diz
respeito à extração de regras de forma interpretável e à automatização de verificações; contudo, a
conciliação entre as definições semânticas do modelo de construção e os conceitos definidos nos
regulamentos está ainda em discussão. Além disso, a validação da acuidade das informações incluídas
nos modelos de construção relativamente às definições do regulamento é importante para garantir a
qualidade ao longo do processo de licença de construção.
Esta dissertação visa propor um fluxo de trabalho híbrido para verificar a informação extraída
explicitamente do modelo BIM e a informação implicitamente derivada das relações entre elementos,
seguindo as disposições contidas nos regulamentos no contexto de Portugal. Com base em alguma
revisão de literatura, foi proposto um novo processo, e foi desenvolvido um código Python utilizando a
biblioteca IfcOpenshell para apoiar a automatização do processo de verificação, tradicionalmente
realizada por técnicos nos gabinetes de licenciamento municipal. Os elementos desenvolvidos neste
documento foram comprovados num estudo de caso, demonstrando que a validação híbrida pode ajudar
a detetar erros de modelação e melhorar a acuidade da informação durante a apresentação inicial de
modelos para um processo de licença de construção.
Os resultados indicam que a inclusão de uma validação automática do modelo contra definições
regulamentares pode ser introduzida para melhorar o grau de certeza da qualidade da informação contida
no Modelo de Informação, além disso, a proposta de métodos que produzem resultados a partir de
informação implícita pode alargar as capacidades do esquema IFC. Contudo, os esquemas
desenvolvidos neste trabalho estão ainda em constante revisão e desenvolvimento e têm limitações de
aplicabilidade em relação a certas classes do IFC.The construction sector is facing major changes in the client and market requirements, pushing towards
the digital transformation and a data driven industry. Governments have taken an active part in this
change by supporting the digitalization of processes such as the one for building permits by introducing
the use of building information models (BIM). The research on the digitalization of the building permit
has shown great advancements in regarding the rule extraction in interpretable ways and the automation
of the verification; however, the conciliation between the building model semantic definitions and the
concepts defined in the regulations is still in discussion. Moreover, the validation of the correctness of
the information included in building models regarding the regulation definitions is important to
guarantee the quality along the digital building permit process.
This dissertation aims to propose a hybrid workflow to check the information extracted explicitly from
the BIM model and the information implicitly derived from relationships between elements by following
the provisions contained in the regulations in the context of Portugal. Based on some context and
literature review, a process reengineering was proposed, and a Python code was developed using the
IfcOpenShell library to support the automation of the verification process, traditionally carried out by
technicians in the building permit offices. The elements developed in this document were proven in a
case-study, demonstrating that the hybrid validation can help to detect modelling errors and improve the
certainty of correctness of information during the initial submission of models for a building permit
process.
The results indicate that the inclusion of an automated validation of the model against regulation
definitions can be introduced to improve the degree of certainty of the quality of the information
contained in the Building Information Model, moreover the proposal of methods that produce results
from implicit information can extend the capabilities of the IFC schema. However, the scripts developed
in this work are still under constant review and development and have limitations of applicability in
relation to certain IFC classes.Erasmus Mundus Joint Master Degree Programme – ERASMUS
- …