4 research outputs found
Serviços de integração de dados para aplicações biomédicas
Doutoramento em Informática (MAP-i)In the last decades, the field of biomedical science has fostered
unprecedented scientific advances. Research is stimulated by the
constant evolution of information technology, delivering novel and
diverse bioinformatics tools. Nevertheless, the proliferation of new and
disconnected solutions has resulted in massive amounts of resources
spread over heterogeneous and distributed platforms. Distinct
data types and formats are generated and stored in miscellaneous
repositories posing data interoperability challenges and delays in
discoveries. Data sharing and integrated access to these resources
are key features for successful knowledge extraction.
In this context, this thesis makes contributions towards accelerating
the semantic integration, linkage and reuse of biomedical resources.
The first contribution addresses the connection of distributed and
heterogeneous registries. The proposed methodology creates a
holistic view over the different registries, supporting semantic
data representation, integrated access and querying. The second
contribution addresses the integration of heterogeneous information
across scientific research, aiming to enable adequate data-sharing
services. The third contribution presents a modular architecture to
support the extraction and integration of textual information, enabling
the full exploitation of curated data. The last contribution lies
in providing a platform to accelerate the deployment of enhanced
semantic information systems. All the proposed solutions were
deployed and validated in the scope of rare diseases.Nas últimas décadas, o campo das ciências biomédicas proporcionou
grandes avanços científicos estimulados pela constante evolução das
tecnologias de informação. A criação de diversas ferramentas na
área da bioinformática e a falta de integração entre novas soluções
resultou em enormes quantidades de dados distribuídos por diferentes
plataformas. Dados de diferentes tipos e formatos são gerados
e armazenados em vários repositórios, o que origina problemas de
interoperabilidade e atrasa a investigação. A partilha de informação
e o acesso integrado a esses recursos são características fundamentais
para a extração bem sucedida do conhecimento científico.
Nesta medida, esta tese fornece contribuições para acelerar a
integração, ligação e reutilização semântica de dados biomédicos. A
primeira contribuição aborda a interconexão de registos distribuídos e
heterogéneos. A metodologia proposta cria uma visão holística sobre
os diferentes registos, suportando a representação semântica de dados
e o acesso integrado. A segunda contribuição aborda a integração
de diversos dados para investigações científicas, com o objetivo de
suportar serviços interoperáveis para a partilha de informação. O
terceiro contributo apresenta uma arquitetura modular que apoia a
extração e integração de informações textuais, permitindo a exploração
destes dados. A última contribuição consiste numa plataforma web
para acelerar a criação de sistemas de informação semânticos. Todas
as soluções propostas foram validadas no âmbito das doenças raras
Computational methods for data discovery, harmonization and integration:Using lexical and semantic matching with an application to biobanking phenotypes
Grote gegevensverzamelingen rondom menselijke proefpersonen/patiënten, zoals biobanken en patiënten registraties, zijn onmisbaar geworden voor onderzoek naar ziekte en gezondheid, en de vertaling van dit onderzoek naar zorg en preventie. De afgelopen jaren heeft dit soort onderzoek een enorme vlucht genomen, van beperkte studies in context van specifieke ziektebeelden tot nu grootschalig bestuderen van ziekten en het complexe samenspel van genetische en omgevingsfactoren. Succesvolle uitvoering van dit soort studies vereist enorme datasets. Doordat de data in biobanken typisch is verzameld voor verschillende doelen, en daardoor dus ook qua structuur en samenstelling verschillen, is data integratie een moeizaam en tijdsintensief proces waarbij vele methodologische, technische en ethisch/juridische horden moeten worden genomen. Dit proefschrift beschrijft het onderzoek naar de uitdagingen rondom het ‘poolen’ van phenotypische gegevens over meerdere biobanken. In het bijzonder hebben we ons bezig gehouden met de vraagstukken rondom (i) het effectief in kaart brengen en vindbaar maken van relevante datasets en de bijbehorende data items, (ii) het kunnen vaststellen welke van de data items vanuit elke bron dataset potentieel gecombineerd kunnen worden als basis voor analyseen (iii) op welke wijze deze data efficiënt kunnen worden getransformeerd naar een gestandaardiseerde dataset om daadwerkelijk geïntegreerde analyse mogelijk te maken. Het resultaat is een collectie nieuwe computationele methoden, inclusief bruikbare software, waarmee (semi)automatisch en efficiënt verschillen in data verzameling en beschrijving kunnen worden overbrugd zodat onderzoekers veel sneller dan hiervoor data kunnen vinden, harmoniseren en integreren