How to Integrate and Share Distributed Biobank Data by Using an IT-Based Semantic Approach
- Publication date
- Publisher
Abstract
Semantische Methoden zur Vereinfachung von Datenintegration und Datenaustausch in der Biomedizin wurden in zahlreichen Studien behandelt und vorgestellt. Solche Methoden wurden bis jetzt allerdings nur begrenzt im Bereich der Biobanken angewandt. Durch die steigende Menge an Daten und wissenschaftlichen Kooperationen in diesem Bereich gewann die Integration und Harmonisierung von Forschungsdaten aus Biobanken auf semantischer sowie auf technischer Ebene zunehmend an Bedeutung, was sich in jüngsten Forschungsaktivitäten wiederspiegelt. Verschiedene Ontologien und Repräsentationsstandards wurden mit dem Ziel entwickelt, Biobankinhalte über gemeinsamn IT-Plattformen in harmonisierter Form zu teilen. Der Austausch und die Harmonisierung von Biobankinhalten in gemeinsamen IT-Plattformen verbessern die Auffindbarkeit wichtiger, forschungsrelevanter Proben und ermöglichen Betreibern einer Biobank oftmals die Teilnahme an transnationalen Forschungsprojekten. Diese Arbeit beschäftigt sich mit computergestützten, semantischen Methoden für den Vergleich, die Integration und den Austausch von Biobankdaten, welche in heterogenen Informationssystemen und Datenbanken gespeichert sind. Die erste Forschungsfrage befasst sich mit der Problematik, wie Probensammlungen und dazugehörige Datenquellen einer verteilten, krankenhausweiten Biobank in einer gemeinsamen Forschungsinfrastruktur identifiziert, vereinheitlicht und geteilt werden können. In diesem Kontext wurde die Anwendbarkeit eines internationalen Standardmodell sowie eines IT-gestützten Verfahrens zur Analyse von Krankenhausinfrastrukturen untersucht. Basierend auf den Ergebnissen dieser Untersuchung wurde ein erweitertes Datenmodell sowie ein krankenhausweiter elektronischer Katalog zur vereinheitlichten Abbildung und technischen Integration von Probensammlungen und Daten einer verteilten Biobankinfrastruktur konzeptioniert und in einer Studie vorgestellt. Die zweite Forschungsfrage befasst sich mit der Anwendbarkeit IT-gestützter, textbasierter Analyse- und Suchverfahren zur Identifikation und Evaluierung geeigneter (bio-) medizinischer Ontologien im Bereich von Biobanken. Diese wurde anhand eines ersten IT-gestützten Prototyps zur Evaluierung (bio-)medizinischer Ontologien basierend auf Kompetenzfragen gezeigt und in einer weiteren Publikation vorgestellt. Im Rahmen einer dritten Studie wurde die Möglichkeit einer IT-gestützten Annotation von Freitextdaten in Biobankplattformen zur verbesserten Auffindbarkeit und Vergleichbarkeit von Freitextinhalten in Biobanksystemen untersucht. Die technische Umsetzbarkeit wurde anhand eines semi-automatisierten Empfehlungssystems gezeigt, welches auf Basis textbasierter Suchalgorithmen Freitextdiagnosen mit semantischen Informationen aus (bio-) medizinischen Ontologien in einer graph-basierten Datenbankstruktur verknüpft und dem Benutzer vorschlägt. Die vierte Studie befasst sich mit semantischen und technischen Herausforderungen und IT-gestützten Möglichkeiten für die Harmonisierung und die technische Integration von Daten aus regionalen Biobanken in gemeinsamen nationalen und europäischen Forschungsinfrastrukturen. In dieser Arbeit wurden bekannte Ansätze zur Datenharmonisierung angewandt sowie Grundsätze für den elektronischen Austausch von Biobankdaten aus verschiedenen Katalogen erarbeitet.Various studies on using semantic techniques have been conducted to facilitate data integration and electronic data interchange in biomedicine. However, there have been limited applications to biobanks so far. Due to the growing amount of data and research collaboration in this area, there is an increasing demand for data integration and harmonization, both on semantic and technical level, which is reflected by ongoing research activities. Ontologies and standards were implemented for the purpose of sharing and harmonizing biobank data in common IT-platforms enabling biobank administrators to make their biobank available to the public, thereby improving the availability of relevant samples and transnational collaboration in research.
This thesis investigates computer-assisted, semantic approaches for comparing, integrating and sharing biobank data across heterogeneous IT-systems and databases and provides different IT-based solutions which are described in the studies presented below in this thesis. The first research question was on how to identify, standardize and share biobank data resources from a distributed, hospital-wide biobank in a common research infrastructure. For this, an existing international standard data model and IT-healthcare analysis method was applied to this context. Based on these methods, we implemented an extended standard data model which was used in a common hospital-wide biobank registry for sharing sample collections stored in different databases and information systems. Secondly, we explored the applicability of natural language processing and query expansion techniques for the evaluation of (bio-) medical ontologies for the biobanking domain. This resulted in a semi-automated evaluation approach for the evaluation of (bio-) medical ontologies based on competency questions. A third study explores the applicability of standard medical terminology concepts to annotate free-text data within biobank platforms. We implemented a prototype of a graph-based, semi-automated concept recommendation. The fourth study tackles the challenges of the harmonization and electronic data interchange of data from regional biobanks in common national and European research infrastructures.
In this thesis, we demonstrate the transferability of semantic data harmonization approaches in the field of bioinformatics to the biobanking domain. Furthermore, we are confident that the approaches demonstrated in this thesis can be reused in biobanking and other medical research fields.Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüftAbweichender Titel laut Übersetzung der Verfasserin/des VerfassersInnsbruck, Univ., Diss., 2017(VLID)220897