thesis

Ermittlung von Zusammenhängen zwischen enzymatischer Aktivität und Krankheiten durch die automatische Analyse wissenschaftlicher Publikationen

Abstract

Aufgrund des schnellen Wachstums biomedizinischer Daten sowie der assoziierten Literatur wird es auch für Experten zunehmend schwierig, den Überblick über den aktuellen Wissensstand zu behalten. Der Aufbau und die manuelle Erweiterung von Datenbanken ist teuer und zeitaufwändig, kann jedoch durch linguistische Methoden unterstützt werden, welche Erkenntnisse automatisch aus der wissenschaftlichen Literatur extrahieren. Die vorliegende Dissertation stellt eine solche Methode zur Annotation von Enzymklassen mit krankheitsrelevanten Informationen vor. Die Enzymnamen von 3901 Enzymklassen der BRENDA, einer Sammlung von qualitativen und quantitativen Enzymdaten, wurden in einem Textkorpus aus über 100000 Kurzzusammenfassungen der PubMed-Datenbank identifiziert. Phrasen der Kurzzusammenfassungen konnten durch das MetaMap-Programm den Konzepten des UMLS (Unified Medical Language Systems) zugewiesen werden, was eine Identifikation der krankheitsrelevanten Begriffe mittels ihrer semantischen Felder in der UMLS-Ontologie erlaubte. Eine Zuordnung von Enzymklassen zu Krankheitskonzepten erfolgte aufgrund der gemeinsamen Nennung innerhalb eines Satzes. Die Zahl falscher Zuordnung konnte durch den Einsatz verschiedener Filter verringert werden. Verwendet wurden unter anderem die Mindestzahl gemeinsamer Nennungen, die Entfernung von Sätzen mit einer Negation sowie die Klassifikation unbekannter Sätze durch eine Support Vector Machine. Eine Überprüfung der Zuordnungen anhand 1500 manuell annotierter Sätze ergab eine Präzision von 95%, was eine direkte Erweiterung der BRENDA-Datenbank mit den gefundenen Zuordnungen erlaubte

    Similar works