PAC-Learning for insolvency-prediction and hotspot-identification

Abstract

Die Methoden des maschinellen Lernens erweisen sich nicht nur in der Bioinformatik als sehr effektiv, sondern auch in anderen Bereichen, vor allem wegen ihrer Universalität. Im Falle des überwachten Lernens haben alle Ansätze eines gemeinsam: Es wird versucht, anhand von Daten bestimmte, generalisierbare Verteilungseigenschaften zu lernen (Training), um somit auch auf ungesehenen Daten zuverlässige Vorhersagen treffen zu können. Ein weiteres Modell im Bereich des maschinellen Lernens ist das Konzept-Lernen (hier PAC-Lernen).In dieser Dissertation wird im Rahmen des PAC-Lernens eine für die Praxis relevante Konzeptklasse und die dafür notwendigen Lernalgorithmen entwickelt und analysiert. Das PAC-Lernen wird in zwei verschiedenen Anwendungsbereichen durch einen Vergleich gegenüber bewährten Verfahren validiert, zum einen in der Betriebswirtschaft, zur Insolvenzvorhersage und zum anderen in der Bioinformatik, zur Erkennung von Hotspots in Protein-Protein-Wechselwirkungen.Bei der Insolvenzvorhersage wird versucht, eine Aussage über eine bevorstehende Insolvenz eines deutschen Unternehmens zu treffen. Es existieren bereits zahlreiche Ansätze zu diesem Thema, jedoch sind die Vorhersagen noch nicht zuverlässig genug. Die Grundlage für die Insolvenzvorhersage bilden in dieser Arbeit Jahresabschlüsse des Verbandes der Vereine Creditreform. Die Ergebnisse des PAC-Lernens werden anschließend mit bewährten Verfahren zur Insolvenzvorhersage (z.B. neuronale Netze, multivariate Diskriminanzanalyse, Kendall-Verfahren) verglichen.Bei der Hotspot-Identifikation in Protein-Protein-Wechselwirkungen wird versucht, Aminosäuren, die in Interfaces (Bindestellen) lokalisiert sind, zu charakterisieren. Es wird davon ausgegangen, dass Hotpots die Bindung zwischen zwei Proteinen, die zu einem größeren Komplex aggregieren, maßgeblich stabilisieren. Als Datenbasis dient eine Auswahl von Homo- und Heterodimeren aus der PDB-Datenbank.Die entwickelten Methoden werden schließlich in das Tool InSolve (http://www.tcs.informatik.uni-goettingen.de/insolve) mit grafischer Oberfläche zur einfachen Anwendung integriert.Durch dieses Vorgehen werden zwei unterschiedliche Anwendungsbereiche (Bioinformatik und Betriebswirtschaft) über dieselbe Methode (PAC-Lernen) miteinander verknüpft

    Similar works

    Full text

    thumbnail-image