7 research outputs found

    Mean-Field Theory of Meta-Learning

    Full text link
    We discuss here the mean-field theory for a cellular automata model of meta-learning. The meta-learning is the process of combining outcomes of individual learning procedures in order to determine the final decision with higher accuracy than any single learning method. Our method is constructed from an ensemble of interacting, learning agents, that acquire and process incoming information using various types, or different versions of machine learning algorithms. The abstract learning space, where all agents are located, is constructed here using a fully connected model that couples all agents with random strength values. The cellular automata network simulates the higher level integration of information acquired from the independent learning trials. The final classification of incoming input data is therefore defined as the stationary state of the meta-learning system using simple majority rule, yet the minority clusters that share opposite classification outcome can be observed in the system. Therefore, the probability of selecting proper class for a given input data, can be estimated even without the prior knowledge of its affiliation. The fuzzy logic can be easily introduced into the system, even if learning agents are build from simple binary classification machine learning algorithms by calculating the percentage of agreeing agents.Comment: 23 page

    Application of Support Vector Machines in Virtual Screening

    Get PDF
    Traditionally drug discovery has been a labor intensive effort, since it is difficult to identify a possible drug candidate from an extremely large small molecule library for any given target. Most of the small molecules fail to show any activity against the target because of electrochemical, structural and other incompatibilities. Virtual screening is an in-silico approach to identify drug candidates which are unlikely to show any activity against a given target, thus reducing an enormous amount of experimentation which is most likely to end up as failures. Important approaches in virtual screening have been through docking studies and using classification techniques. Support vector machines based classifiers, based on the principles of statistical learning theory have found several applications in virtual screening. In this paper, first the theory and main principles of SVM are briefly outlined. Thereafter a few successful applications of SVM in virtual screening have been discussed. It further underlines the pitfalls of the existing approaches and highlights the area which needs further contribution to improve the state of the art for application of SVM in virtual screening

    Applications of Support Vector Machines as a Robust tool in High Throughput Virtual Screening

    Get PDF
    Chemical space is enormously huge but not all of it is pertinent for the drug designing. Virtual screening methods act as knowledge-based filters to discover the coveted novel lead molecules possessing desired pharmacological properties. Support Vector Machines (SVM) is a reliable virtual screening tool for prioritizing molecules with the required biological activity and minimum toxicity. It has to its credit inherent advantages such as support for noisy data mainly coming from varied high-throughput biological assays, high sensitivity, specificity, prediction accuracy and reduction in false positives. SVM-based classification methods can efficiently discriminate inhibitors from non-inhibitors, actives from inactives, toxic from non-toxic and promiscuous from non-promiscuous molecules. As the principles of drug design are also applicable for agrochemicals, SVM methods are being applied for virtual screening for pesticides too. The current review discusses the basic kernels and models used for binary discrimination and also features used for developing SVM-based scoring functions, which will enhance our understanding of molecular interactions. SVM modeling has also been compared by many researchers with other statistical methods such as Artificial Neural Networks, k-nearest neighbour (kNN), decision trees, partial least squares, etc. Such studies have also been discussed in this review. Moreover, a case study involving the use of SVM method for screening molecules for cancer therapy has been carried out and the preliminary results presented here indicate that the SVM is an excellent classifier for screening the molecules

    Virtual screening of potential bioactive substances using the support vector machine approach

    Get PDF
    Die vorliegende Dissertation stellt eine kumulative Arbeit dar, die in insgesamt acht wissenschaftlichen Publikationen (fünf publiziert, zwei eingerichtet und eine in Vorbereitung) dargelegt ist. In diesem Forschungsprojekt wurden Anwendungen von maschinellem Lernen für das virtuelle Screening von Moleküldatenbanken durchgeführt. Das Ziel war primär die Einführung und Überprüfung des Support-Vector-Machine (SVM) Ansatzes für das virtuelle Screening nach potentiellen Wirkstoffkandidaten. In der Einleitung der Arbeit ist die Rolle des virtuellen Screenings im Wirkstoffdesign beschrieben. Methoden des virtuellen Screenings können fast in jedem Bereich der gesamten pharmazeutischen Forschung angewendet werden. Maschinelles Lernen kann einen Einsatz finden von der Auswahl der ersten Moleküle, der Optimierung der Leitstrukturen bis hin zur Vorhersage von ADMET (Absorption, Distribution, Metabolism, Toxicity) Eigenschaften. In Abschnitt 4.2 werden möglichen Verfahren dargestellt, die zur Beschreibung von chemischen Strukturen eingesetzt werden können, um diese Strukturen in ein Format zu bringen (Deskriptoren), das man als Eingabe für maschinelle Lernverfahren wie Neuronale Netze oder SVM nutzen kann. Der Fokus ist dabei auf diejenigen Verfahren gerichtet, die in der vorliegenden Arbeit verwendet wurden. Die meisten Methoden berechnen Deskriptoren, die nur auf der zweidimensionalen (2D) Struktur basieren. Standard-Beispiele hierfür sind physikochemische Eigenschaften, Atom- und Bindungsanzahl etc. (Abschnitt 4.2.1). CATS Deskriptoren, ein topologisches Pharmakophorkonzept, sind ebenfalls 2D-basiert (Abschnitt 4.2.2). Ein anderer Typ von Deskriptoren beschreibt Eigenschaften, die aus einem dreidimensionalen (3D) Molekülmodell abgeleitet werden. Der Erfolg dieser Beschreibung hangt sehr stark davon ab, wie repräsentativ die 3D-Konformation ist, die für die Berechnung des Deskriptors angewendet wurde. Eine weitere Beschreibung, die wir in unserer Arbeit eingesetzt haben, waren Fingerprints. In unserem Fall waren die verwendeten Fingerprints ungeeignet zum Trainieren von Neuronale Netzen, da der Fingerprintvektor zu viele Dimensionen (~ 10 hoch 5) hatte. Im Gegensatz dazu hat das Training von SVM mit Fingerprints funktioniert. SVM hat den Vorteil im Vergleich zu anderen Methoden, dass sie in sehr hochdimensionalen Räumen gut klassifizieren kann. Dieser Zusammenhang zwischen SVM und Fingerprints war eine Neuheit, und wurde von uns erstmalig in die Chemieinformatik eingeführt. In Abschnitt 4.3 fokussiere ich mich auf die SVM-Methode. Für fast alle Klassifikationsaufgaben in dieser Arbeit wurde der SVM-Ansatz verwendet. Ein Schwerpunkt der Dissertation lag auf der SVM-Methode. Wegen Platzbeschränkungen wurde in den beigefügten Veröffentlichungen auf eine detaillierte Beschreibung der SVM verzichtet. Aus diesem Grund wird in Abschnitt 4.3 eine vollständige Einführung in SVM gegeben. Darin enthalten ist eine vollständige Diskussion der SVM Theorie: optimale Hyperfläche, Soft-Margin-Hyperfläche, quadratische Programmierung als Technik, um diese optimale Hyperfläche zu finden. Abschnitt 4.3 enthält auch eine Diskussion von Kernel-Funktionen, welche die genaue Form der optimalen Hyperfläche bestimmen. In Abschnitt 4.4 ist eine Einleitung in verschiede Methoden gegeben, die wir für die Auswahl von Deskriptoren genutzt haben. In diesem Abschnitt wird der Unterschied zwischen einer „Filter“- und der „Wrapper“-basierten Auswahl von Deskriptoren herausgearbeitet. In Veröffentlichung 3 (Abschnitt 7.3) haben wir die Vorteile und Nachteile von Filter- und Wrapper-basierten Methoden im virtuellen Screening vergleichend dargestellt. Abschnitt 7 besteht aus den Publikationen, die unsere Forschungsergebnisse enthalten. Unsere erste Publikation (Veröffentlichung 1) war ein Übersichtsartikel (Abschnitt 7.1). In diesem Artikel haben wir einen Gesamtüberblick der Anwendungen von SVM in der Bio- und Chemieinformatik gegeben. Wir diskutieren Anwendungen von SVM für die Gen-Chip-Analyse, die DNASequenzanalyse und die Vorhersage von Proteinstrukturen und Proteininteraktionen. Wir haben auch Beispiele beschrieben, wo SVM für die Vorhersage der Lokalisation von Proteinen in der Zelle genutzt wurden. Es wird dabei deutlich, dass SVM im Bereich des virtuellen Screenings noch nicht verbreitet war. Um den Einsatz von SVM als Hauptmethode unserer Forschung zu begründen, haben wir in unserer nächsten Publikation (Veröffentlichung 2) (Abschnitt 7.2) einen detaillierten Vergleich zwischen SVM und verschiedenen neuronalen Netzen, die sich als eine Standardmethode im virtuellen Screening etabliert haben, durchgeführt. Verglichen wurde die Trennung von wirstoffartigen und nicht-wirkstoffartigen Molekülen („Druglikeness“-Vorhersage). Die SVM konnte 82% aller Moleküle richtig klassifizieren. Die Klassifizierung war zudem robuster als mit dreilagigen feedforward-ANN bei der Verwendung verschiedener Anzahlen an Hidden-Neuronen. In diesem Projekt haben wir verschiedene Deskriptoren zur Beschreibung der Moleküle berechnet: Ghose-Crippen Fragmentdeskriptoren [86], physikochemische Eigenschaften [9] und topologische Pharmacophore (CATS) [10]. Die Entwicklung von weiteren Verfahren, die auf dem SVM-Konzept aufbauen, haben wir in den Publikationen in den Abschnitten 7.3 und 7.8 beschrieben. Veröffentlichung 3 stellt die Entwicklung einer neuen SVM-basierten Methode zur Auswahl von relevanten Deskriptoren für eine bestimmte Aktivität dar. Eingesetzt wurden die gleichen Deskriptoren wie in dem oben beschriebenen Projekt. Als charakteristische Molekülgruppen haben wir verschiedene Untermengen der COBRA Datenbank ausgewählt: 195 Thrombin Inhibitoren, 226 Kinase Inhibitoren und 227 Faktor Xa Inhibitoren. Es ist uns gelungen, die Anzahl der Deskriptoren von ursprünglich 407 auf ungefähr 50 zu verringern ohne signifikant an Klassifizierungsgenauigkeit zu verlieren. Unsere Methode haben wir mit einer Standardmethode für diese Anwendung verglichen, der Kolmogorov-Smirnov Statistik. Die SVM-basierte Methode erwies sich hierbei in jedem betrachteten Fall als besser als die Vergleichsmethoden hinsichtlich der Vorhersagegenauigkeit bei der gleichen Anzahl an Deskriptoren. Eine ausführliche Beschreibung ist in Abschnitt 4.4 gegeben. Dort sind auch verschiedene „Wrapper“ für die Deskriptoren-Auswahl beschrieben. Veröffentlichung 8 beschreibt die Anwendung von aktivem Lernen mit SVM. Die Idee des aktiven Lernens liegt in der Auswahl von Molekülen für das Lernverfahren aus dem Bereich an der Grenze der verschiedenen zu unterscheidenden Molekülklassen. Auf diese Weise kann die lokale Klassifikation verbessert werden. Die folgenden Gruppen von Moleküle wurden genutzt: ACE (Angiotensin converting enzyme), COX2 (Cyclooxygenase 2), CRF (Corticotropin releasing factor) Antagonisten, DPP (Dipeptidylpeptidase) IV, HIV (Human immunodeficiency virus) protease, Nuclear Receptors, NK (Neurokinin receptors), PPAR (peroxisome proliferator-activated receptor), Thrombin, GPCR und Matrix Metalloproteinasen. Aktives Lernen konnte die Leistungsfähigkeit des virtuellen Screenings verbessern, wie sich in dieser retrospektiven Studie zeigte. Es bleibt abzuwarten, ob sich das Verfahren durchsetzen wird, denn trotzt des Gewinns an Vorhersagegenauigkeit ist es aufgrund des mehrfachen SVMTrainings aufwändig. Die Publikationen aus den Abschnitten 7.5, 7.6 und 7.7 (Veröffentlichungen 5-7) zeigen praktische Anwendungen unserer SVM-Methoden im Wirkstoffdesign in Kombination mit anderen Verfahren, wie der Ähnlichkeitssuche und neuronalen Netzen zur Eigenschaftsvorhersage. In zwei Fällen haben wir mit dem Verfahren neuartige Liganden für COX-2 (cyclooxygenase 2) und dopamine D3/D2 Rezeptoren gefunden. Wir konnten somit klar zeigen, dass SVM-Methoden für das virtuelle Screening von Substanzdatensammlungen sinnvoll eingesetzt werden können. Es wurde im Rahmen der Arbeit auch ein schnelles Verfahren zur Erzeugung großer kombinatorischer Molekülbibliotheken entwickelt, welches auf der SMILES Notation aufbaut. Im frühen Stadium des Wirstoffdesigns ist es wichtig, eine möglichst „diverse“ Gruppe von Molekülen zu testen. Es gibt verschiedene etablierte Methoden, die eine solche Untermenge auswählen können. Wir haben eine neue Methode entwickelt, die genauer als die bekannte MaxMin-Methode sein sollte. Als erster Schritt wurde die „Probability Density Estimation“ (PDE) für die verfügbaren Moleküle berechnet. [78] Dafür haben wir jedes Molekül mit Deskriptoren beschrieben und die PDE im N-dimensionalen Deskriptorraum berechnet. Die Moleküle wurde mit dem Metropolis Algorithmus ausgewählt. [87] Die Idee liegt darin, wenige Moleküle aus den Bereichen mit hoher Dichte auszuwählen und mehr Moleküle aus den Bereichen mit niedriger Dichte. Die erhaltenen Ergebnisse wiesen jedoch auf zwei Nachteile hin. Erstens wurden Moleküle mit unrealistischen Deskriptorwerten ausgewählt und zweitens war unser Algorithmus zu langsam. Dieser Aspekt der Arbeit wurde daher nicht weiter verfolgt. In Veröffentlichung 6 (Abschnitt 7.6) haben wir in Zusammenarbeit mit der Molecular-Modeling Gruppe von Aventis-Pharma Deutschland (Frankfurt) einen SVM-basierten ADME Filter zur Früherkennung von CYP 2C9 Liganden entwickelt. Dieser nichtlineare SVM-Filter erreichte eine signifikant höhere Vorhersagegenauigkeit (q2 = 0.48) als ein auf den gleichen Daten entwickelten PLS-Modell (q2 = 0.34). Es wurden hierbei Dreipunkt-Pharmakophordeskriptoren eingesetzt, die auf einem dreidimensionalen Molekülmodell aufbauen. Eines der wichtigen Probleme im computerbasierten Wirkstoffdesign ist die Auswahl einer geeigneten Konformation für ein Molekül. Wir haben versucht, SVM auf dieses Problem anzuwenden. Der Trainingdatensatz wurde dazu mit jeweils mehreren Konformationen pro Molekül angereichert und ein SVM Modell gerechnet. Es wurden anschließend die Konformationen mit den am schlechtesten vorhergesagten IC50 Wert aussortiert. Die verbliebenen gemäß dem SVM-Modell bevorzugten Konformationen waren jedoch unrealistisch. Dieses Ergebnis zeigt Grenzen des SVM-Ansatzes auf. Wir glauben jedoch, dass weitere Forschung auf diesem Gebiet zu besseren Ergebnissen führen kann

    The impact of protein flexibility on the identification of novel antagonists for the GlycineB binding site of the NMDA receptor

    Get PDF
    Die Identifizierung neuartiger Verbindungsklassen für ein pharmakologisches Zielsystem ist eine fordernde Aufgabe für die frühe präklinische Forschung, insbesondere wenn bereits vorherige umfangreiche Studien durchgeführt und viele Leitstrukturserien gefunden wurden. In dieser Arbeit konnte gezeigt werden, dass Scaffold Hopping durch Methoden des Virtual Screenings auch für Systeme möglich ist, für die bereits eine Vielzahl von Referenzsubstanzen beschrieben ist und somit wenig freier chemischer Raum für Innovation zur Verfügung steht. Als Beispielsystem wurde die GlycinB-Bindungsstelle der NR1-Untereinheit des NMDA-Rezeptors betrachtet. Verschiedene zwei- und dreidimensionale Techniken des Virtual Screenings wurden einer umfangreichen retrospektiven Validierung unterworfen. Zur Durchführung der prospektiven Virtual-Screening-Studie wurde eine automatisierte in silico Plattform entwickelt, die 8,9 Millionen käufliche Substanzen aus 46 Substanzkatalogen von 33 verschiedenen Anbietern sammelte, um etwa 5 Millionen unterschiedliche Moleküle in zweidimensionaler Darstellung aufzuarbeiten. Diese Menge an Substanzen stellt den größten Teil der zurzeit kommerziell verfügbaren chemischen Verbindungen, also den „verfügbaren chemischen Raum“ dar. Anhand der retrospektiv validierten Virtual Screening Techniken konnten in einer prospektiven Suche 21 GlycinB-Antagonisten mit neuartigen, d.h. für GlycinB noch unbeschriebenen Scaffolds gefunden werden. Ausgehend von drei dieser Virtual Screening Hits wurden 53 weitere Verbindungen mit insgesamt fünf unterschiedlichen neuartigen Scaffolds und einem gemeinsamen Azo-Motiv identifiziert. Die Struktur-Wirkungsbeziehungen dieser fünf chemischen Serien wurden charakterisiert. Das Ergebnis dieser Arbeit zeigt eindeutig, dass es lohnend ist, alle vorhandenen Methoden auszuschöpfen, da sich die validierten Methoden komplementär zueinander verhielten und kein Virtual Screening Hit von mehr als einer Technik gefunden wurde. Die Flexibilität von Proteinen als Antwort auf die Bindung unterschiedlicher Liganden stellt ein bislang ungelöstes chemieinformatisches Problem dar, welches auch grundlegende pharmakologische Bedeutung hat. So verursachen z.B. bei NMDA/GlycinB agonistische Liganden eine Konformationsänderung des Rezeptors. Diese ruft dann eine direkte funktionale Antwort in Form der Öffnung des Ionenkanals hervor. Auch der Bindungsmodus der Antagonisten von GlycinB ist trotz Vorhandenseins von zwei Kristallstrukturen und mehreren Hundert zum Teil hochaffiner Referenzstrukturen zum großen Teil ungeklärt. Im zweiten Teil dieser Arbeit wurde ein auf Moleküldynamiksimulationen basierendes Verfahren entwickelt, welches flexible Aminosäurereste im Rezeptor und damit induzierbare Bewegungen des Proteinrückgrates bestimmt. Die so identifizierten Reste wurden dann in einem erweiterten Verfahren des Induced-Fit-Dockings als explizit flexibel betrachtet. Hierdurch war die Berechnung verschiedener Bindungsmodi von Antagonisten möglich, die aufgrund ihrer Form und Größe nicht in die verfügbaren Kristallstrukturen von GlycinB passten. Diese benötigten somit einen Induced-Fit-Effekt des Rezeptors, um eine Bindung einzugehen. Für die im ersten Teil dieser Arbeit identifizierten Azo-Liganden wurde auf Basis dieser Methode ein gemeinsamer Bindungsmodus vorgeschlagen. Ebenso konnte anhand der Methodik eine Aussage über die funktionale Auswirkung der Proteinflexibilität beim Übergang vom antagonistischen zum agonistischen Rezeptorzustand von GlycinB getroffen werden. Ein großes Problem aktueller Dockingverfahren ist die mangelnde Verfügbarkeit von Scoringfunktionen, welche die tatsächliche biologische Bindungsaffinität eines Liganden berechnen. Hier wurde ein Verfahren für das Zielsystem GlycinB gezeigt, welches aufgrund der Berechnung des thermodynamischen Entropie- und Enthalpiegewinns durch Verdrängung von hydrophob eingeschlossenen Wasser aus der Bindungsstelle durch den Liganden eine Aussage über dessen zu erwartende Bindungsaffinität trifft. Dieses neuartige Scoringsystem wurde auf die im Virtual Screening identifizierten Serie von Azo-Liganden angewandt und verfügte über eine im Vergleich zu klassischen Scoringfunktionen des Molecular Dockings verbesserte Vorhersagekraft der biologischen Bindungsaffinität.The identification of novel compound classes for a biological target system ("scaffold hopping") is a challenging task for early drug discovery, even more when comprehensive studies have been undertaken and many potent lead series have been identified. In this study, it was demonstrated that scaffold hopping applying methods of Virtual Screening is possible also for biological systems for which many reference ligands have been described, leaving little space left for chemical innovation. The GlycineB binding site of the NMDA receptor acted as reference system. An automated in silico platform was developed to compile 8.9 million commercially available chemical compounds out of 46 compound libraries from 33 different suppliers to perform prospective Virtual Screening studies, resulting in approx. 5 million unique structures. This amount of compounds constitutes most of chemicals currently available commercially, e.g. the "accessible chemical space". Using different retrospectively validated methods of Virtual Screening, 21 GlycineB antagonists could be identified, containing different scaffolds previously undescribed for GlycineB. Based on three the of these initial screening hits, additional 53 compounds with five unique scaffolds could be retrieved and characterised concerning their structure-activity-relationships. The results of this study show it is most worthwhile to apply a portfolio of methods since all methods acted complementary: no screening hit was identified by more than one method. Protein flexibility as an answer to the binding of different ligands constitutes a majorly unresolved problem for cheminformatics. In NMDA/GlycineB, agonists induce a change in receptor conformation, resulting in the opening of the ion channel as a functional answer. The binding mode of nearly all antagonists is unclear for the most part even though two x-ray crystal structures and hundreds of higly affine ligands are published. In the second part of this study, a method based on molecular dynamics simulation was established to identify potential flexible amino acid residues in the receptor and thus inducable motions of the protein backbone. These amino acids were then regarded to be explicitly flexible during an enhanced induced fit docking protocol. Hereby, the computational binding of antagonists previously unable to fit within the available receptor x-ray crystal structures was facilitated. These ligands require an induced fit of the receptor to bind. A binding mode was proposed for the novel antagonists identified in the first part of this study. Also, a hypothesis was proposed for the functionality of protein flexibility for the transition state between antagonistic and agonistic receptor conformation of NMDA/GlycineB. Scoring functions which calculate the actual biological binding affinity of a ligand to a receptor are subject of many current scientific studies. A method was demonstrated for GlycineB which predicts the expected binding affinity based on entropic and enthalpic energy resulting from displacement of hydrophobically enclosed waters. This scoring function was applied to the series of ligands identified from Virtual Screening, resulting in an improved prediction of binding affinity compared to currently available scoring functions
    corecore