Verfahren zur Identifizierung von Genen eines bestimmten Phänotyps

Abstract

Preface Abstract i Acknowledgement ii Contents iii List of Figures v List of Tables vi Abbreviations vii 1 Introduction 1 1.1 Knowledge Discovery in Databases 1 1.2 Biological Background 4 1.2.1 Central Dogma of Molecular Biology 4 1.2.2 Gene Expression 7 1.3 Biological Challenge 7 1.3.1 Common Denominator Concept 8 1.3.2 Phenotype Angiogenesis 9 1.4 Outline 10 2 System and Methods 12 2.1 Infrastructure 12 2.2 Data Sources 13 2.2.1 Adaptation to CGAP Expression Data 13 2.2.2 Definition of the IndicatorGeneSet 14 2.2.3 Definition of the AngioTestGroup 14 2.3 Common Denominator Procedure (CDP) 15 2.3.1 Generation of the LibraryProfile 17 2.3.2 Calculation of the GeneScore 20 2.3.3 Control Profiles 22 2.3.4 Definition of AngioProfiles 23 2.3.5 Selection of Candidate Genes 23 2.4 XantoScreen 25 2.4.1 HUVEC Proliferation High Throughput Screening Assay 27 3 Results 29 3.1 Basic CDP 30 3.1.1 Definition of Input Data 30 3.1.2 Determination of the LibraryProfile 32 3.1.3 Determination of the GeneScore 32 3.1.4 Selection of Candidate Genes 33 3.1.5 Procedure Control and Validation 33 3.2 Genetic Algorithm Based CDP 37 3.2.1 Definition of Input Data 37 3.2.2 Determination of the LibraryProfile 39 3.2.3 Determination of the GeneScore 39 3.2.4 Selection of Candidate Genes 39 3.2.5 Procedure Control and Validation 40 3.3 Indicator Genes Based CDP 43 3.3.1 Definition of Input Data 43 3.3.2 Determination of the LibraryProfile 45 3.3.3 Determination of the GeneScore 45 3.3.4 Selection of AngioProfiles 46 3.3.5 Selection of Candidate Genes 46 3.3.6 Procedure Control and Validation 48 3.4 Summary 53 3.4.1 Internal Procedure Control 54 3.4.2 Procedure Validation - Experimental 55 3.4.3 Procedure Validation - Literature 56 4 Discussion 57 4.1 Comparison of the Procedures 58 4.2 Comparison to Established Procedures 60 4.3 Extensibility 61 4.4 Future Perspective 63 Appendix 66 References 66 A Data Sources 75 B Implementation 78 C Anhang gemäß Promotionsordnung 80 C.1 Erklärung 80 C.2 Lebenslauf 81 C.3 Zusammenfassung 82This thesis addresses the gap between the amount of on-hand expression data and the availability of information related to the function of those genes. To this end, a data mining procedure for the identification of genes that are associated with pre-defined phenotypes and/or molecular pathways was established. Based on the observation that pathway/phenotype associated genes are frequently expressed in same or nearby places and at identical or similar time points, an approach termed Common Denominator Procedure (CDP) was devised. One unique feature of this novel approach is that the specificity and probability to identify desired phenotype/pathway-associated factors increases the more diverse the input data are. Three different approaches are discussed and compared: (i) a basic CDP, (ii) a genetic algorithm based CDP and (iii) an indicator genes based CDP. To show the feasibility of these approaches, the CGAP Expression Data combined with a defined set of angiogenic factors was used to identify additional and novel angiogenesis-associated genes. A multitude of these additional genes were known to be associated with angiogenesis according to published data, verifying the approach. Application of a high throughput functional genomics platform (XantoScreen(tm)) provided further experimental evidence for association of candidate genes with angiogenesis.Die vorliegende Arbeit handelt von einem Data Mining Verfahren zur Identifizierung von Genen eines bestimmten Regelkreises bzw. Phänotyps. Das Common Denominator Procedure (CDP) genannte Verfahren basiert auf der Beobachtung, dass Gene, die mit einem bestimmten Pathway/Phänotyp assoziiert sind, häufig zum selben Zeitpunkt am selben Ort exprimiert sind. Eine außergewöhnliche Eigenschaft dieses neuen Verfahrens, im Gegensatz zu bereits bekannten, ist, dass die Spezifität und Wahrscheinlichkeit die gesuchten Pathway/Phänotyp assoziierten Faktoren zu identifizieren mit der Diversität der Eingangsdaten wächst. Es werden drei unterschiedliche Vorgehensweisen diskutiert und miteinander verglichen: (i) elementares CDP, (ii) genetischer Algorithmus basiertes CDP und (iii) Indikatorgen basiertes CDP. CGAP Expressionsdaten wurden zusammen mit einer definierten Testgruppe angiogenetischer Faktoren benutzt, zur Identifizierung neuer mit Angiogenese- assoziierter Gene. Die Anreicherung von Angiogenese-spezifischen Genen in den resultierenden Kandidatenlisten wurden mit Hilfe (a) der Anreicherung von Genen aus der Testgruppe, (b) der Präsenz von zusätzlichen Genen, deren Angiogenesemodulation bereits beschreiben wurde, und (c) der Präsenz von experimentell validierten Genen, deren Assoziation mit Angiogenese bisher unbekannt war, bewertet. Für alle genannten CDPs konnte eine relevante Anreicherung von Angiogenese assoziierten Genen gezeigt werden. Das beschriebene Verfahren kann leicht auf andere Pathways/Phänotypen angewandt werden, indem entsprechende TestGruppen, bzw. Indikatorgene definiert werden. Darüber hinaus ist das Verfahren nicht auf CGAP Expressionsdaten beschränkt. Information über die Präsenz von Genen in bestimmten Gewebeproben, wie sie neben EST und SAGE Daten auch RT-PCR, QPCR, Northern Blot und Mikroarray Analysen liefern, ist ausreichend für das CDP. Auf Grund der hohen Spezifität ist das CDP als primärer Screen zur Identifizierung von Targets geeignet. Außerdem kann es mit genomweiten funktionellen Analysetechniken kombiniert werden, um Targets für die Diagnose und Therapie humaner Krankheiten zu finden

    Similar works