Preface
Abstract i
Acknowledgement ii
Contents iii
List of Figures v
List of Tables vi
Abbreviations vii
1 Introduction 1
1.1 Knowledge Discovery in Databases 1
1.2 Biological Background 4
1.2.1 Central Dogma of Molecular Biology 4
1.2.2 Gene Expression 7
1.3 Biological Challenge 7
1.3.1 Common Denominator Concept 8
1.3.2 Phenotype Angiogenesis 9
1.4 Outline 10
2 System and Methods 12
2.1 Infrastructure 12
2.2 Data Sources 13
2.2.1 Adaptation to CGAP Expression Data 13
2.2.2 Definition of the IndicatorGeneSet 14
2.2.3 Definition of the AngioTestGroup 14
2.3 Common Denominator Procedure (CDP) 15
2.3.1 Generation of the LibraryProfile 17
2.3.2 Calculation of the GeneScore 20
2.3.3 Control Profiles 22
2.3.4 Definition of AngioProfiles 23
2.3.5 Selection of Candidate Genes 23
2.4 XantoScreen 25
2.4.1 HUVEC Proliferation High Throughput Screening Assay 27
3 Results 29
3.1 Basic CDP 30
3.1.1 Definition of Input Data 30
3.1.2 Determination of the LibraryProfile 32
3.1.3 Determination of the GeneScore 32
3.1.4 Selection of Candidate Genes 33
3.1.5 Procedure Control and Validation 33
3.2 Genetic Algorithm Based CDP 37
3.2.1 Definition of Input Data 37
3.2.2 Determination of the LibraryProfile 39
3.2.3 Determination of the GeneScore 39
3.2.4 Selection of Candidate Genes 39
3.2.5 Procedure Control and Validation 40
3.3 Indicator Genes Based CDP 43
3.3.1 Definition of Input Data 43
3.3.2 Determination of the LibraryProfile 45
3.3.3 Determination of the GeneScore 45
3.3.4 Selection of AngioProfiles 46
3.3.5 Selection of Candidate Genes 46
3.3.6 Procedure Control and Validation 48
3.4 Summary 53
3.4.1 Internal Procedure Control 54
3.4.2 Procedure Validation - Experimental 55
3.4.3 Procedure Validation - Literature 56
4 Discussion 57
4.1 Comparison of the Procedures 58
4.2 Comparison to Established Procedures 60
4.3 Extensibility 61
4.4 Future Perspective 63
Appendix 66
References 66
A Data Sources 75
B Implementation 78
C Anhang gemäß Promotionsordnung 80
C.1 Erklärung 80
C.2 Lebenslauf 81
C.3 Zusammenfassung 82This thesis addresses the gap between the amount of on-hand expression data
and the availability of information related to the function of those genes. To
this end, a data mining procedure for the identification of genes that are
associated with pre-defined phenotypes and/or molecular pathways was
established. Based on the observation that pathway/phenotype associated genes
are frequently expressed in same or nearby places and at identical or similar
time points, an approach termed Common Denominator Procedure (CDP) was
devised. One unique feature of this novel approach is that the specificity and
probability to identify desired phenotype/pathway-associated factors increases
the more diverse the input data are. Three different approaches are discussed
and compared: (i) a basic CDP, (ii) a genetic algorithm based CDP and (iii) an
indicator genes based CDP. To show the feasibility of these approaches, the
CGAP Expression Data combined with a defined set of angiogenic factors was
used to identify additional and novel angiogenesis-associated genes. A
multitude of these additional genes were known to be associated with
angiogenesis according to published data, verifying the approach. Application
of a high throughput functional genomics platform (XantoScreen(tm)) provided
further experimental evidence for association of candidate genes with
angiogenesis.Die vorliegende Arbeit handelt von einem Data Mining Verfahren zur
Identifizierung von Genen eines bestimmten Regelkreises bzw. Phänotyps. Das
Common Denominator Procedure (CDP) genannte Verfahren basiert auf der
Beobachtung, dass Gene, die mit einem bestimmten Pathway/Phänotyp assoziiert
sind, häufig zum selben Zeitpunkt am selben Ort exprimiert sind. Eine
außergewöhnliche Eigenschaft dieses neuen Verfahrens, im Gegensatz zu bereits
bekannten, ist, dass die Spezifität und Wahrscheinlichkeit die gesuchten
Pathway/Phänotyp assoziierten Faktoren zu identifizieren mit der Diversität
der Eingangsdaten wächst. Es werden drei unterschiedliche Vorgehensweisen
diskutiert und miteinander verglichen: (i) elementares CDP, (ii) genetischer
Algorithmus basiertes CDP und (iii) Indikatorgen basiertes CDP. CGAP
Expressionsdaten wurden zusammen mit einer definierten Testgruppe
angiogenetischer Faktoren benutzt, zur Identifizierung neuer mit Angiogenese-
assoziierter Gene. Die Anreicherung von Angiogenese-spezifischen Genen in den
resultierenden Kandidatenlisten wurden mit Hilfe (a) der Anreicherung von
Genen aus der Testgruppe, (b) der Präsenz von zusätzlichen Genen, deren
Angiogenesemodulation bereits beschreiben wurde, und (c) der Präsenz von
experimentell validierten Genen, deren Assoziation mit Angiogenese bisher
unbekannt war, bewertet. Für alle genannten CDPs konnte eine relevante
Anreicherung von Angiogenese assoziierten Genen gezeigt werden. Das
beschriebene Verfahren kann leicht auf andere Pathways/Phänotypen angewandt
werden, indem entsprechende TestGruppen, bzw. Indikatorgene definiert werden.
Darüber hinaus ist das Verfahren nicht auf CGAP Expressionsdaten beschränkt.
Information über die Präsenz von Genen in bestimmten Gewebeproben, wie sie
neben EST und SAGE Daten auch RT-PCR, QPCR, Northern Blot und Mikroarray
Analysen liefern, ist ausreichend für das CDP. Auf Grund der hohen Spezifität
ist das CDP als primärer Screen zur Identifizierung von Targets geeignet.
Außerdem kann es mit genomweiten funktionellen Analysetechniken kombiniert
werden, um Targets für die Diagnose und Therapie humaner Krankheiten zu
finden