Analysis of gene expression time-course data using cluster techniques

Abstract

Zsfassung in dt. SpracheDiese Dissertation beschäftigt sich mit verschiedenen Aspekten der Cluster Analyse zur Auswertung von Zeitreihen Microarray Daten. Seit einigen Jahren ist die Interpretation von riesigen Datenmengen aus Microarray Experimenten eine große Herausforderung für die Statistik und Bioinformatik. Zeitreihen Microarray Experimente machen es möglich, die Genexpression von tausenden von Genen simultan zu studieren. Da Gene mit ähnlichem Expressionsmuster häufig auch koreguliert sind, kann das Clustern von Genexpressionsverläufen dabei helfen, koregulierte Gene zu finden. Letztendlich kann die Cluster Analyse dabei unterstützen, funktionale Stoffwechselwege und Interaktionen zwischen Genen zu finden.In dieser Dissertation werden sowohl partitionierende Cluster Methoden wie K-Means und der qualitätsbasierte Cluster Algorithmus QT-Clust als auch modellbasiertes Clustern untersucht. Es werden entweder die Originaldaten geclustert oder die funktionalen Daten. In der funktionalen Datenanalyse wird eine Kurve an jede Beobachtung angepasst, um die Zeitabhängigkeit zu berücksichtigen. In Simulationsstudien auf künstlichen Datensätzen werden die Eigenschaften unterschiedlicher Clustermethoden untersucht und auf ihre Nützlichkeit für Echtdaten getestet. Neue Clustermethoden für diese Art von Daten werden vorgestellt sowie einige Methoden zur Evaluierung von Clusterlösungen.Alle Cluster Algorithmen and Evaluierungsmethoden wurden in R implementiert, und alle Simulationen wurden in R durchführt.Ein wesentlicher Teil der Arbeit konzentriert sich auf die explorative Analyse von Clusterlösungen. Da genetische Interaktionen sehr komplex sind, ist die Definition von Genclustern schwierig. Beziehungen zwischen Clustern sind von großer Bedeutung, da koexprimierte Gene sehr leicht in unterschiedliche Cluster gruppiert werden können. Die Visualisierung von Clusterlösungen hilft dabei, ein besseres Verständnis für die Clusterstruktur der Daten zu bekommen und erleichtert die Interpretation der Clusterlösungen. Nachbarschaftsgraphen ermöglichen eine graphische Darstellung der Beziehungen zwischen angrenzenden Clustern.Unterschiedliche Visualisierungsmethoden zur interaktiven Untersuchung von Clusterlösungen wurden entwickelt und im R Paket gcExplorer implementiert. Die Funktionalität des Pakets beinhaltet die Visualisierung der Clusterstruktur, die Darstellung einzelner Cluster in Form von Graphiken oder HTML Tabellen, das Hervorheben bestimmter Eigenschaften von Clustern sowie einige Testprozeduren zur Beurteilung der Qualität von Clusterlösungen. Schließlich wird die Anwendung der verschiedenen Clustermethoden und die Verwendung des Pakets an mehreren Beispielen mit E. coli Daten vom Department für Biotechnologie an der Universität für Bodenkultur in Wien veranschaulicht.This thesis is concerned with different aspects of the analysis of gene expression time-course data using cluster techniques. The interpretation of enormous amounts of data from microarrays has been a challenging task in statistics and bioinformatics for the past few years. Time-course microarray experiments make it possible to look at the gene expression of thousands of genes at several time points simultaneously. Genes with similar expression pattern are likely to be co--regulated. Hence clustering gene expression patterns may help to find groups of co-regulated genes or to identify common temporal or spatial expression patterns. Finally cluster results can suggest functional pathways and interaction between genes.The cluster methods investigated in this thesis include partitioning cluster methods like the well-known K-Means or the quality-based cluster algorithm Stochastic QT-Clust as well as model-based clustering.Clustering is either carried out on the raw data or on functional data.In functional data analysis a curve is fit to each observation in order to account for time dependency. In simulation studies on artificial and real data sets from publicly available databases the properties of different cluster methods are compared and evaluated using the adjusted Rand index, the sum of within cluster distances as well as the likelihood criterion. Additionally, test procedures are developed allowing to judge the biological relevance of cluster solutions. All cluster algorithms and evaluation procedures are implemented in the statistical computing environment R and all simulations are performed in R.An essential part of this thesis deals with the visualization of cluster solutions. The definition of gene clusters is not very clear as genetic interactions are extremely complex. For this reason the relationships between clusters are very important as co-expressed genes can end up in different clusters. The visualization of cluster solutions helps to get an understanding of the cluster structure of the data and makes it easier to interpret the cluster results. Neighborhood graphs allow for visual assessment of relationships between adjacent clusters. A new visualization toolbox for the interactive exploration of cluster solutions is implemented in R package gcExplorer. The functionality of the package includes the visualization of the cluster structure in form of neighborhood graphs, the display of gene clusters in graphics or HTML tables, highlighting additional properties of the clusters as well as test procedures to judge the quality of cluster solutions. Finally, the methods are applied to E. coli data sets from the Department of Biotechnology at the University of Natural Resources and Applied Life Sciences in Vienna.17

    Similar works

    Full text

    thumbnail-image

    Available Versions