5 research outputs found
Inference of patient-specific pathway activities from multi-dimensional cancer genomics data using PARADIGM
Motivation: High-throughput data is providing a comprehensive view of the molecular changes in cancer tissues. New technologies allow for the simultaneous genome-wide assay of the state of genome copy number variation, gene expression, DNA methylation and epigenetics of tumor samples and cancer cell lines
Contextual Analysis of Gene Expression Data
As measurement of gene expression using microarrays has become a standard high throughput
method in molecular biology, the analysis of gene expression data is still a very active
area of research in bioinformatics and statistics. Despite some issues in quality and reproducibility
of microarray and derived data, they are
still considered as one of the most promising experimental techniques for the understanding
of complex molecular mechanisms.
This work approaches the problem of expression data analysis using contextual information.
While all analyses must be based on sound statistical data processing, it is also
important to include biological knowledge to arrive at biologically interpretable results.
After giving an introduction and some biological background, in chapter 2 some standard
methods for the analysis of microarray data including normalization, computation
of differentially expressed genes, and clustering are reviewed. The first source of context
information that is used to aid in the interpretation of the data, is functional annotation
of genes. Such information is often represented using ontologies such as gene ontology. GO annotations are provided by many gene and
protein databases and have been used to find functional groups that are significantly enriched
in differentially expressed, or otherwise conspicuous genes. In gene clustering approaches,
functional annotations have been used to find enriched functional classes within
each cluster. In chapter 3, a clustering method for the samples of an expression data set
is described that uses GO annotations during the clustering process in order to find functional
classes that imply a particularly strong separation of the samples. The resulting
clusters can be interpreted more easily in terms of GO classes. The clustering method was
developed in joint work with Henning Redestig.
More complex biological information that covers interactions between biological objects
is contained in networks. Such networks can be obtained from public databases of metabolic
pathways, signaling cascades, transcription factor binding sites, or high-throughput measurements
for the detection of protein-protein interactions such as yeast two hybrid experiments.
Furthermore, networks can be inferred using literature mining approaches or
network inference from expression data. The information contained in such networks is
very heterogenous with respect to the type, the quality and the completeness of the contained
data. ToPNet, a software tool for the interactive analysis of networks and gene
expression data has been developed in cooperation with Daniel Hanisch. The basic analysis and visualization methods as well as some important concepts
of this tool are described in chapter 4.
In order to access the heterogeneous data represented as networks with annotated experimental
data and functions, it is important to provide advanced querying functionality.
Pathway queries allow the formulation of
network templates that can include functional annotations as well as expression data. The
pathway search algorithm finds all instances of the template in a given network. In order
to do so, a special case of the well known subgraph isomorphism problem has to be
solved. Although the algorithm has exponential running time in the worst case, some implementation
tricks make it run fast enough for practical purposes. Often, a pathway query
has many matching instances, and it is important to assess the statistical significance of
the individual instances with respect to expression data or other criteria. In chapter 5
the pathway query language and the pathway search algorithm are described in detail and
some theoretical properties are derived. Furthermore, some scoring methods that have
been implemented are described. The possibility of combining different scoring schemes
for different parts of the query result in very flexible scoring capabilities.
In chapter 6, some applications of the methods are described, using public data sets
as well as data sets from research projects. On the basis of the well studied public data
sets, it is demonstrated that the methods yield biologically meaningful results. The other
analyses show how new hypotheses can be generated in more complex biological systems,
but the validation of these hypotheses can only be provided by new experiments.
Finally, an outlook is given on how the presented methods can contribute to ongoing
research efforts in the area of expression data analysis, their applicability to other types of
data (such as proteomics data) and their possible extensions.WĂ€hrend die Messung von RNA-Konzentrationen mittels Microarrays eine Standardtechnik
zur genomweiten Bestimmung von Genexpressionswerten geworden ist, ist die Analyse
der dabei gewonnenen Daten immer noch ein Gebiet Ă€uĂerst aktiver Forschung. Trotz
einiger Probleme bezĂŒglich der Reproduzierbarkeit von Microarray- und davon abgeleiteten
Daten werden diese als eine der vielversprechendsten Technologien zur AufklÀrung
komplexer molekularer Mechanismen angesehen.
Diese Arbeit beschÀftigt sich mit dem Problem der Expressionsdatenanalyse mit Hilfe
von Kontextinformationen. Alle Analysen mĂŒssen auf solider Statistik beruhen, aber es
ist auĂerdem wichtig, biologisches Wissen einzubeziehen, um biologisch interpretierbare
Ergebnisse zu erhalten.
Nach einer Einleitung und einigem biologischen Hintergrund werden in Kapitel 2 einige
Standardmethoden zur Analyse von Expressionsdaten vorgestellt, wie z.B. Normalisierung,
Berechnung differenziell exprimierter Gene sowie Clustering. Die erste Quelle von Kontextinformationen,
die zur besseren Interpretation der Daten herangezogen wird, ist funktionale
Annotation von Genen. Solche Informationen werden oft mit Hilfe von Ontologien
wie z.B. der Gene Ontology dargestellt. GO Annotationen
werden von vielen Gen- und Proteindatenbanken zur VerfĂŒgung gestellt und
werden unter anderem benutzt, um Funktionen zu finden, die signifikant angereichert sind
an differenziell exprimierten oder aus anderen GrĂŒnden auffĂ€lligen Genen. Bei Clusteringmethoden
werden funktionale Annotationen benutzt, um in den gefundenen Clustern
angereicherte Funktionen zu identifizieren. In Kapitel 3 wird ein neues Clusterverfahren fĂŒr
Proben in ExpressionsdatensÀtzen vorgestellt, das GO Annotationen wÀhrend des Clustering
benutzt, um Funktionen zu finden, anhand derer die Expressionsdaten besonders
deutlich getrennt werden können. Die resultierenden Cluster können mit Hilfe der GO Annotationen
leichter interpretiert werden. Die Clusteringmethode wurde in Zusammenarbeit
mit Henning Redestig entwickelt.
Komplexere biologische Informationen, die auch die Interaktionen zwischen biologischen
Objekten beinhaltet, sind in Netzwerken enthalten. Solche Netzwerke können aus
öffentlichen Datenbanken von metabolischen Pfaden, Signalkaskaden, Bindestellen von
Transkriptionsfaktoren, aber auch aus Hochdurchsatzexperimenten wie der Yeast Two Hybrid
Methode gewonnen werden. AuĂerdem können Netzwerke durch die automatische
Auswertung wissenschaftlicher Literatur oder Inferenz aus Expressionsdaten gewonnen werden.
Die Information, die in solchen Netzwerken enthalten ist, ist sehr verschieden in Bezug
auf die Art, die QualitÀt und die VollstÀndigkeit der Daten. ToPNet, ein Computerprogramm
zur interaktiven Analyse von Netzwerken und Genexpressionsdaten, wurde gemeinsam
mit Daniel Hanisch entwickelt. Die grundlegenden Analyse und
Visualisierungsmethoden sowie einige wichtige Konzepte dieses Programms werden in
Kapitel 4 beschrieben.
Um auf die verschiedenartigen Daten zugreifen zu können, die durch Netzwerke mit
funktionalen Annotationen sowie Expressionsdaten reprÀsentiert werden, ist es wichtig,
flexible und mĂ€chtige AnfragefunktionalitĂ€t zur VerfĂŒgung zu stellen. Pathway queries
erlauben die Beschreibung von Netzwerkmustern,
die funktionale Annotationen sowie Expressionsdaten enthalten. Der pathway
search Algorithmus findet alle Instanzen des Musters in einem gegebenen Netzwerk. Dazu
muss ein Spezialfall des bekannten Subgraph-Isomorphie-Problems gelöst werden. Obwohl
der Algorithmus im schlechtesten Fall exponentielle Laufzeit in der GröĂe des Musters hat,
lĂ€uft er durch einige Implementationstricks schnell genug fĂŒr praktische Anwendungen. Oft
hat eine pathway query viele Instanzen, so dass es wichtig ist, die statistische Signifikanz
der einzelnen Instanzen in Hinblick auf Expressionsdaten oder andere Kriterien zu bestimmen.
In Kapitel 5 werden die Anfragesprache pathway query language sowie der pathway
search Algorithmus im Detail vorgestellt und einige theoretische Eigenschaften gezeigt.
AuĂerdem werden einige implementierte Scoring-Methoden beschrieben. Die Möglichkeit,
verschiedene Teile der Anfrage mit verschiedenen Scoring-Methoden zu bewerten und zu
einem Gesamtscore zusammenzufassen, erlaubt Ă€uĂerst flexible Bewertungen der Instanzen.
In Kapitel 6 werden einige Anwendungen der vorgestellten Methoden beschrieben, die
auf öffentlichen DatensÀtzen sowie DatensÀtzen aus Forschungsprojekten beruhen. Mit
Hilfe der gut untersuchten öffentlichen DatensÀtze wird gezeigt, dass die Methoden biologisch
sinnvolle Ergebnisse liefern. Die anderen Analysen zeigen, wie neue Hypothesen in
komplexeren biologischen Systemen generiert werden können, die jedoch nur mit Hilfe von
weiteren biologischen Experimenten validiert werden könnten.
SchlieĂlich wird ein Ausblick gegeben, was die vorgestellten Methoden zur laufenden
Forschung im Bereich der Expressionsdatenanalyse beitragen können, wie sie auf andere
Daten angewendet werden können und welche Erweiterungen denkbar und wĂŒnschenswert
sind
Factor Graphs for Computer Vision and Image Processing
Factor graphs have been used extensively in the decoding of error
correcting codes such as turbo codes, and in signal processing.
However, while computer vision and pattern recognition are awash
with graphical model usage, it is some-what surprising that
factor graphs are still somewhat under-researched in these
communities. This is surprising because factor graphs naturally
generalise both Markov random fields and Bayesian networks.
Moreover, they are useful in modelling relationships between
variables that are not necessarily probabilistic and allow for
efficient marginalisation via a sum-product of probabilities.
In this thesis, we present and illustrate the utility of factor
graphs in the vision community through some of the fieldâs
popular problems. The thesis does so with a particular focus on
maximum a posteriori (MAP) inference in graphical
structures with layers. To this end, we are able to break-down
complex problems into factored representations and more
computationally realisable constructions. Firstly, we present a
sum-product framework that uses the explicit factorisation
in local subgraphs from the partitioned factor graph of a layered
structure to perform inference. This provides an efficient method
to perform inference since exact inference is attainable in the
resulting local subtrees. Secondly, we extend this framework to
the entire graphical structure without partitioning, and discuss
preliminary ways to combine outputs from a multilevel
construction. Lastly, we further our endeavour to combine
evidence from different methods through
a simplicial spanning tree reparameterisation of the factor graph
in a way that ensures consistency, to produce an ensembled and
improved result. Throughout the thesis, the underlying feature we
make use of is to enforce adjacency constraints using Delaunay
triangulations computed by adding points dynamically, or using a
convex hull algorithm. The adjacency relationships from Delaunay
triangulations aid the factor graph approaches in this thesis to
be both efficient and
competitive for computer vision tasks. This is because of the low
treewidth they provide in local subgraphs, as well as the
reparameterised interpretation of the graph they form through the
spanning tree of simplexes. While exact inference is known to be
intractable for junction trees obtained from the loopy graphs in
computer vision, in this thesis we are able to effect exact
inference on our spanning tree of simplexes. More importantly,
the approaches presented here are not restricted to the computer
vision and image processing fields, but are extendable to more
general applications that involve distributed computations