6 research outputs found

    FFCA: a feasibility-based method for flux coupling analysis of metabolic networks

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>Flux coupling analysis (FCA) is a useful method for finding dependencies between fluxes of a metabolic network at steady-state. FCA classifies reactions into subsets (called coupled reaction sets) in which activity of one reaction implies activity of another reaction. Several approaches for FCA have been proposed in the literature.</p> <p>Results</p> <p>We introduce a new FCA algorithm, FFCA (Feasibility-based Flux Coupling Analysis), which is based on checking the feasibility of a system of linear inequalities. We show on a set of benchmarks that for genome-scale networks FFCA is faster than other existing FCA methods.</p> <p>Conclusions</p> <p>We present FFCA as a new method for flux coupling analysis and prove it to be faster than existing approaches. A corresponding software tool is freely available for non-commercial use at <url>http://www.bioinformatics.org/ffca/</url>.</p

    Kombination von traditionellen Methoden und modernen Techniken des maschinellen Lernens fĂĽr die verbesserte Ăśbersetzung genetischen Codes in biologische Funktion

    No full text
    One of the great challenges in modern biology is understanding the genome and its translation into biological structures and function. In this context, the aim of this dissertation is to show that combinatorial approaches of traditional methods and novel machine learning ideas can be developed and successfully applied to analyze large-scale biological datasets and provide novel insights into genetic and transcriptomic variation. This proposed thesis is validated in two fields of biological research: genome-wide association studies (GWAS) and single-cell RNA sequencing (scRNA-Seq). For the analysis of such data, we propose three novel methods, each consisting of traditional methods on the one hand and state-of-the-art machine learning algorithms on the other. It is shown that these combinatorial approaches outperform both their individual methodological components and existing techniques on suitable corresponding datasets in terms of statistical power and accuracy. The standard approach to the evaluation of GWAS is based on testing each position in the genome individually for statistical significance of its association with the phenotype under investigation. To improve the analysis, we propose a combination of machine learning and statistical testing that takes correlation structures within the set of single-nucleotide polymorphisms (SNP) under investigation in a mathematically well-controlled manner into account. The general idea is to train an appropriate state-of-the-art classification algorithm, selecting a subset of candidate locations that are most relevant for the classifier’s decisions and examining only those for significant associations via multiple statistical hypothesis testing. This dissertation’s first methodological contribution, the two-step algorithm, COMBI, first trains a support vector machine to determine a subset of candidate SNPs and then performs hypothesis tests for these SNPs together with an adequate threshold correction. Applying COMBI to generated datasets as well as data from a WTCCC study (2007), we show that the novel method outperforms ordinary raw p-value thresholding and other state-of-the-art methods. COMBI presents higher power and precision than the examined alternatives while yielding fewer false (i.e. non-replicated) and more true (i.e. replicated) discoveries when its results are validated on later GWAS. Deep learning has become one of the leading methodologies in data science, which oftentimes greatly improves prediction performances in comparison to conventional approaches. Recently, explainable artificial intelligence has emerged as a novel area of research that goes beyond pure prediction improvement by extracting knowledge from deep learning methodologies through the interpretation of their results. Following these developments, we present the second methodological contribution of this dissertation, DeepCOMBI - an improved, deep learning- and explanation-based extension of the previously proposed method COMBI. The three-step algorithm of DeepCOMBI first trains a neural network to classify subjects into their respective phenotypes. Second, it explains the classifier’s decisions by applying layer-wise relevance propagation as one example from the pool of explanation techniques. The resulting importance scores are eventually used to determine a subset of the most relevant locations for multiple hypothesis testing in the third step, which remains unchanged as in the original COMBI method. DeepCOMBI is shown to outperform COMBI, raw p-value thresholding and other baseline methods on generated datasets and the 2007 WTCCC study. Beyond improving the identification of associations between phenotypes and genotypes, in this dissertation, we contribute to understanding how genetic information is translated into physical structures and biological function. When exploring the flow of sequential information from DNA to mRNA to proteins, we interpret the genome in the context of cell types and aim to identify the genes that are active in certain cells. Within this frame of reference, the goal of scRNA-Seq experiments is to define and catalog cell types from the transcriptional output of individual cells, which refers to an unsupervised clustering problem. To improve the clustering of small disease- or tissue-specific datasets, for which the identification of rare cell types is often problematic, we propose to combine conventional clustering algorithms with the machine learning concept of transfer learning to utilize large and well-annotated reference datasets. This dissertation’s third methodological contribution modifies the target dataset while incorporating key information from the reference dataset via non-negative matrix factorization before providing the modified dataset to a traditional downstream clustering algorithm. We empirically evaluate the benefits of the novel approach on simulated scRNA-Seq data as well as on publicly available datasets. Finally, we present results for analyzing a recently published small dataset and find improved clustering when transferring knowledge from a large independent reference dataset. To summarize, this dissertation contributes to a better understanding of the genome and the processes around its translation into biological structures and function. By proposing three approaches for the analysis of large-scale biological datasets combining traditional methods and state-of-the-art machine learning algorithms, it is shown that, in this regard, too, “the whole is greater than the sum of its parts” (indirect quote derived from Aristotle, 4th century BC).Eine der größten Herausforderungen der modernen Biologie besteht darin, das Genom und seine Umwandlung in biologische Strukturen und Funktionen zu verstehen. In diesem Zusammenhang wird in dieser Dissertation gezeigt, dass kombinatorische Ansätze traditioneller Methoden und neuartiger Ideen des maschinellen Lernens entwickelt und erfolgreich angewendet werden können, um große biologische Datensätze zu analysieren und neue Einblicke in genetische und transkriptomische Variationen zu erhalten. Diese für diese Arbeit aufgestellte These wird in zwei Bereichen der biologischen Forschung validiert: genomweite Assoziationsstudien (GWAS) und Einzelzell-RNA-Sequenzierung (scRNA-Seq). Es werden insgesamt drei neue Methoden vorgeschlagen, die jeweils aus traditionellen Methoden auf der einen Seite und modernen maschinellen Lernalgorithmen auf der anderen Seite bestehen. Es wird gezeigt, dass diese kombinatorischen Ansätze sowohl ihre einzelnen methodischen Komponenten als auch andere bereits existierende Konkurrenzmethoden bei der Anwendung auf entsprechenden Datensätzen hinsichtlich statistischer Power und Accuracy übertreffen. Der Standardansatz für die Auswertung von GWAS basiert darauf, jede Position im Genom einzeln auf statistische Signifikanz ihrer Assoziation mit dem untersuchten Phänotyp zu testen. Um die Analyse zu verbessern, schlagen wir eine Kombination aus maschinellem Lernen und statistischem Testen vor, bei der Korrelationsstrukturen zwischen den untersuchten Einzelnukleotid-Polymorphismen (SNP) mathematisch kontrolliert berücksichtigt werden. Die zugrundeliegende Idee besteht darin, zunächst einen geeigneten Klassifizierungsalgorithmus zu trainieren, danach die Teilmenge aller SNPs auszuwählen, die für die Entscheidungen des Klassifizierers am relevantesten sind und letztendlich diese mit multiplen statistischen Hypothesentests auf signifikante Assoziationen zu untersuchen. Der erste im Rahmen dieser Dissertation entwickelte, zweistufige Algorithmus COMBI trainiert zunächst eine Support Vector Machine, um die Teilmenge der bedeutendsten Kandidaten-SNPs zu bestimmen und führt dann Hypothesentests mit einer entsprechenden Anpassung des Signifikanzlevels für diese SNPs durch. Mit der Anwendung von COMBI auf generierten Datensätzen sowie auf Daten aus einer WTCCC-Studie (2007) wird gezeigt, dass die neue Methode bessere Ergebnisse liefert als gewöhnliches multiples Testen sowie andere Konkurrenzmethoden. COMBI ermöglicht höhere statistische Power und Präzision als die untersuchten Alternativen und liefert weniger falsche (d.h. nicht replizierte) und mehr wahre (d.h. replizierte) Entdeckungen, wenn die jeweiligen Ergebnisse mit unabhängigen GWAS validiert werden. In den letzten Jahren wurde tiefes Lernen zu einer der führenden Methoden der Datenwissenschaften, die die Vorhersageleistungen im Vergleich zu herkömmlichen Ansätzen häufig erheblich verbessert. In jüngster Zeit hat sich zudem erklärbare künstliche Intelligenz (Explainable AI) zu einem neuartigen Forschungsgebiet entwickelt, das über die reine Vorhersageverbesserung hinausgeht und Wissen aus Deep-Learning-Methoden extrahiert, indem ihre Ergebnisse interpretiert und erklärt werden. Im Rahmen dieser Fortschritte entwickeln wir eine Erweiterung von COMBI, die auf tiefem Lernen und erklärbarer künstlicher Intelligenz basiert. Dieser zweite im Rahmen der Dissertation entwickelte, dreistufige Algorithmus DeepCOMBI trainiert zunächst ein neuronales Netzwerk für die Klassifizierung von Probanden in ihre jeweiligen Phänotypen. Anschließend werden die Entscheidungen der Klassifizierung mit Layerwise Relevance Propagation erklärt und die Ergebnisse verwendet, um die relevantesten SNPs zu identifizieren. Wie bei der ursprünglichen COMBI-Methode werden diese SNPs im dritten Schritt auf statistische Assoziation getestet. Auf generierten Datensätze und der bereits genannten WTCCC Studie von 2007 wird gezeigt, dass DeepCOMBI bessere Vorhersageleistungen erbringt als COMBI, gewöhnliches multiples Testen und andere Konkurrenzmethoden. Über die Verbesserung der Identifizierung von Assoziationen zwischen Phänotypen und Genotypen hinausgehend, tragen wir in dieser Dissertation dazu bei, besser zu verstehen, wie genetische Informationen in phänotypische Strukturen und biologische Funktionen übersetzt werden. Bei der Untersuchung der Umwandlung genetischer Informationen von DNA über mRNA zu Proteinen wird das Genom häufig im Kontext von Zelltypen interpretiert, indem untersucht wird, welche Gene in bestimmten Zellen aktiv sind. In diesem Kontext ist das Ziel von scRNA-Seq-Experimenten die Definition und Katalogisierung von Zelltypen basierend auf dem Transkriptom einzelner Zellen, was auf ein unüberwachtes Clustering-Problem hinausläuft. Beim Clustern von kleinen krankheits- oder gewebespezifischen Datensätzen ist die Identifizierung seltener Zelltypen häufig problematisch. Deshalb schlagen wir vor, herkömmliche Clustering-Algorithmen mit dem Konzept des Transfer Learnings zu kombinieren, um große und gut untersuchte Referenzdatensätze verwenden zu können. Der dritte im Rahmen der Dissertation vorgeschlagene, kombinatorische Ansatz modifiziert daher den Zieldatensatz, indem Informationen aus dem Referenzdatensatz über eine nichtnegative Matrixfaktorisierung einbezogen werden, bevor der modifizierte Datensatz mit einem Clustering-Algorithmus analysiert wird. Die Leistung der vorgeschlagenen Methode wird auf simulierten scRNA-Seq-Daten sowie auf öffentlich verfügbaren Datensätzen empirisch evaluiert. Schließlich präsentieren wir die Ergebnisse der Analyse eines kürzlich veröffentlichten kleinen Datensatzes und finden ein verbessertes Clustering beim Transfer von Informationen aus einem großen Referenzdatensatz. Zusammenfassend trägt diese Dissertation zu einem besseren Verständnis des Genoms und der Prozesse rund um seine Übersetzung in biologische Strukturen und Funktionen bei. Mit der Entwicklung dreier kombinatorischer Ansätze für die Analyse biologischer Datensätze aus traditionellen Methoden einerseits und modernen Algorithmen des maschinellen Lernens andererseits, wird gezeigt, dass auch hier “das Ganze mehr ist als die Summe seiner Teile” (sinngemäß Aristoteles, 4. Jh. v. Chr.).BMBF, 01IS18037A, BIFOLD-BZM

    DeepCOMBI: explainable artificial intelligence for the analysis and discovery in genome-wide association studies

    No full text
    Deep learning has revolutionized data science in many fields by greatly improving prediction performances in comparison to conventional approaches. Recently, explainable artificial intelligence has emerged as an area of research that goes beyond pure prediction improvement by extracting knowledge from deep learning methodologies through the interpretation of their results. We investigate such explanations to explore the genetic architectures of phenotypes in genome-wide association studies. Instead of testing each position in the genome individually, the novel three-step algorithm, called DeepCOMBI, first trains a neural network for the classification of subjects into their respective phenotypes. Second, it explains the classifiers' decisions by applying layer-wise relevance propagation as one example from the pool of explanation techniques. The resulting importance scores are eventually used to determine a subset of the most relevant locations for multiple hypothesis testing in the third step. The performance of DeepCOMBI in terms of power and precision is investigated on generated datasets and a 2007 study. Verification of the latter is achieved by validating all findings with independent studies published up until 2020. DeepCOMBI is shown to outperform ordinary raw P-value thresholding and other baseline methods. Two novel disease associations (rs10889923 for hypertension, rs4769283 for type 1 diabetes) were identified

    Combining Multiple Hypothesis Testing with Machine Learning Increases the Statistical Power of Genome-wide Association Studies

    No full text
    The standard approach to the analysis of genome-wide association studies (GWAS) is based on testing each position in the genome individually for statistical significance of its association with the phenotype under investigation. To improve the analysis of GWAS, we propose a combination of machine learning and statistical testing that takes correlation structures within the set of SNPs under investigation in a mathematically well-controlled manner into account. The novel two-step algorithm, COMBI, first trains a support vector machine to determine a subset of candidate SNPs and then performs hypothesis tests for these SNPs together with an adequate threshold correction. Applying COMBI to data from a WTCCC study (2007) and measuring performance as replication by independent GWAS published within the 2008–2015 period, we show that our method outperforms ordinary raw p-value thresholding as well as other state-of-the-art methods. COMBI presents higher power and precision than the examined alternatives while yielding fewer false (i.e. non-replicated) and more true (i.e. replicated) discoveries when its results are validated on later GWAS studies. More than 80% of the discoveries made by COMBI upon WTCCC data have been validated by independent studies. Implementations of the COMBI method are available as a part of the GWASpi toolbox 2.0.EF acknowledges support from the advanced ERC grant (ERC-2011-AdG 295642-FEP) on the Foundation of Economic Preferences. MK, BM, and KRM were supported by the German National Science Foundation (DFG) under the grants MU 987/6-1 and RA 1894/1-1. TD and DS were supported by the German National Science Foundation (DFG) under the grants DI 1723/3-1 und SCHU 2828/2-1. GB and TS acknowledge support of the German National Science Foundation (DFG) under the research group grant FOR 1735. MK, DT, KRM, and GB acknowledge financial support by the FP7-ICT Programme of the European Community, under the PASCAL2 Network of Excellence. MK acknowledges a postdoctoral fellowship by the German Research Foundation (DFG), award KL 2698/2-1, and from the Federal Ministry of Science and Education (BMBF) awards 031L0023A and 031B0187B. AN acknowledges support from the Spanish Multiple Sclerosis Network (REEM), of the Instituto de Salud Carlos III (RD12/0032/0011), the Spanish National Institute for Bioinformatics (PT13/0001/0026) the Spanish Government Grant BFU2012-38236 and from FEDER. This project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No. 634143 (MedBioinformatics). MK and KRM were financially supported by the Ministry of Education, Science, and Technology, through the National Research Foundation of Korea under Grant R31-10008 (MK, KRM) and BK21 (KRM)
    corecore