Robuste Normalisierung von Next-Generation-Sequencing Datensätzen

Abstract

I Background 1 The Basics of Molecular Biology 1.1 The Genome and the Readout of Genetic Information 1.1.1 The DNA 1.1.2 The Chromatin 1.1.3 The Readout of Genetic Information 1.2 Measuring the Cell by Next Generation Sequencing 1.2.1 Gene Expression 1.2.2 Chromatin Modifications 2 Mathematical Concepts 2.1 Statistical Prerequisites 2.1.1 Statistical Inference 2.1.2 Multiple Testing Correction and the T Method 2.1.3 The Binomial Distribution 2.1.4 Sampling from Binomial Distributions 2.1.5 Mixture Models 2.2 Model Parameter Estimation 2.2.1 Sufficient Statistics 2.2.2 Maximum Likelihood Estimation 2.2.3 The Expectation-Maximization Algorithm II Normalization of NGS Read Count Data 3 The normR Framework 3.1 Motivation 3.2 The normR Approach 3.2.1 Sequencing is a (Multinomial) Sampling Trial 3.2.2 Deliberations on the Signal-to-Noise Ratio (S/N) 3.2.3 The normR Method 3.2.4 Why Not Use a Negative Binomial or Multinomial Distribution? 3.3 Outlook 4 ChIP-seq Enrichment Calling with enrichR 4.1 Introduction 4.2 Methods 4.2.1 Data Sets 4.2.2 The normR Methods: enrichR 4.2.3 Confidence-Weighted Quantification of DNA-Methylation 4.2.4 Comparison of Enrichment Callers 4.2.5 Correlating enrichR -estimated Enrichment to NCIS and HMD% 4.2.6 Chromatin Segmentation Based on enrichR Enrichment Calls 4.3 Results – Enrichment Calling in High and Low S/N 4.3.1 Systematic Comparison of Available Enrichment Callers 4.3.2 enrichR Normalization Corresponds to Published In Silico as well as In Vitro Normalization Methods 4.3.3 Improved Chromatin Segmentation with an enrichR- chromHMM Hybrid Approach 4.4 Discussion 5 Regime Enrichment Calling with regimeR 5.1 Introduction 5.2 Methods 5.2.1 Data Sets 5.2.2 The normR Methods: regimeR 5.2.3 Validation of regimeR Calls via Sequence Features 5.3 Results - Distinct Heterochromatic Enrichment Regimes 5.3.1 H3K27me3 Peaks Coincide with CpG Islands Bound by EZH2 5.3.2 H3K9me3 Peaks are Found within Repeats Bound by ZNF274 5.3.3 Heterochromatic Peaks Resemble Nucleation Sites for Heterochromatin Embedded within Regions of Broad Enrichment 5.3.4 H3K27me3 and H3K9me3 do Overlap by a Minority within and between Tissues 5.4 Discussion 6 ChIP-seq Difference Calling with diffR 6.1 Introduction 6.2 Methods 6.2.1 Data Sets 6.2.2 The normR Methods: diffR 6.2.3 Gene Ontology Analysis 6.2.4 Comparison of ChIP-seq Difference Callers 6.3 Results 6.3.1 Difference Calling in HepG2 Cells and Primary Human Hepatocytes 6.3.2 Comparison of ChIP-seq Difference Callers 6.4 Discussion III Conclusion Bibliography A Supplementary Figures B Supplementary Tables C Abstract D Zusammenfassung E SelbstständigkeitserklärungMolecular Biology pertains to the molecular basis of the regulation of biomolecular processes in the cell, e.g. gene expression or the genome-wide localization of DNA-associated proteins. These molecular quantities are routinely measured by Next Generation Sequencing (NGS)-based tech- niques due to their genome-wide scalability and cost-efficiency. In order to discern background- regions from genomic loci that harbor a biological relevant signal, i.e. difference calling, the NGS measurements need to be corrected for technical biases with the help of a control, i.e. nor- malization. However, the normalization itself requires the knowledge of background regions and, consequently, difference calling and normalization are inseparable. Here, this problem is solved by the data-driven “normR” framework which models the inter- dependency of NGS mea- surements in background- and signal-regions as a multinomial sampling trial with a binomial mixture model. The robust normR normalization accounts for the effect of signal on the overall measurement statistic by modeling treatment and control simultaneously. In this thesis, I used normR in three studies concerning the inference of DNA-protein binding from ChIP-seq data. Firstly, the two-component “enrichR” model is shown to achieve a more sensitive enrichment calling (AUC≥0.93) than six competitor methods (AUC≤0.86) in low, e.g. H3K36me3, and high, e.g. H3K4me3, signal-to- noise ratio (S/N) ChIP-seq data. enrichR’s enrichment calls augment the resolution and comprehensiveness of chromatin segmentations by chromHMM and its normal- ization improves on present in silico and in vitro ChIP-seq normalization methods. Secondly, the three-component “regimeR” model dissects enrichment into two unprecedented regimes of dif- ferent signal levels. A regimeR-based analysis identified two distinct facultative and constitutive heterochromatic enrichment regimes in H3K27me3 and H3K9me3 ChIP-seq data, respectively. The identified peak regions (high enrichment) resemble nucleation sites for heterochromatin embedded in regions of broad (low) enrichment. Lastly, the three-component “diffR” model calls conditional differences in ChIP-seq enrichment between two conditions. The diffR calls in low (H3K27me3) and high (H3K4me3) S/N ChIP-seq data are confirmed by a systematic compari- son to four difference callers. Overall, normR represents a robust and versatile framework for the comprehensive analysis of ChIP-seq data, yet, it can be readily applied to other NGS-based experiments like ATAC- seq, STARR-seq or RNA-seq.Die Molekulare Biologie studiert die molekulare Basis der Regulierung von biomolekularen Pro- zessen wie der Genexpression und der genomweiten Lokalisation von DNS-bindenden Protei- nen. Die molekularen Größen werden mittels Next Generation Sequencing(NGS)-basierten Me- thoden gemessen, da diese genomweit skalierbar und kosteneffizient sind. Um Hintergrundre- gionen von genomischen Regionen mit einem biologisch relevanten Signal zu unterscheiden (Differenzenbestimmung) müssen technische Verzerrungen in den NGS Messungen mit Hilfe einer Kontrolle normalisiert werden. Jedoch benötigt eine korrekte Normalisierung die Identi- tät der Hintergrundregionen und, somit, sind Differenzenbestimmung und Normalisierung un- trennbar miteinander verbunden. Dieses Problem wird mit dem vorgestellten datenbasierten “normR” Modell gelöst, welches die Wechselbeziehung zwischen Zahlenwerten in Hintergrund- und Signalregionen als eine binomiale Mischverteilung modelliert. Die robuste Normalisierung von normR berücksichtigt durch gleichzeitige Modellierung von Experiment und Kontrolle den Einfluss des Signals auf die Messstatistik. In dieser Arbeit wurde normR in drei Analysen von ChIP-seq Daten verwendet um DNS-Bindestellen von Proteinen zu identifizieren. 1. Das “en- richR” Modell erreicht mit einer Mischverteilung aus zwei Komponenten eine Differenzenbe- stimmung, die sensitiver ist (AUC≥0.93) als bei sechs anderen Programmen (AUC≤0.86). Die identifizierten differentiellen Regionen erweitern die Auflösung und den Umfang von Chroma- tinsegmentierungen durch das chromHMM Programm. Die Normalisierung von enrichR ist bes- ser als bekannte in vitro und in silico Normalisierungsansätze. 2. Das “regimeR” Modell mit drei Komponenten teilt die vom ChIP angereicherten Regionen in zwei Klassen mit unterschiedli- cher Signalintensität. Eine Analyse mit regimeR identifiziert zwei Klassen von Anreicherung in fakultativem und konstitutivem Heterochromatin in H3K27me3 and H3K9me3 ChIP-seq Daten- sätzen. Die Regionen mit hoher Signalintensität sind flankiert von breiten Regionen mit nied- rigem Signal und könnten Keimstellen des Heterochromatins darstellen. 3. Das “diffR” Modell identifiziert Unterschiede zwischen ChIP-seq Messungen in zwei zellulären Bedingungen. Die Ergebnisse von diffR wurden mittels eines systematischen Vergleichs zu vier anderen ChIP-seq Differenzbestimmungsprogrammen validiert. normR ist ein robustes und vielseitiges Programm zur umfassenden Analyse von ChIP-seq Daten und vermag in Zukunft eine sensitive Analyse von anderen NGS Datensätzen wie ATAC-seq, STARR-seq und RNA-seq zu ermöglichen

    Similar works