Analyzing NGS data with machine learning : from IBD segments to copy number variations

Abstract

The rise of Next Generation Sequencing (NGS) techniques has enabled the production of large amounts of sequencing data in shorter time and with lower costs than previously. However, equally powerful bioinformatic tools are needed to analyze the data in order to fully exploit the information that is encoded in the sequenced DNA. Segments of DNA, that are identical by descent (IBD) in two or more individuals because they were inherited from a common ancestor, can be used to uncover relationships from Neandertals to present day families. In this thesis the recently developed IBD detection methods HapFABIA and HapRFN were applied to whole genome sequencing (WGS) data from the 1000 Genomes Project to uncover relationships between and within populations as well as with Neandertals and Denisovans. We extracted two types of very old IBD segments that are shared with Neandertals/Denisovans: (1) longer segments primarily found in East Asians, South Asians, and Europeans that confirm already reported introgression events outside of Africa; (2) shorter segments mainly shared by Africans that may indicate events involving ancestors of humans and other ancient hominins within Africa. In clinical diagnostics, NGS techniques, especially targeted NGS panels, have largely replaced Sanger sequencing for the detection of single-nucleotide variants and small insertions/deletions. However, for the detection of copy-number variations (CNVs), previous computational methods had shortcomings regarding accuracy, quality control (QC), incidental findings, and user-friendliness. With the aim to address all these shortcomings, panelcn.MOPS was developed as part of this thesis. panelcn.MOPS is built upon the successful cn.MOPS model, which was adapted for targeted NGS panel data and especially for the usage in a clinical diagnostic setting. In addition to an increase in sensitivity, the extension includes the implementation of QC criteria for samples and genetic regions of interest (ROIs) and a filter for user-selected genes to avoid incidental findings. Furthermore, panelcn.MOPS was made freely available as R package and standalone software with graphical user interface that is easy to use for clinical geneticists without any programming experience. This thesis demonstrates the value of bioinformatics, and especially of machine learning methods, not only for gaining new insights into human history, but also for facilitating routine clinical genetic diagnostics.Der Aufstieg von Next Generation Sequencing (NGS) Techniken ermöglicht die Produktion von großen Mengen an Sequenzdaten in kürzerer Zeit und mit geringeren Kosten als bisher. Allerdings sind ebenso leistungsstarke Bioinformatik-Werkzeuge für zur Analyse der Daten erforderlich, damit die Informationen, die in der sequenzierten DNA codiert sind, voll ausgeschöpft werden können. DNA Segmente, die durch Abstammung in zwei oder mehr Individuen identisch sind, weil sie von einem gemeinsamen Vorfahren geerbt wurden (identity by descent - IBD), können verwendet werden, um Beziehungen von Neandertalern bis hin zu heutigen Familien aufzudecken. In dieser Arbeit wurden die neu entwickelten IBD-Detektionsmethoden HapFABIA und HapRFN auf Whole Genome Sequencing (WGS) Daten des 1000 Genomes Project angewendet, um Beziehungen zwischen und innerhalb von Populationen sowie mit Neandertalern und Denisovas aufzudecken. Wir haben zwei Arten von sehr alten IBD-Segmenten extrahiert, die mit Neandertalern / Denisovas geteilt werden: (1) längere Segmente, die vor allem in Ostasiaten, Südasiaten und Europäern gefunden wurden und die bereits berichtete genetische Vermischungen außerhalb Afrikas bestätigen; (2) kürzere Segmente, die hauptsächlich von Afrikanern geteilt werden und die auf Ereignisse mit Vorfahren von Menschen und anderen alten Homininen in Afrika hinweisen könnten. In der klinischen Diagnostik haben NGS-Techniken, insbesondere sogenannte targeted NGS Panels, die Sanger-Sequenzierung für den Nachweis von Single-Nukleotid-Varianten und kleinen Insertionen / Deletionen weitgehend ersetzt. Für die Erkennung von Kopienzahlvariationen (copy number variations - CNVs) hatten bisherige Nachweismethoden jedoch Mängel hinsichtlich Genauigkeit, Qualitätskontrollen, Zufallsbefunden und Benutzerfreundlichkeit. Mit dem Ziel, alle diese Probleme zu lösen, wurde panelcn.MOPS als Teil dieser Arbeit entwickelt. panelcn.MOPS basiert auf dem erfolgreichen cn.MOPS-Modell, das für targeted NGS Panel-Daten und insbesondere für den Einsatz in der klinischen Diagnostik angepasst wurde. Zusätzlich zu einer Erhöhung der Sensitivität umfasst die Erweiterung die Implementierung von Qualitätskriterien für Proben und genetische Regions-of-Interest (ROIs) und einen Filter für benutzerselektierte Gene, um Zufallsbefunde zu vermeiden. Darüber hinaus wird panelcn.MOPS frei als R-Paket und eigenständige Software mit grafischer Benutzeroberfläche zur Verfügung gestellt, die für klinische Genetiker ohne Programmierkenntnisse einfach zu bedienen ist. Diese Arbeit zeigt den Wert der Bioinformatik und insbesondere der Machine Learning Methoden, nicht nur für neue Einblicke in die menschliche Geschichte, sondern auch für die Erleichterung der routinemäßigen klinischen genetischen Diagnostik.submitted by Gundula PovysilZusammenfassung in deutscher SpracheUniversität Linz, Dissertation, 2017OeBB(VLID)224632

    Similar works

    Full text

    thumbnail-image

    Available Versions