Algorithms and Data Structures for Sequence Analysis in the Pan-Genomic Era

Abstract

This thesis is motivated by two important processes in bioinformatics, namely variation calling and haplotyping. The contributions range from basic algorithms for sequence analysis, to the implementation of pipelines to deal with real data. Variation calling characterizes an individual's genome by identifying how it differs from a reference genome. It uses reads -- small DNA fragments -- extracted from a biological sample, and aligns them to the reference to identify the genetic variants present in the donor's genome. A related procedure is haplotype phasing. Sexual organisms have their genome organized in two sets of chromosomes, with equivalent functions. Each set is inherited from the mother and the father respectively, and its elements are called haplotypes. The haplotype phasing problem is, once genetic variants are discovered, to attribute them to either of the haplotypes. The first problem we consider is to efficiently index large collections of genomes. The Lempel-Ziv compression algorithms is a useful tool for this. We focus on two of its exponents, namely the RLZ and LZ77 algorithms. We analyze the first, and propose some modifications to both, to finally develop a scalable index for large and repetitive collections. Then, using that index, we propose a novel pipeline for variation calling to replace the single reference by thousands of them. We test our variation calling pipeline on a mutation-rich subsequence of a Finnish population genome. Our approach consistently outperforms the single-reference approach to variation calling. The second part of this thesis revolves around the haplotype phasing problem. First, we propose a generalization of sequence alignment for diploid genomes. Next we extend this model to offer a solution for the haplotype phasing problem in the family-trio setting (that is, when we know the variants present in an individual and in her parents). Finally, in the context of an existing read-based approach to haplotyping, we go back to basic algorithms, where we model the problem of pruning a set of reads aligned to a reference as an interval scheduling problem. We propose a exact solution that runs in subquadratic time and a 2-approximation algorithm that runs in linearithmic time.Motivaatio tähän tutkielmaan tulee kahdesta tärkeästä bioinformatiikan prosessista: geenimutaatioiden etsinnästä (variation calling) ja haplotyyppauksesta (haplotyping). Työssä edistetään sekvenssianalyysin algoritmiikkaa ja kehitetään työkaluja mittausdatan analysointiin. Geenimutaatioiden etsinnässä pyritään identifioimaan ne muutokset perimässä, jotka erottavat yksilön lajin referenssigenomista. Tähän tarkoitukseen käytetään perimää koodaavasta DNA-eristeestä luettuja lyhyitä sekvenssejä eli lukujaksoja (read sequences). Nämä lukujaksot linjataan referenssigenomiin, jolloin eroavuudet paljastavat yksilön geenimutaatiot. Hyvin samaan tapaan voidaan suorittaa haplotyyppausta: Suvullisesti lisääntyvillä eli diploidisilla organismeilla on perimä järjestynyt kahteen joukkoon kromosomeja, joissa vastinpareilla on sama funktio. Yksi kromosomijoukko peritään äidiltä ja toinen peritään isältä. Yksittäistä kromosomijoukkoa kutsutaan haplotyypiksi. Haplotyypin vaiheistus -ongelmassa (haplotype phasing problem) pyritään selvittämään löydetyille geenimutaatioille niiden oikea haplotyyppi. Ensimmäinen tutkielmassa tarkasteltu ongelma on suurten genomikokoelmien tehokas indeksointi. Lempel-Ziv tiivistysalgoritmit ovat hyödyllisiä tähän tarkoitukseen. Tutkielma keskittyy kahteen Lempel-Ziv algoritmien haaraan: RLZ ja LZ77 algoritmeihin. Ensimmäistä näistä analysoidaan, kumpaankin näistä esitetään muutoksia, ja lopputuloksena on skaalautuva indeksi suurille ja toisteisille kokoelmille. Kehitettyä indeksiä käytetään uuden geenimutaatioiden etsintään tarkoitetun työkalun komponenttina. Indeksi kykenee hyödyntämään tuhansia referenssigenomeita yhden sijaan. Työkalua testataan mutaatiorikkailla alueilla suomalaisen alipopulaation genomeista. Uusi lähestymistapa tuottaa systemaattisesti parempia tuloksia kuin aiempi yhteen referenssigenomiin perustuva lähestymistapa. Toinen osa tutkielmasta keskittyy haplotyyppaukseen. Aluksi sekvenssien linjauksesta esitetään yleistys diploidisille genomeille. Tämän jälkeen esitettyä mallia kehitetään ratkaisuksi haplotyypin vaiheistus -ongelmaan perhe-kolmikko-tapauksessa (missä geenimutaatiot on selvitetty yksilölle ja hänen vanhemmilleen). Lopuksi lukujaksoihin perustuvan haplotyyppien vaiheistus -ongelman tapauksessa palataan perusalgoritmiikkaan, kun johdetaan aikajanojen skedulointiongelmaan perustuva ratkaisu lukujaksojen suodatukseen; tutkielmassa esitetään tarkka polynomiaikainen ratkaisu ongelmaan sekä lähes lineaariaikainen 2-approksimaatioalgoritmi

Similar works

This paper was published in Helsingin yliopiston digitaalinen arkisto.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.