unknown

Computational methods for augmenting association-based gene mapping

Abstract

The context and motivation for this thesis is gene mapping, the discovery of genetic variants that affect susceptibility to disease. The goals of gene mapping research include understanding of disease mechanisms, evaluating individual disease risks and ultimately developing new medicines and treatments. Traditional genetic association mapping methods test each measured genetic variant independently for association with the disease. One way to improve the power of detecting disease-affecting variants is to base the tests on haplotypes, strings of adjacent variants that are inherited together, instead of individual variants. To enable haplotype analyses in large-scale association studies, this thesis introduces two novel statistical models and gives an efficient algorithm for haplotype reconstruction, jointly called HaloRec. HaploRec is based on modeling local regularities of variable length in the haplotypes of the studied population and using the obtained model to statistically reconstruct the most probable haplotypes for each studied individual. Our experiments demonstrate that HaploRec is especially well suited to data sets with a large number or markers and subjects, such as those typically used in currently popular genome-wide association studies. Public biological databases contain large amounts of data that can help in determining the relevance of putative associations. In this thesis, we introduce Biomine, a database and search engine that integrates data from several such databases under a uniform graph representation. The graph database is used to derive a general proximity measure for biological entities represented as graph nodes, based on a novel scheme of weighting individual graph edges based on their informativeness and type. The resulting proximity measure can be used as a basis for various data analysis tasks, such as ranking putative disease genes and visualization of gene relationships. Our experiments show that relevant disease genes can be identified from among the putative ones with a reasonable accuracy using Biomine. Best accuracy is obtained when a pre-known reference set of disease genes is available, but experiments using a novel clustering-based method demonstrate that putative disease genes can also be ranked without a reference set under suitable conditions. An important complementary use of Biomine is the search and visualization of indirect relationships between graph nodes, which can be used e.g. to characterize the relationship of putative disease genes to already known disease genes. We provide two methods for selecting subgraphs to be visualized: one based on weights of the edges on the paths connecting query nodes, and one based on using context free grammars to define the types of paths to be displayed. Both of these query interfaces to Biomine are available online.Tämän väitöskirjan aihealue on geenikartoitus, tautialttiuteen vaikuttavien perinnöllisten muunnosten paikantaminen. Geenikartoituksen käytännöllisiä päämääriä ovat tautimekanismien ymmärtäminen, yksilöllisten tautiriskien arviointi sekä uusien lääkitysten kehittäminen. Tässä työssä on kehitetty laskennallisia menetelmiä joita voidaan käyttää parantamaan olemassaolevien geenikartoitusmenetelmien tehoa sekä analysoimaan niiden antamia alustavia tuloksia. Geenikartoitusmenetelmät perustuvat ns. markereihin, jotka ovat yksilöllistä vaihtelua sisältäviä kohtia perimässä. Tyypillisesti käytetyt menetelmät mittaavat kussakin markerissa esiintyvien muunnosten yhteyttä tautiin erikseen, huomioimatta muita markereita. Kartoituksen tarkkuutta voidaan parantaa käyttämällä testaamisen yksikkönä yksittäisten markerien sijaan haplotyyppejä, lähekkäisissä markereissa esiintyvien muunnosten muodostamia säännönmukaisia jaksoja jotka periytyvät yhdessä. Laboratoriomenelmät eivät suoraan tuota tietoa siitä, miten kunkin yksilön perimästä mitatut muunnokset jakautuvat tämän kahdelta vanhemmalta perimiin haplotyyppeihin. Tämän väitöskirjan alkupuolella esitetään laskennallinen menetelmä, joilla haplotyypit voidaan rekonstruoida tilastollisesti, perustuen niiden paikallisiin säännönmukaisuuksiin. Kehitetty menetelmä on laskennallisesti tehokas ja soveltuu erityisesti genominlaajuisiin tutkimuksiin, joissa sekä tutkittujen yksilöiden että markereiden määrät ovat suuria, ja markerit sijaitsevat kohtuullisen etäällä toisistaan. Yksittäisten muunnosten vaikutukset tauteihin ovat usein suhteellisen heikkoja, ja kun testataan suuri joukko markereita, tuloksiin tulee yleensä sattumalta mukaan myös muunnoksia joilla ei ole todellista vaikutusta tautiin. Julkiset biologiset tietokannat sisältävät paljon tietoa joka voi auttaa alustavien geenikartoitustulosten merkityksen arvioimista. Työn toisessa osassa esitellään Biomine, tietokanta jossa on yhdistetty tietoa joukosta tällaisia tietokantoja käyttäen painotettua verkkomallia joka kuvaa mm. geenien, proteiinien ja tautien välisiä tunnettuja yhteyksiä. Verkon solmujen välisten epäsuorien yhteyksien voimakkuuden mittaamiseen esitetään uusi menetelmä. Tätä menetelmää voidaan hyödyntää mm. geenikartoituksella löydettyjen kandidaattigeenien priorisointiin, perustuen siihen että mitataan kandidaattigeenien ja entuudestaan tunnettujen tautigeenien välisten yhteyksien voimakkuutta, tai kandidaattigeenien keskinäisten yhteyksien voimakkuutta. Työssä esitetään myös menetelmiä verkkotietokannan solmujen välisten epäsuorien yhteyksien visualisointiin, perustuen kulloinkin kiinnostuksen kohteena olevien solmujen yhteyttä parhaiten kuvaavan pienen aliverkon eristämiseen tietokannasta. Aliverkon valintaan esitetään kaksi laskennallisesti tehokasta menetelmää: toinen perustuen yhteyksien voimakkuuden arvioimiseen, ja toinen perustuen yhdistävien polkujen sisältämien linkkien tyyppeihin. Nämä visualisointimenetelmät ovat myös käytettävissä julkisessa verkkopalvelussa jossa voi tehdä kyselyjä Biomine-tietokantaan

    Similar works