Détection d'épistasie dans les études d'association pangénomiques avec des techniques d'apprentissage pour l'identification de cibles thérapeutiques

Abstract

By offering an unprecedented picture of the human genome, genome-wide association studies (GWAS) have been expected to fully explain the genetic background of complex diseases. So far, the results have been mitigated to say the least. This, among other things, can be partially attributed to the adopted statistical methodology, which does not often take into account interaction between genetic variants, or epistasis. The detection of epistasis through statistical models presents several challenges for which we develop in this thesis a pair of adequate tools. The first tool, epiGWAS, uses causal inference to detect epistatic interactions between a target SNP and the rest of the genome. The second tool, kernelPSI, instead uses kernel methods to model epistasis between nearby single-nucleotide polymorphisms (SNPs). It also leverages post-selection inference to jointly perform SNP-level selection and gene-level significance testing. The developed tools are -- to the best of our knowledge -- the first to extend powerful statistical learning frameworks such as causal inference and nonlinear post-selection inference to GWAS. In addition to the methodological contributions, a special emphasis was placed on biological interpretation to validate our findings in multiple sclerosis and body-mass index variations.En offrant une image sans précédent du génome humain, les études d'association pangénomiques (GWAS) expliqueraient pleinement le contexte génétique des maladies complexes. A ce jour, les résultats ont été pour le moins mitigés. Cela peut être partiellement attribué à la méthodologie statistique adoptée, qui ne prend pas souvent en compte l'interaction entre les variants génétiques, ou l'épistasie. La détection d'épistasie à travers des modèles statistiques présente plusieurs défis pour lesquels nous développons dans cette thèse une paire d'outils adéquats. Le premier outil, epiGWAS, utilise l'inférence causale pour détecter les interactions épistatiques entre un SNP cible et le reste du génome. Le deuxième outil, kernelPSI, utilise à la place des méthodes à noyaux pour modéliser l'épistasie entre plusieurs polymorphismes mononucléotidiques (SNPs) voisins. Il tire également partie de l'inférence post-sélection pour effectuer conjointement une sélection au niveau des SNPs et des tests de signification au niveau des gènes. Les outils développés sont - au meilleur de nos connaissances - les premiers à étendre au domains des GWAS des outils puissants d'apprentissage statistique tels que l'inférence causale et l'inférence post-sélection nonlinéaire. En plus des contributions méthodologiques, un accent particulier a été mis sur l'interprétation biologique pour valider nos résultats dans la sclérose en plaques et les variations d'indice de masse corporelle

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 26/11/2020