4 research outputs found

    Further improvements to linear mixed models for genome-wide association studies

    Get PDF
    We examine improvements to the linear mixed model (LMM) that better correct for population structure and family relatedness in genome-wide association studies (GWAS). LMMs rely on the estimation of a genetic similarity matrix (GSM), which encodes the pairwise similarity between every two individuals in a cohort. These similarities are estimated from single nucleotide polymorphisms (SNPs) or other genetic variants. Traditionally, all available SNPs are used to estimate the GSM. In empirical studies across a wide range of synthetic and real data, we find that modifications to this approach improve GWAS performance as measured by type I error control and power. Specifically, when only population structure is present, a GSM constructed from SNPs that well predict the phenotype in combination with principal components as covariates controls type I error and yields more power than the traditional LMM. In any setting, with or without population structure or family relatedness, a GSM consisting of a mixture of two component GSMs, one constructed from all SNPs and another constructed from SNPs that well predict the phenotype again controls type I error and yields more power than the traditional LMM. Software implementing these improvements and the experimental comparisons are available at http://microsoft.com/science

    Régression pénalisée de type Lasso pour l'analyse de données biologiques de grande dimension : application à la charge virale du VIH censurée par une limite de quantification et aux données compositionnelles du microbiote

    Get PDF
    In clinical studies and thanks to technological advances, the amount of information collected from the same patient is constantly increasing, leading to situations where the number of explanatory variables is greater than the number of individuals. The Lasso method has proven to be appropriate in the face of over-adjustment problems encountered in high-dimensional settings. This thesis is devoted to the application and development of penalized Lasso-type regressions for clinical data with particular structures. First, in patients with human immunodeficiency virus, mutations in the genes of the virus may be related to the development of resistance to particular treatments. Viral load prediction based on (potentially large number of) mutations helps to guide the choice of treatments. Below a threshold, the viral load is undetectable; we are talking about left-censored data. We propose two new Lasso approaches to the iterative Buckley-James algorithm consisting in imputing censored values with a conditional expectation. By reversing the answer, we can reduce this to a problem of right-censorship, for which non-parametric estimates of conditional expectation have been proposed in survival analysis. Second, we propose a parametric estimate based on a Gaussian hypothesis. Secondly, we are interested in the role of the microbiota in the deterioration of respiratory health. The microbiota data are in the form of relative abundances (proportion of each species per individual, called compositional data) and they have a phylogenetic structure. We have established state of the art methods of statistical analysis of microbiota data. Due to the novelty, few recommendations exist on the applicability and effectiveness of the proposed methods. A simulation study allowed us to compare the selection capacity of penalization methods proposed specifically for this type of data. Then we apply this research to the analysis of the association between bacteria / fungi andthe decline in lung function in cystic fibrosis patients of the MucoFong project.Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s’est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension. Cette thèse est consacrée à l’application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières. Premièrement, chez des patients atteints du virus de l’immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement. La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d’orienter le choix des traitements. En dessous d’un seuil, la charge virale est indétectable, on parle de données censurées à gauche. Nous proposons deux nouvelles approches Lasso de l’algorithme itératif Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelles. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l’espérance conditionnelle ont été proposées en analyse de survie. En deuxième, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne. Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d’abondances relatives (proportion de chaque espèce par individu, dites données de compositions) et elles présentent une structure phylogénétique. Nous avons dressé un état de l’art des méthodes d’analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l’applicabilité et l’efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données. Puis nous appliquons ces recherches à l’analyse de l’association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong
    corecore