78 research outputs found

    Accuracy of Variational Estimates for Random Graph Mixture Models

    No full text
    International audienceL'analyse des réseaux exerce depuis quelques années un attrait croissant. Les données qui sont sous la forme de mesures de relations entre items sont de plus en plus disponibles, et abandonnent la structure usuelle d'un jeu de données de type individus-variables pour une structure de type individus-individus. Ces données "relationnelles" sont très souvent présentées sous la forme d'un graphe, même si cette représentation a ses limites, notamment quand le nombre d'individus dépasse la centaine. La représentation graphique des données des réseaux est alors attractive, mais nécessite un modèle synthétique. Le modèle de graphe le plus ancien et le plus utilisé est le modèle de Erdös-Rényi, dont les propriétés moyennes ou asymptotiques sont connues. L'écriture littérale de la vraisemblance de ce modèle est très simple, mais son temps de calcul croit de façon exponentielle avec le nombre d'individu. Une utilisation des algorithmes d'estimation usuels comme E-M n'est pas envisageable. Une approche variationnelle a été utilisée comme alternative pour implémenter un algorithme d'estimation des paramètres du modèle, et cela pour des réseaux de très grande taille (Daudin & al 2008). Les propriétés statistiques des estimateurs produits par cette approche sont cependant mal connues. L'objectif est de mener une étude sur la qualité de ces estimateurs et d'en prouver la convergence

    Functional Architectures of Local and Distal Regulation of Gene Expression in Multiple Human Tissues

    Get PDF
    Genetic variants that modulate gene expression levels play an important role in the etiology of human diseases and complex traits. Although large-scale eQTL mapping studies routinely identify many local eQTLs, the molecular mechanisms by which genetic variants regulate expression remain unclear, particularly for distal eQTLs, which these studies are not well powered to detect. Here, we leveraged all variants (not just those that pass stringent significance thresholds) to analyze the functional architecture of local and distal regulation of gene expression in 15 human tissues by employing an extension of stratified LD-score regression that produces robust results in simulations. The top enriched functional categories in local regulation of peripheral-blood gene expression included coding regions (11.41Ă—), conserved regions (4.67Ă—), and four histone marks (p < 5 Ă— 10 -5 for all enrichments); local enrichments were similar across the 15 tissues. We also observed substantial enrichments for distal regulation of peripheral-blood gene expression: coding regions (4.47Ă—), conserved regions (4.51Ă—), and two histone marks (p < 3 Ă— 10 -7 for all enrichments). Analyses of the genetic correlation of gene expression across tissues confirmed that local regulation of gene expression is largely shared across tissues but that distal regulation is highly tissue specific. Our results elucidate the functional components of the genetic architecture of local and distal regulation of gene expression

    Functionally informed fine-mapping and polygenic localization of complex trait heritability

    Get PDF
    Fine-mapping aims to identify causal variants impacting complex traits. We propose PolyFun, a computationally scalable framework to improve fine-mapping accuracy by leveraging functional annotations across the entire genome-not just genome-wide-significant loci-to specify prior probabilities for fine-mapping methods such as SuSiE or FINEMAP. In simulations, PolyFun + SuSiE and PolyFun + FINEMAP were well calibrated and identified >20% more variants with a posterior causal probability >0.95 than identified in their nonfunctionally informed counterparts. In analyses of 49 UK Biobank traits (average n = 318,000), PolyFun + SuSiE identified 3,025 fine-mapped variant-trait pairs with posterior causal probability >0.95, a >32% improvement versus SuSiE. We used posterior mean per-SNP heritabilities from PolyFun + SuSiE to perform polygenic localization, constructing minimal sets of common SNPs causally explaining 50% of common SNP heritability; these sets ranged in size from 28 (hair color) to 3,400 (height) to 2 million (number of children). In conclusion, PolyFun prioritizes variants for functional follow-up and provides insights into complex trait architectures. PolyFun is a computationally scalable framework for functionally informed fine-mapping that makes full use of genome-wide data. It prioritizes more variants than previous methods when applied to 49 complex traits from UK Biobank.Peer reviewe

    <i>RPA3-UMAD1</i> rs12702634 and rheumatoid arthritis-associated interstitial lung disease in European ancestry

    Get PDF
    Objective Recently, a genome-wide association study identified an association between RA-associated interstitial lung disease (ILD) and RPA3-UMAD1 rs12702634 in the Japanese population, especially for patients with a usual interstitial pneumonia (UIP) pattern. We aimed to replicate this association in a European population and test for interaction with MUC5B rs35705950.Methods In this genetic case-control association study, patients with RA and ILD and controls with RA and no ILD were included from France, the USA and the Netherlands. Only cases and controls from European genetic ancestries determined by principal components analysis were included in the analyses. RA was defined by the 1987 ACR or 2010 ACR/EULAR criteria and ILD by chest high-resolution CT scan, except in the control dataset from the Netherlands, where the absence of ILD was determined by chart review. Patients were genotyped for RPA3-UMAD1 rs12702634 and MUC5B rs35705950. Associations were tested using logistic regression adjusted for sex, age at RA onset, age at ILD onset or at certified absence of ILD, tobacco smoking status and country of origin.Results Among the 883 patients included, 322 were RA-ILD cases (36.5%). MUC5B rs35705950 was strongly associated with RA-ILD in all datasets {combined adjusted odds ratio [OR] 2.9 [95% CI 2.1, 3.9], P = 1.1 x 10-11. No association between RPA3-UMAD1 rs12702634 and RA-ILD was observed [combined OR 1.2 (95% CI 0.8, 1.6), P = 0.31. No interaction was found between RPA3-UMAD1 rs12702634 and MUC5B rs35705950 (P = 0.70).Conclusion Our findings did not support a contribution of RPA3-UMAD1 rs12702634 to the overall RA-ILD susceptibility in the European population.What does this mean for patients?Interstitial lung disease (ILD) can develop in 10-60% of patients with rheumatoid arthritis (RA) and is associated with an increased risk of death. We do not yet fully understand why RA-ILD occurs, but risk factors include genetics and environmental factors such as tobacco smoking. Identifying new genetic risk factors for RA-ILD may improve our understanding of how this disease occurs, help us categorize patients in terms of their risk level and help us to potentially identify new drug targets. A previous Japanese genetic study identified the RPA3-UMAD1 rs12702634 common genetic variant as a risk factor for RA-ILD. However, a second Japanese study failed to replicate these findings. In this international study including patients with European ancestry, we did not find that RPA3-UMAD1 rs12702634 contributed to the overall risk of RA-ILD. Our findings highlight the importance of conducting analyses that try to replicate the results of a study. We also emphasize that genetic associations-even those already reported-require rigorous testing in different groups of people before we can conclude that they contribute to disease risk. Ongoing collaboration and multi-ancestry genetic studies are essential in order to advance our understanding of the complex genetics underlying RA-ILD

    Gazal, Steven

    No full text

    Consanguinity in the High-Throughput Genome Era : Estimations and Applications

    No full text
    Un individu est dit consanguin si ses parents sont apparentés et s’il existe donc dans sa généalogie au moins une boucle de consanguinité aboutissant à un ancêtre commun. Le coefficient de consanguinité de l’individu est par définition la probabilité pour qu’à un point pris au hasard sur le génome, l’individu ait reçu deux allèles identiques par descendance qui proviennent d’un seul allèle présent chez un des ancêtres communs. Ce coefficient de consanguinité est un paramètre central de la génétique qui est utilisé en génétique des populations pour caractériser la structure des populations, mais également pour rechercher des facteurs génétiques impliqués dans les maladies. Le coefficient de consanguinité était classiquement estimé à partir des généalogies, mais des méthodes ont été développées pour s’affranchir des généalogies et l’estimer à partir de l’information apportée par des marqueurs génétiques répartis sur l’ensemble du génome.Grâce aux progrès des techniques de génotypage haut-débit, il est possible aujourd’hui d’obtenir les génotypes d’un individu sur des centaines de milliers de marqueurs et d’utiliser ces méthodes pour reconstruire les régions d’identité par descendance sur son génome et estimer un coefficient de consanguinité génomique. Il n’existe actuellement pas de consensus sur la meilleure stratégie à adopter sur ces cartes denses de marqueurs en particulier pour gérer les dépendances qui existent entre les allèles aux différents marqueurs (déséquilibre de liaison). Dans cette thèse, nous avons évalué les différentes méthodes disponibles à partir de simulations réalisées en utilisant de vraies données avec des schémas de déséquilibre de liaison réalistes. Nous avons montré qu’une approche intéressante consistait à générer plusieurs sous-cartes de marqueurs dans lesquelles le déséquilibre de liaison est minimal, d’estimer un coefficient de consanguinité sur chacune des sous-cartes par une méthode basée sur une chaîne de Markov cachée implémentée dans le logiciel FEstim et de prendre comme estimateur la médiane de ces différentes estimations. L’avantage de cette approche est qu’elle est utilisable sur n’importe quelle taille d’échantillon, voire sur un seul individu, puisqu’elle ne demande pas d’estimer les déséquilibres de liaison. L’estimateur donné par FEstim étant un estimateur du maximum de vraisemblance, il est également possible de tester si le coefficient de consanguinité est significativement différent de zéro et de déterminer la relation de parenté des parents la plus vraisemblable parmi un ensemble de relations. Enfin, en permettant l’identification de régions d’homozygoties communes à plusieurs malades consanguins, notre stratégie peut permettre l’identification des mutations récessives impliquées dans les maladies monogéniques ou multifactorielles.Pour que la méthode que nous proposons soit facilement utilisable, nous avons développé le pipeline, FSuite, permettant d’interpréter facilement les résultats d’études de génétique de populations et de génétique épidémiologique comme illustré sur le panel de référence HapMap III, et sur un jeu de données cas-témoins de la maladie d’Alzheimer.An individual is said to be inbred if his parents are related and if his genealogy contains at least one inbreeding loop leading to a common ancestor. The inbreeding coefficient of an individual is defined as the probability that the individual has received two alleles identical by descent, coming from a single allele present in a common ancestor, at a random marker on the genome. The inbreeding coefficient is a central parameter in genetics, and is used in population genetics to characterize the population structure, and also in genetic epidemiology to search for genetic factors involved in recessive diseases.The inbreeding coefficient was traditionally estimated from genealogies, but methods have been developed to avoid genealogies and to estimate this coefficient from the information provided by genetic markers distributed along the genome.With the advances in high-throughput genotyping techniques, it is now possible to genotype hundreds of thousands of markers for one individual, and to use these methods to reconstruct the regions of identity by descent on his genome and estimate a genomic inbreeding coefficient. There is currently no consensus on the best strategy to adopt with these dense marker maps, in particular to take into account dependencies between alleles at different markers (linkage disequilibrium).In this thesis, we evaluated the different available methods through simulations using real data with realistic patterns of linkage disequilibrium. We highlighted an interesting approach that consists in generating several submaps to minimize linkage disequilibrium, estimating an inbreeding coefficient of each of the submaps based on a hidden Markov method implemented in FEstim software, and taking as estimator the median of these different estimates. The advantage of this approach is that it can be used on any sample size, even on an individual, since it requires no linkage disequilibrium estimate. FEstim is a maximum likelihood estimator, which allows testing whether the inbreeding coefficient is significantly different from zero and determining the most probable mating type of the parents. Finally, through the identification of homozygous regions shared by several consanguineous patients, our strategy permits the identification of recessive mutations involved in monogenic and multifactorial diseases.To facilitate the use of our method, we developed the pipeline FSuite, to interpret results of population genetics and genetic epidemiology studies, as shown on the HapMap III reference panel, and on a case-control Alzheimer's disease data

    Zoonomia annotation files for S-LDSC

    No full text
    These S-LDSC annotation files contain 6 ENCODE3 annotations (PLS, pELS, dELSL2 and corresponding flanking regions) and 3 zoonomia annotations (constraint in mammals and primates, acceleration in mammals) to add to the baseline-LD model

    La consanguinité à l'ère du génome haut-débit : estimations et applications

    Get PDF
    An individual is said to be inbred if his parents are related and if his genealogy contains at least one inbreeding loop leading to a common ancestor. The inbreeding coefficient of an individual is defined as the probability that the individual has received two alleles identical by descent, coming from a single allele present in a common ancestor, at a random marker on the genome. The inbreeding coefficient is a central parameter in genetics, and is used in population genetics to characterize the population structure, and also in genetic epidemiology to search for genetic factors involved in recessive diseases.The inbreeding coefficient was traditionally estimated from genealogies, but methods have been developed to avoid genealogies and to estimate this coefficient from the information provided by genetic markers distributed along the genome.With the advances in high-throughput genotyping techniques, it is now possible to genotype hundreds of thousands of markers for one individual, and to use these methods to reconstruct the regions of identity by descent on his genome and estimate a genomic inbreeding coefficient. There is currently no consensus on the best strategy to adopt with these dense marker maps, in particular to take into account dependencies between alleles at different markers (linkage disequilibrium).In this thesis, we evaluated the different available methods through simulations using real data with realistic patterns of linkage disequilibrium. We highlighted an interesting approach that consists in generating several submaps to minimize linkage disequilibrium, estimating an inbreeding coefficient of each of the submaps based on a hidden Markov method implemented in FEstim software, and taking as estimator the median of these different estimates. The advantage of this approach is that it can be used on any sample size, even on an individual, since it requires no linkage disequilibrium estimate. FEstim is a maximum likelihood estimator, which allows testing whether the inbreeding coefficient is significantly different from zero and determining the most probable mating type of the parents. Finally, through the identification of homozygous regions shared by several consanguineous patients, our strategy permits the identification of recessive mutations involved in monogenic and multifactorial diseases.To facilitate the use of our method, we developed the pipeline FSuite, to interpret results of population genetics and genetic epidemiology studies, as shown on the HapMap III reference panel, and on a case-control Alzheimer's disease data.Un individu est dit consanguin si ses parents sont apparentés et s’il existe donc dans sa généalogie au moins une boucle de consanguinité aboutissant à un ancêtre commun. Le coefficient de consanguinité de l’individu est par définition la probabilité pour qu’à un point pris au hasard sur le génome, l’individu ait reçu deux allèles identiques par descendance qui proviennent d’un seul allèle présent chez un des ancêtres communs. Ce coefficient de consanguinité est un paramètre central de la génétique qui est utilisé en génétique des populations pour caractériser la structure des populations, mais également pour rechercher des facteurs génétiques impliqués dans les maladies. Le coefficient de consanguinité était classiquement estimé à partir des généalogies, mais des méthodes ont été développées pour s’affranchir des généalogies et l’estimer à partir de l’information apportée par des marqueurs génétiques répartis sur l’ensemble du génome.Grâce aux progrès des techniques de génotypage haut-débit, il est possible aujourd’hui d’obtenir les génotypes d’un individu sur des centaines de milliers de marqueurs et d’utiliser ces méthodes pour reconstruire les régions d’identité par descendance sur son génome et estimer un coefficient de consanguinité génomique. Il n’existe actuellement pas de consensus sur la meilleure stratégie à adopter sur ces cartes denses de marqueurs en particulier pour gérer les dépendances qui existent entre les allèles aux différents marqueurs (déséquilibre de liaison). Dans cette thèse, nous avons évalué les différentes méthodes disponibles à partir de simulations réalisées en utilisant de vraies données avec des schémas de déséquilibre de liaison réalistes. Nous avons montré qu’une approche intéressante consistait à générer plusieurs sous-cartes de marqueurs dans lesquelles le déséquilibre de liaison est minimal, d’estimer un coefficient de consanguinité sur chacune des sous-cartes par une méthode basée sur une chaîne de Markov cachée implémentée dans le logiciel FEstim et de prendre comme estimateur la médiane de ces différentes estimations. L’avantage de cette approche est qu’elle est utilisable sur n’importe quelle taille d’échantillon, voire sur un seul individu, puisqu’elle ne demande pas d’estimer les déséquilibres de liaison. L’estimateur donné par FEstim étant un estimateur du maximum de vraisemblance, il est également possible de tester si le coefficient de consanguinité est significativement différent de zéro et de déterminer la relation de parenté des parents la plus vraisemblable parmi un ensemble de relations. Enfin, en permettant l’identification de régions d’homozygoties communes à plusieurs malades consanguins, notre stratégie peut permettre l’identification des mutations récessives impliquées dans les maladies monogéniques ou multifactorielles.Pour que la méthode que nous proposons soit facilement utilisable, nous avons développé le pipeline, FSuite, permettant d’interpréter facilement les résultats d’études de génétique de populations et de génétique épidémiologique comme illustré sur le panel de référence HapMap III, et sur un jeu de données cas-témoins de la maladie d’Alzheimer
    • …
    corecore