32 research outputs found

    Variational Inference for Stochastic Block Models from Sampled Data

    Full text link
    This paper deals with non-observed dyads during the sampling of a network and consecutive issues in the inference of the Stochastic Block Model (SBM). We review sampling designs and recover Missing At Random (MAR) and Not Missing At Random (NMAR) conditions for the SBM. We introduce variants of the variational EM algorithm for inferring the SBM under various sampling designs (MAR and NMAR) all available as an R package. Model selection criteria based on Integrated Classification Likelihood are derived for selecting both the number of blocks and the sampling design. We investigate the accuracy and the range of applicability of these algorithms with simulations. We explore two real-world networks from ethnology (seed circulation network) and biology (protein-protein interaction network), where the interpretations considerably depends on the sampling designs considered

    Toxicity of ethanol and acetaldehyde in hepatocytes treated with ursodeoxycholic or tauroursodeoxycholic acid

    Get PDF
    AbstractIn hepatocytes ethanol (EtOH) is metabolized to acetaldehyde and to acetate. Ursodeoxycholic acid (UDCA) and tauroursodeoxycholic acid (TUDCA) are said to protect the liver against alcohol. We investigated the influence of ethanol and acetaldehyde on alcohol dehydrogenase (ADH)-containing human hepatoma cells (SK-Hep-1) and the protective effects of UDCA and TUDCA (0.01 and 0.1 mM). Cells were incubated with 100 and 200 mM ethanol, concentrations in a heavy drinker, or acetaldehyde. Treatment with acetaldehyde or ethanol resulted in a decrease of metabolic activity and viability of hepatocytes and an increase of cell membrane permeability. During simultaneous incubation with bile acids, the metabolic activity was better preserved by UDCA than by TUDCA. Due to its more polar character, acetaldehyde mostly damaged the superficial, more polar domain of the membrane. TUDCA reduced this effect, UDCA was less effective. Damage caused by ethanol was smaller and predominantly at the more apolar site of the cell membrane. In contrast, preincubation with TUDCA or UDCA strongly decreased metabolic activity and cell viability and led to an appreciable increase of membrane permeability. TUDCA and UDCA only in rather high concentrations reduce ethanol and acetaldehyde-induced toxicity in a different way, when incubated simultaneously with hepatocytes. In contrast, preincubation with bile acids intensified cell damage. Therefore, the protective effect of UDCA or TUDCA in alcohol- or acetaldehyde-treated SK-Hep-1 cells remains dubious

    Impact de l’échantillonnage sur l’inférence de structures dans les réseaux : application aux réseaux d’échanges de graines et à l’écologie

    No full text
    In this thesis we are interested in studying the stochastic block model (SBM) in the presence of missing data. We propose a classification of missing data into two categories Missing At Random and Not Missing At Random for latent variable models according to the model described by D. Rubin. In addition, we have focused on describing several network sampling strategies and their distributions. The inference of SBMs with missing data is made through an adaptation of the EM algorithm : the EM with variational approximation. The identifiability of several of the SBM models with missing data has been demonstrated as well as the consistency and asymptotic normality of the maximum likelihood estimators and variational approximation estimators in the case where each dyad (pair of nodes) is sampled independently and with equal probability. We also looked at SBMs with covariates, their inference in the presence of missing data and how to proceed when covariates are not available to conduct the inference. Finally, all our methods were implemented in an R package available on the CRAN. A complete documentation on the use of this package has been written in addition.Dans cette thèse nous nous intéressons à l’étude du modèle à bloc stochastique (SBM) en présence de données manquantes. Nous proposons une classification des données manquantes en deux catégories Missing At Random et Not Missing At Random pour les modèles à variables latentes suivant le modèle décrit par D. Rubin. De plus, nous nous sommes attachés à décrire plusieurs stratégies d’échantillonnages de réseau et leurs lois. L’inférence des modèles de SBM avec données manquantes est faite par l’intermédiaire d’une adaptation de l’algorithme EM : l’EM avec approximation variationnelle. L’identifiabilité de plusieurs des SBM avec données manquantes a pu être démontrée ainsi que la consistance et la normalité asymptotique des estimateurs du maximum de vraisemblance et des estimateurs avec approximation variationnelle dans le cas où chaque dyade (paire de nœuds) est échantillonnée indépendamment et avec même probabilité. Nous nous sommes aussi intéressés aux modèles de SBM avec covariables, à leurs inférence en présence de données manquantes et comment procéder quand les covariables ne sont pas disponibles pour conduire l’inférence. Finalement, toutes nos méthodes ont été implémenté dans un package R disponible sur le CRAN. Une documentation complète sur l’utilisation de ce package a été écrite en complément

    Mise au point d'un dosage d'activité kinase de la protéine DYRK1A et Régulation épigénétique de l'expression du gène codant le facteur de transcription ISL1

    Get PDF
    ma thèse se compose de deux sujets distincts l'un de l'autre et s'est réalisée en codirection dans deux laboratoires (équipes 3 et 6) de l'Unité BFA de l'Université Paris Diderot-Paris 7Down syndrome is the most common aneuploidy, it originates from the presence of an extra 21st chromosome. The establishment of genotype/phenotype correlations in patients with Down's syndrome made it possible to highlight the DYRK1A kinase, encoded by the DYRK1A gene localized in the region DCR-1 on 21st chromosome, as a good candidate in the onset of mental retardation. Understanding the role and regulation of DYRK1A is thus necessary and for that, to get a reliable kinase activity assay is essential. First, we focused on the establishment of a new method of DYRK1A kinase activity assay using High Pressure Liquid Chromatography (HPLC). This method proved to be highly sensitive and affordable. Second, we sought to confirm previous data on in vitro activity of DYRK1A by using this new method. We also characterized the behavior of known inhibitors of DYRK1A (harmine) and the results obtained are in agreement with the literature. In collaboration with Dr. Dodd's team, we screened various molecules as potential inhibitors of DYRK1A. Finally, the activity assay was tested ex vivo, in mice brain extracts. Our results indicate that this new method of kinase activity assay is specific, reproducible and fast. This method can be potentially applied to other kinases, phosphatases and more broadly to other enzyme catalyzing a reaction of protein modification. GnRH plays a critical role by regulating LH and FSH secretion and synthesis via specific receptors (GnRHR) expressed at the surface of gonadotrope cells. Tissue-specific expression of Gnrhr is arbitrated by a combinatorial code of transcription factors that involves SF1, LHX3 and ISL1. Unlike for Gnrhr, we showed that Isl1 regulatory sequences upstream of the transcription start site (TSS) were not sufficient to direct pituitary-specific expression, suggesting the existence of additional regulatory mechanisms. Indeed regulatory regions (or promoters) as well as gene bodies, are altered by epigenetic modifications. Results of chromatin immunoprecipitation reveal that in cell lines expressing Isl1, namely gonadotrope cells, Isl1 was linked to histone H3 tri-methylated on Lys4 (H3K4Me3) at the TSS, an histone mark correlated with gene activity. In contrast, in cell lines where Isl1 was silent, Isl1 was bound by histone H3 tri-methylated on Lys27, a histone mark linked to gene repression. Similar correlation between histone modifications and gene activities where observed at the Gnrhr TSS. Our study further suggests that DNA methylation upstream of the CpG Island of Isl1 was inversely correlated with gene activity. Together, these data suggest that epigenetic modifications predominantly direct Isl1 tissue-specific expression whereas Gnrhr expression is primarily dependent on the presence of master tissue-specific transcription factors. Key words: ISL1, GnRH receptor, anterior pituitary, epigenetics regulation, histone modifications, DNA methylation, LIM-homeodomain proteins, gonadotrope cells.Le Syndrome de Down, aneuploïdie la plus courante, a pour cause première la présence d'un chromosome 21 surnuméraire. L'établissement de cartes de corrélation génotypes/phénotypes chez les patients atteints du Syndrome de Down a permis de mettre en évidence la kinase DYRK1A, codée par le gène DYRK1A localisé dans la région DCR-1 du chromosome 21, comme candidat pouvant être impliqué dans l'apparition d'un retard mental. Comprendre le rôle et la régulation de DYRK1A est donc essentiel et pour cela, utiliser un test fiable de mesure d'activité de l'enzyme est indispensable. Nous avons développé une nouvelle méthode de dosage de l'activité kinase de DYRK1A utilisant la chromatographie en phase liquide à haute performance (HPLC). Cette méthode s'est révélée très sensible et peu coûteuse. En utilisant cette nouvelle méthode, nous avons confirmé les principales données obtenues in vitro sur l'activité de DYRK1A. Nous avons également caractérisé le comportement d'inhibiteurs connus de DYRK1A (harmine) et confirmé les résultats rapportés dans la littérature. En collaboration avec l'équipe du Dr. Dodd nous avons criblé des dérivés hétérocycliques azotés de faible poids moléculaire, inhibiteurs potentiels de DYRK1A. Enfin, le test d'activité a été utilisé ex vivo sur des extraits de cerveau de souris. Nos résultats indiquent que cette nouvelle méthode de dosage d'activité kinase est spécifique, reproductible et rapide. Elle peut potentiellement s'appliquer à d'autres kinases, phosphatases et plus largement à d'autres enzymes catalysant une réaction de modification de protéines. La GnRH joue un rôle essentiel en régulant la sécrétion et la synthèse de LH et de FSH via des récepteurs spécifiques (GnRHR) exprimés à la surface des cellules gonadotropes hypophysaires. L'expression tissulaire spécifique du Gnrhr est contrôlée par une combinatoire bien définie de facteurs de transcription comportant trois acteurs majeurs, SF1, LHX3 et ISL1. Au contraire du Gnrhr, nous montrons que les séquences régulatrices d'Isl1 en amont du site d'initiation de transcription (TSS) sont insuffisantes pour diriger l'expression hypophysaire spécifique, suggérant l'existence de mécanismes additionnels. De fait, les régions régulatrices (ou promoteurs) ainsi que les "corps" des gènes sont altérés par des modifications épigénétiques. Les résultats, obtenus par immunoprécipitation de la chromatine, montrent que dans les lignées cellulaires exprimant Isl1, notamment les cellules gonadotropes, Isl1 est complexé avec des histones H3 triméthylées sur la Lys4 (H3K4Me3) au niveau du TSS, une marque d'histones corrélée avec les gènes actifs. En revanche, dans les lignées cellulaires où Isl1 est silencieux, il est complexé avec des histones H3 triméthylées sur la Lys27, marque liée à la répression des gènes. On observe cette même corrélation au niveau du TSS du Gnrhr. De plus, notre étude suggère que la méthylation de l'ADN, en amont de l'îlot CpG est inversement corrélée à l'activité de ce gène. Ces données suggèrent que les modifications épigénétiques sont essentiellement responsables de l'expression hypophysaire spécifique d'Isl1contrairement à l'expression du Gnrhr qui semble principalement dépendante de la présence de facteurs de transcription tissulaires spécifiques majeurs. Mots clefs : ISL1, récepteur du GnRH, antéhypophyse, régulation épigénétiques, modifications des histones, méthylation de l'ADN, protéine LIM à homéodomaine, cellules gonadotropes

    Impact of sampling on structure inference in networks : application to seed exchange networks and to ecology

    No full text
    Dans cette thèse nous nous intéressons à l’étude du modèle à bloc stochastique (SBM) en présence de données manquantes. Nous proposons une classification des données manquantes en deux catégories Missing At Random et Not Missing At Random pour les modèles à variables latentes suivant le modèle décrit par D. Rubin. De plus, nous nous sommes attachés à décrire plusieurs stratégies d’échantillonnages de réseau et leurs lois. L’inférence des modèles de SBM avec données manquantes est faite par l’intermédiaire d’une adaptation de l’algorithme EM : l’EM avec approximation variationnelle. L’identifiabilité de plusieurs des SBM avec données manquantes a pu être démontrée ainsi que la consistance et la normalité asymptotique des estimateurs du maximum de vraisemblance et des estimateurs avec approximation variationnelle dans le cas où chaque dyade (paire de nœuds) est échantillonnée indépendamment et avec même probabilité. Nous nous sommes aussi intéressés aux modèles de SBM avec covariables, à leurs inférence en présence de données manquantes et comment procéder quand les covariables ne sont pas disponibles pour conduire l’inférence. Finalement, toutes nos méthodes ont été implémenté dans un package R disponible sur le CRAN. Une documentation complète sur l’utilisation de ce package a été écrite en complément.In this thesis we are interested in studying the stochastic block model (SBM) in the presence of missing data. We propose a classification of missing data into two categories Missing At Random and Not Missing At Random for latent variable models according to the model described by D. Rubin. In addition, we have focused on describing several network sampling strategies and their distributions. The inference of SBMs with missing data is made through an adaptation of the EM algorithm : the EM with variational approximation. The identifiability of several of the SBM models with missing data has been demonstrated as well as the consistency and asymptotic normality of the maximum likelihood estimators and variational approximation estimators in the case where each dyad (pair of nodes) is sampled independently and with equal probability. We also looked at SBMs with covariates, their inference in the presence of missing data and how to proceed when covariates are not available to conduct the inference. Finally, all our methods were implemented in an R package available on the CRAN. A complete documentation on the use of this package has been written in addition

    missSBM: An R Package for Handling Missing Values in the Stochastic Block Model

    Get PDF
    32 pagesInternational audienceThe Stochastic Block Model (SBM) is a popular probabilistic model for random graphs. It is commonly used for clustering network data by aggregating nodes that share similar connectivity patterns into blocks. When fitting an SBM to a network which is partially observed, it is important to take into account the underlying process that generates the missing values, otherwise the inference may be biased. This paper introduces missSBM, an R-package fitting the SBM when the network is partially observed, i.e., the adjacency matrix contains not only 1's or 0's encoding presence or absence of edges but also NA's encoding missing information between pairs of nodes. This package implements a set of algorithms for fitting the binary SBM, possibly in the presence of external covariates, by performing variational inference adapted to several observation processes. Our implementation automatically explores different block numbers to select the most relevant model according to the Integrated Classification Likelihood (ICL) criterion. The ICL criterion can also help determine which observation process better corresponds to a given dataset. Finally, missSBM can be used to perform imputation of missing entries in the adjacency matrix. We illustrate the package on a network data set consisting of interactions between political blogs sampled during the French presidential election in 2007

    Variational Inference for Stochastic Block Models from Sampled Data

    No full text
    This paper deals with non-observed dyads during the sampling of a network and consecutive issues in the Stochastic Block Model (SBM) inference. We review sampling designs and recover Missing At Random (MAR) and Not Missing At Random (NMAR) conditions for SBM. We introduce several variants of the variational EM (VEM) algorithm for inferring the SBM under various sampling designs (MAR and NMAR). The sampling design must be taken into account only in the NMAR case. Model selection criteria based on Integrated Classification Likelihood (ICL) are derived for selecting both the number of blocks and the sampling design. We investigate the accuracy and the range of applicability of these algorithms with simulations. We finally explore two real-world networks from ethnology (seed circulation network) and biology (protein-protein interaction network), where the interpretations considerably depends on the sampling designs considered

    Variational Inference for Stochastic Block Models from Sampled Data

    No full text
    This paper deals with non-observed dyads during the sampling of a network and consecutive issues in the Stochastic Block Model (SBM) inference. We review sampling designs and recover Missing At Random (MAR) and Not Missing At Random (NMAR) conditions for SBM. We introduce several variants of the variational EM (VEM) algorithm for inferring the SBM under various sampling designs (MAR and NMAR). The sampling design must be taken into account only in the NMAR case. Model selection criteria based on Integrated Classification Likelihood (ICL) are derived for selecting both the number of blocks and the sampling design. We investigate the accuracy and the range of applicability of these algorithms with simulations. We finally explore two real-world networks from ethnology (seed circulation network) and biology (protein-protein interaction network), where the interpretations considerably depends on the sampling designs considered
    corecore