44 research outputs found

    Epimutations in both the TESK2 and MMACHC promoters in the Epi-cblC inherited disorder of intracellular metabolism of vitamin B12

    Full text link
    Background: epi-cblC is a recently discovered inherited disorder of intracellular vitamin B12 metabolism associating hematological, neurological, and cardiometabolic outcomes. It is produced by an epimutation at the promoter common to CCDC163P and MMACHC, which results from an aberrant antisense transcription due to splicing mutations in the antisense PRDX1 gene neighboring MMACHC. We studied whether the aberrant transcription produced a second epimutation by encompassing the CpG island of the TESK2 gene neighboring CCDC163P. Methods: We unraveled the methylome architecture of the CCDC163P-MMACHC CpG island (CpG:33) and the TESK2 CpG island (CpG:51) of 17 epi-cblC cases. We performed an integrative analysis of the DNA methylome profiling, transcriptome reconstruction of RNA-sequencing (RNA-seq), chromatin immunoprecipitation sequencing (ChIP-Seq) of histone H3, and transcription expression of MMACHC and TESK2. Results: The PRDX1 splice mutations and activation of numerous cryptic splice sites produced antisense readthrough transcripts encompassing the bidirectional MMACHC/CCDC163P promoter and the TESK2 promoter, resulting in the silencing of both the MMACHC and TESK2 genes through the deposition of SETD2-dependent H3K36me3 marks and the generation of epimutations in the CpG islands of the two promoters. Conclusions: The antisense readthrough transcription of the mutated PRDX1 produces an epigenetic silencing of MMACHC and TESK2. We propose using the term 'epi-digenism' to define this epigenetic disorder that affects two genes. Epi-cblC is an entity that differs from cblC. Indeed, the PRDX1 and TESK2 altered expressions are observed in epi-cblC but not in cblC, suggesting further evaluating the potential consequences on cancer risk and spermatogenesis. Keywords: Epi-cblC; MMACHC; Methylmalonic aciduria and homocystinuria, cblC type; Promoter hypermethylation; Secondary epimutation; TESK2

    Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries

    Get PDF
    Colloque avec actes et comité de lecture. nationale.National audienceNous développons des méthodes de fouille de données basées sur l'utilisation de modèles Markoviens du second ordre adaptés à l'étude des génomes. Ceux-ci réalisent une segmentation pouvant être observée sous la forme d'un signal stochastique traduisant l'organisation et la structure des motifs d'ADN sous-jacents. Aucune hypothèse 'a priori' n'est effectuée sur le contenu génétique des séquences étudiées. La modélisation du corpus de séquences est réalisée par une étape d'apprentissage automatique qui produit une classification non supervisée des segments nucléotidiques observés sur les différents états des HMM. Une première étape d'apprentissage sur les séquences chromosomiques complètes des bactéries actinomycètes Streptomyces coelicolor, S. avermitilis et Mycobacterium tuberculosis permet l'obtention de trois classes de HMM décrivant chacune un génome. Lors du processus de segmentation, certaines chaînes d'états cachés décrivent des fragments génomiques comme les gènes et les séquences intergéniques alors qu'une autre chaîne se spécialise sur la distribution de motifs d'ADN locaux particuliers. Ceux-ci correspondent à des mots de 5 à 12 nucléotides présents à des fréquences inhabituelles dans les régions intergéniques. Chez S. coelicolor, la classification de 2500 de ces motifs, issus d'une extraction automatique et identifiés dans 1,2 Mb d'ADN génomique, indique que 7% correspondraient à des sites de fixation de facteurs sigma connus (SigR, SigB, WhiG, HrdB) et 5% à des sites de fixation du ribosome ou des terminateurs de transcription potentiels. Concernant le régulon SigR/SigH (réponse au stress oxydant chez les Streptomyces/M. tuberculosis), la mise en oeuvre de cette approche a permis de détecter tous les promoteurs déjà déterminés biologiquement. Enfin, certains de ces motifs ne peuvent être corrélés à des rôles biologiques connus ou prédits à ce jour. Leur classification pourrait mettre en évidence des groupes à propriétés communes et viserait à définir des motifs promoteurs, puis, à terme, des réseaux de gènes co-régulés

    Data Mining Using Hidden Markov Models (HMM2) to Detect Heterogeneities into Bacteria Genomes

    Get PDF
    PosterThe Streptococcus genus contains both pathogenic bacteria and bacteria used in the food-processing industry. We are developing a statistical segmentation method to identify heterogeneous sequences such as sequences acquired from recent horizontal transfer or genes weakly or strongly expressed. The method is based on second order Hidden Markov Models (HMM2). After an automatic unsupervised training, this method allows to demarcating some particular areas into a genome. After checking the efficiency of such models on various controls and on chimeric sequences generated in silico, we choose a HMM2 (3-mer, 5 states) to analyse the complete genome sequence of S. Thermophilus CNRZ1066 (1.8 Mb). More the 80 atypical segments were extracted and are currently analysed further

    Data Mining Using Hidden Markov Models (HMM2) to Detect Heterogeneities into Bacteria Genomes

    Get PDF
    International audienceThe Streptococcus genus contains both pathogenic bacteria and bacteria used in the food-processing industry. We are developing a statistical segmentation method to identify heterogeneous sequences such as sequences acquired from recent horizontal transfer or genes weakly or strongly expressed. The method is based on second order Hidden Markov Models (HMM2). After an automatic unsupervised training, this method allows to demarcating some particular areas into a genome. After checking the efficiency of such models on various controls and on chimeric sequences generated in silico, we choose a HMM2 (3-mer, 5 states) to analyse the complete genome sequence of S. Thermophilus CNRZ1066 (1.8 Mb). More the 80 atypical segments were extracted and are currently analysed further

    FouDanGA : Fouille de données pour l'annotation de génomes d'actinomycètes

    Get PDF
    Poster de présentation de l'ACI FouDanga aux journées JOBIM 2005 (Lyon) : rapport d'avancement à 1 an.L'accumulation des séquences issues des projets de séquençage oblige la mise en œuvre de méthodes de fouilles de données pour comprendre les mécanismes impliqués dans l'expression, la transmission et l'évolution des gènes. Nous nous intéressons aux méthodes combinatoires et stochastiques permettant de prédire les séquences promotrices et autres petites séquences régulatrices chez les bactéries. Deux approches informatiques sont développées. La première correspond à l'utilisation d'algorithmes de recherche de mots puis de couples de mots sur-représentés dans les régions en amont de gènes orthologues d'espèces phylogénétiquement proches. La seconde correspond à une méthode de fouille de données génomiques sans a priori pour faire émerger des sous-séquences d'ADN dans les régions intergéniques. Le processus de fouille de données se traduit par la spécification de modèles de Markov cachés du second-ordre (HMM2), leur apprentissage et leur utilisation pour faire apparaître des irrégularités dans des grandes séquences d'ADN

    A new data mining approach for the detection of bacterial promoters combining stochastic and combinatorial methods

    Get PDF
    International audienceWe present a new data mining method based on stochastic analysis (HMM for Hidden Markov Model) and combinatorial methods for discovering new transcriptional factors in bacterial genome sequences. Sigma factor binding sites (SFBSs) were described as patterns of box1 - spacer - box2 corresponding to the -35 and -10 DNA motifs of bacterial promoters. We used a high-order Hidden Markov Model in which the hidden process is a second-order Markov chain. Applied on the genome of the model bacterium Streptomyces coelicolor (2), the a posteriori state probabilities revealed local maxima or peaks whose distribution was enriched in the intergenic sequences (``iPeaks'' for intergenic peaks). Short DNA sequences underlying the iPeaks were extracted and clustered by a hierarchical classification algorithm based on the SmithWaterman local similarity. Some selected motif consensuses were used as box1 (-35 motif) in the search of a potential neighbouring box2 (-10 motif) using a word enumeration algorithm. This new SFBS mining methodology applied on Streptomyces coelicolor was successful to retrieve already known SFBSs and to suggest new potential transcriptional factor binding sites (TFBSs). The well defined SigR regulon (oxidative stress response) was also used as a test quorum to compare first and second-order HMM. Our approach also allowed the preliminary detection of known SFBSs in Bacillus subtilis

    Segmentation du génome de Streptomyces coelicolor par chaînes de Markov pour la recherche de réitérations

    No full text
    Stage de DEA. Rapport de stage.Les modèles de Markov cachés (HMM), introduits dans les années 1960, ont connu un succès important en reconnaissance de la parole où ils se sont imposés comme un des modèles de référence. Leur adaptation à l'analyse de grands fragments nucléotidiques est désormais rendue possible par l'accroissement du nombre de génomes bactériens dont la séquence complète est disponible. Nous avons développé une panoplie d'outils permettant d'une part la segmentation de séquences par des HMM d'ordre deux , et d'autre part la visualisation graphique de cette segmentation. Une analyse fouillée des cosmides issus du séquençage du génome de Streptomyces coelicolor a ainsi pu être entreprise. Ce travail a permis de démontrer la capacité de tels modèles à détecter certains types de motifs réitérés présents sur le chromosome.l'étude détaillée de ces motifs montre que certains d'entre eux pourraient être la cause ou la conséquence des phénomènes d'instabilité génétique chez cette bactérie. || Hidden Markov Models (HMM) are still a reference in speech recognition processing since their introduction in the 1960's. Completely sequenced bacterial genomes provides the datas needed for their analysis by these models. We developed a bunch of tools f

    Fouille de données du génome à l'aide de modèles de Markov cachés

    No full text
    We propose a new data mining method based on second-order hidden Markov models (HMM2) that implements a background model coupled with dedicated a posteriori decoding algorithms to extract DNA heterogeneities. An unsupervised training and a state splitting algorithm specify a HMM2 that observe fixed length sequences (k-mer and k-d-k mer) rather than nucleotides. The training process does not require any a priori knowledge. We tested this data mining method on the Actinomycete genomes (Streptomyces and Mycobacterium) and found many sequences that appear to be parts of the binding sites for transcriptional factors

    Fouille de données à l'aide de HMM : Application à la détection de réitérations intragénomiques

    No full text
    Colloque avec actes et comité de lecture. nationale.National audienceNous présentons une méthode de fouille de données génomiques dans laquelle l'utilisateur analyse un signal élaboré pour la circonstance par un HMM d'ordre deux. Ce signal, qui représente une probabilité a posteriori de classer un résidu ou un groupe de résidus nucléotidiques dans un état, permet la localisation de répétitions dans la séquence d'un génome bactérien complet

    Intragenomic reiterations detection using hidden Markov models

    No full text
    Colloque avec actes et comité de lecture. internationale.International audienceWe present a genomic data mining method in which the user describes a signal worked out by a second order HMM. This signal representing the probability to classify a nucleotidic residue or a group of residues in a particular state, allows the localization of repetitions in a complete bacterial genomic sequence
    corecore