38 research outputs found

    Étude de la dynamique des populations du viroïde de la mosaïque latente du pêcher par séquençage à haut débit et segmentation

    Get PDF
    Les viroïdes sont des agents pathogènes responsables de maladies affectant les plantes telles que l'avocatier, le pêcher, la tomate, la pomme dé terre, etc. Parce qu'ils dégradent la qualité des fruits et des légumes qu'ils infectent, les viroïdes sont la cause de la perte d'environ 50 % de la production mondiale des cultures touchées. La compréhension des mécanismes couvrant l'infection aux viroïdes constitue un enjeu économique majeur visant l'amélioration de la productivité, dans l'exploitation de ces plantes. Cette étude aborde l'analyse des processus liés à l'infection aux viroïdes par la découverte de nouveaux aspects caractérisant la variabilité génétique du viroïde de la mosaïque latente du pêcher (PLMVd). Elle décrit la dynamique des populations de PLMVd. La grande variabilité de PLMVd, expliquée par un fort taux de mutations, implique la génération de séquences diverses et variées, prenant la forme de nuages. Notre approche pour comprendre cette variabilité génétique de PLMVd consiste à infecter un pêcher à partir d'une seule séquence de PLMVd, puis à en extraire les séquences et analyser leurs caractéristiques intrinsèques par une nouvelle méthode bio-informatique. À notre connaissance, notre étude, à ce jour, est la première à utiliser les récentes techniques de séquençage à haut débit, à des fins d'analyses des viroïdes. La structure relativement simple des viroïdes, brin d'ARN circulaire d'environ 240 à 400 nucléotides, leur confère l'avantage de pouvoir être séquencé dans leur longueur totale par le séquençage à haut débit. Ce dernier couvre de grands volumes de données biologiques, ce qui convient pour séquencer les nuages de séquences qu'on peut retrouver au sein de la population de PLMVd. En bio-informatique, il existe de nombreux algorithmes permettant de comparer des séquences pour en extraire de l'information. L'un des défis majeurs de ces algorithmes est la prise en charge efficace et rapide de quantité de données en constante croissance. Dans le cadre de notre étude, le volume de séquences généré par PLMVd rend impraticable l'application des algorithmes d'alignement pour comparer les séquences et en estimer leurs similarités. D'autres algorithmes tels que ceux basés sur les N-grammes impliquent une perte partielle de l'information contenue dans les séquences. Nous avons donc utilisé une mesure de similarité basée sur le modèle de probabilité conditionnelle (CPD) qui nous permet d'une part, de conserver l'information sous forme de patrons (sous-séquences) contenus dans les séquences, et d'autre part, d'éviter l'alignement de séquences tout en comparant directement chaque séquence avec un ensemble de séquences. Le modèle CPD est intégré dans un nouvel algorithme de segmentation pour les séquences catégoriques, appelé DHCS. Cette étude révèle de nouveaux aspects dans la variabilité génétique de PLMVd. En effet, elle nous a permis d'une part d'extraire des familles de séquences caractérisées par des mutations spécifiques, puis d'autre part, de représenter la distribution de ces mutations dans une arborescence. Par la suite, elle a favorisé l'observation de mutations localisées dans le noyau d'un motif particulier, nommé le ribozyme en tête de marteau des séquences, servant à l'amélioration de l'adaptation de PLMVd. Celui-ci est effectivement sujet à mutations parce que la séquence inoculée au pêcher après 6 mois d'infections n'a pas été retrouvée et que le nombre de mutations enregistrées varie de 2 à 51. Des deux librairies obtenues, nous avons répertorié 1125 et 1061 séquences pour un total de 2186 nouvelles séquences de PLMVd. Seules 300 séquences étaient connues à ce jour. Nous avons observé que les séquences possèdent, selon la librairie, en moyenne 4.6 et 6.3 mutations par rapport à la séquence inoculée. Certaines d'entre elles ont jusqu'à 20 % de dissimilarité par rapport à la séquence inoculée, ce qui est considérable. Grâce à DHCS, les différentes séquences ont pu être groupées en familles, au nombre de 7 et 8 selon la librairie

    Contribution à l'analyse des séquences de protéines similarité, clustering et alignement

    Get PDF
    La prédiction des fonctions biologiques des protéines est primordiale en biologie cellulaire. On peut comprendre facilement tout l'enjeu de pouvoir différencier efficacement les protéines par leurs fonctions, quand on sait que ceci peut rendre possible la réparation des protéines anormales causants des maladies, ou du moins corriger ou améliorer leurs fonctions. Les méthodes expérimentales, basées sur la structure tridimensionnelle des protéines sont les plus fiables pour la prédiction des fonctions biologiques des protéines. Néanmoins, elles sont souvent coûteuses en temps et en ressources, et ne permettent pas de traiter de grands nombres de protéines. Il existe toutefois des algorithmes qui permettent aux biologistes d'arriver à de bons résultats de prédictions en utilisant des moyens beaucoup moins coûteux. Le plus souvent, ces algorithmes sont basés sur la similarité, le clustering, et l'alignement. Cependant, les algorithmes qui sont basés sur la similarité et le clustering utilisent souvent l'alignement des séquences et ne sont donc pas efficaces sur les protéines non alignables. Et lorsqu'ils ne sont pas basés sur l 'alignement, ces algorithmes utilisent souvent des approches qui ne tiennent pas compte de l'aspect biologique des séquences de protéines. D'autre part, l'efficacité des algorithmes d'alignements dépend souvent de la nature structurelle des protéines, ce qui rend difficile le choix de l'algorithme à utiliser quand la structure est inconnue. Par ailleurs, les algorithmes d'alignement ignorent les divergences entre les séquences à aligner, ce qui contraint souvent les biologistes à traiter manuellement les séquences à aligner, une tâche qui n'est pas toujours possible en pratique. Dans cette thèse nous présentons un ensemble de nouveaux algorithmes que nous avons conçus pour l'analyse des séquences de protéines. Dans le premier chapitre, nous présentons CLUSS, le premier algorithme de clustering capable de traiter des séquences de protéines non-alignables. Dans le deuxième chapitre, nous présentons CLUSS2 une version améliorée de CLUSS, capable de traiter de plus grands ensembles de protéines avec plus de de fonctions biologiques. Dans le troisième chapitre, nous présentons SCS, une nouvelle mesure de similarité capable de traiter efficacement non seulement les séquences de protéines mais aussi plusieurs types de séquences catégoriques. Dans le dernier chapitre, nous présentons ALIGNER, un algorithme d'alignement, efficace sur les séquences de protéines indépendamment de leurs types de structures. De plus, ALIGNER est capable de détecter automatiquement, parmi les protéines à aligner, les groupes de protéines dont l'alignement peut révéler d'importantes propriétés biochimiques structurelles et fonctionnelles, et cela sans faire appel à l'utilisateur

    Exploration des structures secondaires de l’ARN

    Get PDF
    À l’ère du numérique, valoriser les données en leur donnant un sens est un enjeu capital pour supporter la prise de décision stratégique et cela dans divers domaines, notamment dans le domaine du marketing numérique ou de la santé, ou encore, dans notre contexte, pour une meilleure compréhension de la biologie des structures des acides nucléiques. L’un des défis majeurs de la biologie structurale concerne l’étude des structures des acides ribonucléiques (ARN), les effets de ces structures et de leurs altérations sur leurs fonctions. Contribuer à cet enjeu important est l’objectif de cette thèse. Celle-ci s’inscrit principalement dans le développement de méthodes et d’outils pour l’exploration efficace des structures secondaires d’ARN. En effet, explorer les structures secondaires d’ARN contribue à lever le voile sur leur fonction et permet de mieux cerner leur implication spécifique au sein des processus cellulaires. Dans ce contexte nous avons développé le modèle des super-n-motifs qui contribue à une meilleure représentation de la complexité structurale des ARN et offre un moyen efficace d’évaluer la similarité des structures d’ARN en tenant compte de cette complexité. Le modèle des super-n-motifs facilite l’étude des ARN dont le rôle est inconnu. Il permet de poser des hypothèses sur la ou les fonctions des ARN lorsque ceux-ci partagent une similarité structurale sans équivoque. Nous avons aussi développé la plateforme structurexplor pour faciliter l’exploration des structures secondaires, c’est-à-dire de permettre, en quelques clics, de caractériser les populations de structures d’ARN en, par exemple, faisant ressortir les groupes d’ARN partageant des structures similaires. La mise en œuvre du modèle des super-n-motifs et de la plateforme structurexplor a contribué à une meilleure compréhension de la phylogénie structurale des viroïdes qui sont des agents pathogènes à ARN attaquant les plantes, phylogénie jusqu’alors basée que sur leurs séquences

    Similarités et divergences, globales et locales, entre structures protéiques

    Get PDF
    This thesis focusses on local and global similarities and divergences inside protein structures. First, structures are scored, with criteria of similarity and distance in order to provide a supervised classification. This structural domain classification inside existing hierarchical databases is possible by using dominances and learning. These methods allow to assign new domains with accuracy and exactly. Second we focusses on local similarities and proposed a method of protein comparison modelisation inside graphs. Graph traversal allows to find protein similar substructures. This method is based on compatibility between elements and criterion of distances. We can use it and detect events such that circular permutations, hinges and structural motif repeats. Finally we propose a new approach of accurate protein structure analysis that focused on divergences between similar structures.Cette thèse s'articule autour de la détection de similarités globales et locales dans les structures protéiques. Premièrement les structures sont comparées, mesurées en termes de distance métrique dans un but de classification supervisée. Cette classification des domaines structuraux au sein de classifications hiérarchiques se fait par le biais de dominances et d'apprentissages permettant d'assigner plus rapidement et de manière exacte de nouveaux domaines. Deuxièmement, nous proposons une méthode de manière de traduire un problème biologique dans les formalisme des graphes. Puis nous résolvons ce problème via le parcours de ces graphes pour extraire les différentes sous-structures similaires. Cette méthode repose sur des notions de compatibilités entre éléments des structures ainsi que des critères de distances entre éléments. Ces techniques sont capables de détecter des événements tels que des permutations circulaires, des charnières (flexibilité) et des répétitions de motifs structuraux. Finalement nous proposons une nouvelle approche dans l'analyse fine de structures afin de faciliter la recherche de régions divergentes entre structures 3D fortement similaires

    Étude de l’hétérogénéité génétique de la leucémie myéloïde aigue par analyse scRNA-seq.

    Full text link
    Les leucémies myéloïdes aiguës (LMA) sont un groupe de cancers résultant de la différenciation anormale et incomplète des cellules souches et progénitrices hématopoïétiques (HSPC), suite à l'acquisition séquentielle de diverses anomalies génétiques et cytogénétiques. Ce processus se reflète probablement dans l'hétérogénéité cellulaire de la LMA mais reste mal caractérisé. Les technologies de séquençage de l'ARN sur cellule unique (scRNA-seq) ont permis d'explorer l'hétérogénéité phénotypique. Cependant, déduire l'hétérogénéité génotypique telle que les variantes sous-clonales d'un seul nucléotide (SNV) et les variations du nombre de copies (CNV) est très difficile en partie à cause de la rareté des données. Pour résoudre ce problème, nous avons développé un classificateur de forêt aléatoire pour annoter les cellules LMA. Nous avons développé un pipeline pour identifier les mutations liées à la LMA qui peuvent être détectées dans scRNA-seq. Nous avons combiné les données scRNA-seq avec les données de séquençage en « Bulk » d'exome appariées tumoraux et sains des mêmes échantillons pour définir la sous-structure clonale dans ces échantillons. Nous avons appliqué notre classificateur à plus de 130K cellules obtenues à partir de 20 patients LMA en utilisant le système 10X Genomics Chromium. Nous avons identifié 35 types cellulaires distincts, y compris un grand nombre de cellules de type HSPC. Dans cette cohorte, nous avons remarqué que des mutations dans les gènes NPM1, U2AF1, SMC3, EZH2, RAD21 et KRAS peuvent être détectées dans les données scRNA-seq à des occurrences allant de 0,02 % à 75 % de cellules mutées par échantillon. Dans huit échantillons, nous avons identifié des sous-populations de cellules tumorales portant de grandes CNV telles que les aneuploïdies des chromosomes 5 et 7. Ces aneuploïdies sont récurrentes et pertinentes sur le plan pronostique dans la LMA. Notre travail fournit un outil de recherche unique pour étudier la relation entre la diversité phénotypique et génotypique ; offrant de nouvelles perspectives sur le développement de la leucémie.Acute myeloid leukemias (AML) are a group of cancers resulting from the abnormal and incomplete differentiation of hematopoietic stem and progenitor cells (HSPC), following the sequential acquisition of various genetic and cytogenetic abnormalities. This process is likely reflected in the AML cellular heterogeneity but it remains poorly characterized. Single-cell RNA sequencing (scRNA-seq) technologies enabled the exploration of phenotypic heterogeneity. However, inferring the genotypic heterogeneity such as subclonal single nucleotide variants (SNV) and copy number variations (CNV) is highly challenging partly because of data sparsity. To address this, we developed a random forest classifier to annotate AML cells. We developed a pipeline to identify which of the known AML driver mutations can be detected in scRNA-seq. We combined scRNA-seq data with bulk tumoral and germline exomes data from the same samples to define the clonal substructure in these samples. We applied our classifier to over 130K cells obtained from 20 AML patients using the 10X Genomics Chromium system. We identified 35 distinct cell types including large numbers of HSPClike. In this cohort, we noticed that mutations in NPM1, U2AF1, SMC3, EZH2, RAD21 and KRAS genes can be detected in scRNA-seq data at occurrences ranging from 0.02% to 75% of mutated cells per sample. In eight samples, we identified sub-populations of tumor cells carrying large CNVs such as aneuploidies of chromosomes 5 and 7. These aneuploidies are recurrent and prognostically relevant in AML. Our work provides a unique research tool to investigate the relationship between phenotypic and genotypic diversity; offering novel insights into leukemia development

    Étude de la classification des bactériophages

    Get PDF
    Les bactériophages (i.e., virus de bactéries) constituent l'un des groupes d'organismes les plus abondants dans la biosphère. Ils jouissent d'une très grande biodiversité. Nos connaissances partielles de ces microorganismes sont sans cesse remises en cause par de nouvelles découvertes et le recensement est loin d'être terminé. Il existe bien des classifications basées sur les critères de morphologie et d'homologie génétique, mais celles-ci ne tiennent pas compte de l'évolution caractéristique des virus qui comprend à la fois la transmission verticale (évolution classique) et horizontale (évolution réticulée) de l'information. De plus, ces classifications ne disent rien à propos des ancêtres communs des espèces. Il y a donc beaucoup de possibilités d'affiner la taxonomie virale existante. Dans cette étude, nous présentons une nouvelle approche de classification des bactériophages, basée sur des méthodes heuristiques tirées des sciences cognitives de la catégorisation. Cette approche originale vise à reconstruire l'histoire évolutive des organismes viraux, en tenant compte de l'hypothèse d'évolution classique ainsi que l'hypothèse d'évolution réticulée, i.e., les transferts horizontaux de gènes (THG). En d'autres termes, la classification proposée prend en considération d'une part, l'approche traditionnelle d'analyse phylogénétique qui inclut la reconstruction d'arbres d'espèces par les méthodes de distances et d'inférence bayésienne et la reconstruction de séquences de protéines ancestrales par la méthode Tree-HMM en tenant compte des substitutions, des insertions et des délétions de caractères génétiques [Diallo et al. 2006 ; Felsenstein 1981], et d'autre part, l'approche de détection des transferts horizontaux par la méthode de réconciliation topologique de l'arbre d'espèces et l'arbre de gène [Makarenkov et al. 2008]. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Classification, Catégorisation, Phylogénie, Taxonomie, Virus, Bactériophages, Transferts horizontaux de gènes, Reconstruction ancestrale

    Etude de la spéciation chimique de la collection nationale de violettes et mise en place d'un agro-raffinage de la violette de Toulouse

    Get PDF
    Le projet « Viola Tolosa » a pour objectif de valoriser une plante produite en Occitanie, la violette et plus particulièrement l’emblématique violette de Toulouse, pour des domaines essentiellement non alimentaires tels que la chimie des substances naturelles et la cosmétique. Les violettes appartiennent au genre Viola qui comprend plus de 500 espèces. Aujourd’hui, leurs usages sont principalement limités à des aspects ornementaux et culinaires. Néanmoins, l’intérêt croissant de la part des acteurs de la filière (industriels, cultivateurs et académiques) a conduit la région Occitanie à mettre en place le projet Viola Tolosa intitulé « Spéciation chimique de la collection nationale des violettes et mise en place d’un agro-raffinage de la violette de Toulouse ». Il comporte quatre aspects interdisciplinaires associant aspects fondamentaux et applicatifs. La caractérisation de la centaine de plants de la collection de violettes détenue par les serres municipales de Toulouse, identifiée à 80% par des noms de cultivars ou vernaculaires, a été réalisée par l’intermédiaire d’études génétique et chimiotaxonomique. Une première étude génétique basée sur les séquences des espaces internes transcrits a permis de classer 58% de la collection au rang d’espèce. Cette étude phylogénétique a été complétée par une étude chimiotaxonomique à l’aide des profils chimiques des fractions volatiles des fleurs et non-volatiles des parties aériennes de la collection. Une projection orthogonale de structures latentes a permis d’indexer 96% de l’ensemble des plants par un nom d’espèce. L’étude des métabolites secondaires non volatils des feuilles a été entreprise dans le but d’étudier le potentiel biologique des violettes, notamment les activités antioxydante, antifongique et inductrice des réponses immunitaires des plantes. L’étude détaillée d’un extrait hydroalcoolique de la violette de Toulouse a permis d’identifier huit composés antioxydants de la famille des flavonoïdes et des coumarines, dont trois ont été caractérisés par RMN 1D et 2D et deux de novo dérépliqués par réseau moléculaire. L’application sur l’ensemble de la collection a ensuite permis d’identifier six composés antioxydants, dont deux coumarines et quatre flavonoïdes, prépondérants chez deux espèces. Une relation espèce-activité a donc été mise en évidence. Au niveau des activités antifongiques, réalisées sur cinq souches de champignons, et de défenses végétales, par l’intermédiaire de l’étude de l’expression du gène marqueur « pathogenesis-related protein 1 », les résultats sont plus ambigus. Cependant, certaines espèces ont présenté une activité plus prononcée que les autres et ce criblage a permis de poser une hypothèse forte quant à l’implication des cyclotides. Finalement, l’ensemble de ces travaux a permis d’obtenir une carte d’identité des violettes de la collection (identification génétique, profil chimique, potentiel biologique) et une description semi-quantitative de l’ensemble des groupes chimiques est proposée par combinaison des données chromatographiques du détecteur Corona (CAD) et des données spectrales. Différentes méthodes d’extraction (électroporation, micro-ondes, CO2 supercritique et extraction hydroalcoolique) répondant aux préceptes de la chimie verte ont ensuite été comparées afin de sélectionner celle présentant le meilleur compromis entre le cahier des charges cosmétiques et l’enrichissement en molécules d’intérêt, en vue d’un transfert technologique

    Quantification de la relation séquence-activité de l’ARN par prédiction de structure tridimensionnelle

    Full text link
    Dans un premier temps, nous avons modélisé la structure d’une famille d’ARN avec une grammaire de graphes afin d’identifier les séquences qui en font partie. Plusieurs autres méthodes de modélisation ont été développées, telles que des grammaires stochastiques hors-contexte, des modèles de covariance, des profils de structures secondaires et des réseaux de contraintes. Ces méthodes de modélisation se basent sur la structure secondaire classique comparativement à nos grammaires de graphes qui se basent sur les motifs cycliques de nucléotides. Pour exemplifier notre modèle, nous avons utilisé la boucle E du ribosome qui contient le motif Sarcin-Ricin qui a été largement étudié depuis sa découverte par cristallographie aux rayons X au début des années 90. Nous avons construit une grammaire de graphes pour la structure du motif Sarcin-Ricin et avons dérivé toutes les séquences qui peuvent s’y replier. La pertinence biologique de ces séquences a été confirmée par une comparaison des séquences d’un alignement de plus de 800 séquences ribosomiques bactériennes. Cette comparaison a soulevée des alignements alternatifs pour quelques unes des séquences que nous avons supportés par des prédictions de structures secondaires et tertiaires. Les motifs cycliques de nucléotides ont été observés par les membres de notre laboratoire dans l'ARN dont la structure tertiaire a été résolue expérimentalement. Une étude des séquences et des structures tertiaires de chaque cycle composant la structure du Sarcin-Ricin a révélé que l'espace des séquences dépend grandement des interactions entre tous les nucléotides à proximité dans l’espace tridimensionnel, c’est-à-dire pas uniquement entre deux paires de bases adjacentes. Le nombre de séquences générées par la grammaire de graphes est plus petit que ceux des méthodes basées sur la structure secondaire classique. Cela suggère l’importance du contexte pour la relation entre la séquence et la structure, d’où l’utilisation d’une grammaire de graphes contextuelle plus expressive que les grammaires hors-contexte. Les grammaires de graphes que nous avons développées ne tiennent compte que de la structure tertiaire et négligent les interactions de groupes chimiques spécifiques avec des éléments extra-moléculaires, comme d’autres macromolécules ou ligands. Dans un deuxième temps et pour tenir compte de ces interactions, nous avons développé un modèle qui tient compte de la position des groupes chimiques à la surface des structures tertiaires. L’hypothèse étant que les groupes chimiques à des positions conservées dans des séquences prédéterminées actives, qui sont déplacés dans des séquences inactives pour une fonction précise, ont de plus grandes chances d’être impliqués dans des interactions avec des facteurs. En poursuivant avec l’exemple de la boucle E, nous avons cherché les groupes de cette boucle qui pourraient être impliqués dans des interactions avec des facteurs d'élongation. Une fois les groupes identifiés, on peut prédire par modélisation tridimensionnelle les séquences qui positionnent correctement ces groupes dans leurs structures tertiaires. Il existe quelques modèles pour adresser ce problème, telles que des descripteurs de molécules, des matrices d’adjacences de nucléotides et ceux basé sur la thermodynamique. Cependant, tous ces modèles utilisent une représentation trop simplifiée de la structure d’ARN, ce qui limite leur applicabilité. Nous avons appliqué notre modèle sur les structures tertiaires d’un ensemble de variants d’une séquence d’une instance du Sarcin-Ricin d’un ribosome bactérien. L’équipe de Wool à l’université de Chicago a déjà étudié cette instance expérimentalement en testant la viabilité de 12 variants. Ils ont déterminé 4 variants viables et 8 létaux. Nous avons utilisé cet ensemble de 12 séquences pour l’entraînement de notre modèle et nous avons déterminé un ensemble de propriétés essentielles à leur fonction biologique. Pour chaque variant de l’ensemble d’entraînement nous avons construit des modèles de structures tertiaires. Nous avons ensuite mesuré les charges partielles des atomes exposés sur la surface et encodé cette information dans des vecteurs. Nous avons utilisé l’analyse des composantes principales pour transformer les vecteurs en un ensemble de variables non corrélées, qu’on appelle les composantes principales. En utilisant la distance Euclidienne pondérée et l’algorithme du plus proche voisin, nous avons appliqué la technique du « Leave-One-Out Cross-Validation » pour choisir les meilleurs paramètres pour prédire l’activité d’une nouvelle séquence en la faisant correspondre à ces composantes principales. Finalement, nous avons confirmé le pouvoir prédictif du modèle à l’aide d’un nouvel ensemble de 8 variants dont la viabilité à été vérifiée expérimentalement dans notre laboratoire. En conclusion, les grammaires de graphes permettent de modéliser la relation entre la séquence et la structure d’un élément structural d’ARN, comme la boucle E contenant le motif Sarcin-Ricin du ribosome. Les applications vont de la correction à l’aide à l'alignement de séquences jusqu’au design de séquences ayant une structure prédéterminée. Nous avons également développé un modèle pour tenir compte des interactions spécifiques liées à une fonction biologique donnée, soit avec des facteurs environnants. Notre modèle est basé sur la conservation de l'exposition des groupes chimiques qui sont impliqués dans ces interactions. Ce modèle nous a permis de prédire l’activité biologique d’un ensemble de variants de la boucle E du ribosome qui se lie à des facteurs d'élongation.Initially, we modeled the structure of an RNA family with a graph grammar to identify sequences that correspond to it. Several other modeling approaches have been developed to derive sequences, such as stochastic context-free grammars, covariance models, secondary structures profiles and constraint networks. These modeling methods are based on secondary structure compared to our graph grammars which are based on the nucleotide cyclic motifs. To exemplify our graph grammar model, we used the loop E of the ribosome that contains the Sarcin-Ricin motif that has been widely studied since its discovery by X-ray crystallography in the early 90s. We built a graph grammar for the structure of the Sarcin-Ricin motif and derived the sequences that correspond to it. The biological relevance of these sequences is supported by an alignment of 800 bacterial ribosomal sequences. This comparison raised alternative alignments for some of the sequences that we supported by predictions of secondary and tertiary structures. According to a new tertiary structure, those alternative alignments accommodate the new derived sequences. The nucleotide cyclic motifs used in the grammar were observed by members of our laboratory in RNA tertiary structures that were solved experimentally. We study the sequences and tertiary structures of the nucleotide cyclic motifs of the Sarcin-Ricin motif. This study suggests that the space of sequences depends heavily on interactions between all nucleotides in the nearby three-dimensional space and not only between two adjacent base pairs. We compare the number of sequences generated by the graph grammar with non contextual methods and our graph grammar generates less sequences. This suggests the importance of context for the relationship between sequence and structure, hence the use of a contextual graph grammar is more expressive than context-free grammars. The graph grammars we used include the tertiary structure but neglect the interactions with extra-molecular factors, such as other macromolecules or ligands. In a second stage and to take into account these interactions, we developed a model incorporating the positioning of chemical groups on the surface of the tertiary structures. The assumption being that the chemical groups that are conserved on the surface of the RNA in active sequences are more likely to be involved in interactions with extra-molecular factors. Continuing with the example of the loop E, we searched the groups that could be involved its interactions with elongation factors. Knowledge of the groups involved in the important interactions serves to predict by three-dimensional modeling new sequences that have potentials to realize these interactions and thus the same function. There are few models that have been developed to address this problem: molecular descriptors, nucleotide adjacency matrices and others based on thermodynamics. These models use an oversimplified representation of the RNA structure, which limits their applicability. We applied our model to the tertiary structures of a set of variants of a sequence of one instance of the Sarcin-Ricin motif from a bacterial ribosome. Wool and coworkers at the University of Chicago studied this proceeding experimentally by testing the viability of twelve variants. They identified four viable variants and eight lethal. We used this set of twelve sequences for training our model and we identified a set of essential properties to their biological function. For each variant of the training set we built models of tertiary structures. We then measured the partial charges of exposed atoms on the surface and we encoded this information into vectors. We used principal component analysis to transform the vectors into a set of uncorrelated variables, called principal components. Using the weighted Euclidean distance and a nearest neighbor algorithm, we applied the technique of "Leave-One-Out Cross-Validation" to choose the best parameters to predict the activity of a new sequence to match these principal components. Finally, we validated the predictive model using a new set of eight variants whose viability has been verified experimentally in our laboratory. In conclusion, graph grammars are used to model the relationship between sequence and structure of an RNA structural element, such as the ribosomal loop E containing the Sarcin-Ricin motif. Applications range from the correction of sequence alignment to sequence design with a predetermined structure. We also developed a model to take into account the specific interactions related to a specific biological function. Our model is based on the retention of the exposure of chemical groups that are involved in these interactions. This model has allowed us to predict the biological activity of a set of variants of the loop E that binds to elongation factors

    Analyse de données et modèle pour l'étude de la chromatine, des G-quadruplexes et de la réparation de l'ADN

    Get PDF
    Les cassures double brin de l'ADN (DSB) sont des lésions délétères qui peuvent survenir sur le génome suite à une exposition à des agents génotoxiques, mais aussi de façon endogène, parmi lesquelles la formation de structures secondaires de l'ADN, telles que les G-quadruplexes (G4). Des méthodes computationnelles antérieures ont été développées pour prédire les G4 en fonction de motifs spécifiques, mais des approches récentes, basées sur le séquençage à haut débit ont permis d'identifier les G4 à l'échelle du génome. J'ai développé un nouveau modèle de Deep Learning pour prédire les régions G4 actives en utilisant les séquences d'ADN et l'accessibilité de la chromatine. En utilisant ce modèle, nous avons identifié de nouveaux motifs prédicteurs, y compris des facteurs de transcription connus qui pourraient réguler directement ou indirectement l'activité des G4. Nous avons également cartographié des milliers de régions G4 actives qui peuvent être utilisées dans le traitement du cancer pour identifier des cibles potentielles de médicaments récents à base de ligand-G4. De plus, une fois induites sur le génome, les DSB déclenchent des modifications locales de la chromatine, comme la phosphorylation du variant d'histone H2AX (gammaH2AX) par la kinase ATM, pour former des foyers de réparation à l'échelle du mégabase. Comment ces domaines sont formés pour permettre la signalisation rapide des DSB, et comment ces changements locaux de la chromatine sont gérés par la cellule n'est pas encore bien connu. Nous avons découvert que le recrutement des composants de réparation et la phosphorylation de H2AX sont régis par des domaines topologiques associatifs (TAD) préexistants. De plus, nous avons mis en évidence un processus d'extrusion de boucle unidirectionnel médié par le complexe de cohésine des deux côtés des DSB, ce qui permet la formation de foyers de réparation par ATM. Nous avons également découvert qu'à grande échelle, les DSB peuvent former un nouveau compartiment "D" de chromatine, composé de domaines de chromatine décorés par gH2AX, mais aussi de gènes de la réponse aux dommages à l'ADN (DDR), suggérant un rôle du regroupement des DSB dans l'activation de la DDR.DNA Double-strand breaks (DSBs) are harmful lesions that can occur on the genome fol­lowing exposure to genotoxic agents but also due to endogenous causes, among which the formation of DNA secondary structures, such as G-quadruplexes (G4). Previous methods were developed to com­putationaly predict G4s based on specific motifs, and recent Next Generation Sequencing approaches identified G4 distribution genome-wide. I developed a novel Deep learning model to predict active G4 regions using the DNA sequences and chromatin accessibility. Using this model, we found new motifs predictors including known transcription factors that could regulate directly or indirectly G4s activity. We also mapped thousand of active G4s regions that can be used in cancer therapy to identify potential targets of recent G4-ligand drugs. Moreover, once induced on the genome, DSBs trigger local chromatin modifications including the phos­phorylation of the H2AX histone variant (gamma H2AX) by the ATM kinase, to form megabase-sized repair foci. How these domains are formed to enable rapid signaling of DSBs, and how these local chromatin changes are handled by the cell is still unclear. We found, that the recruitment of repair components and the phosphorylation of H2AX is governed by pre-existing Topologically Associating Domain (TADs). Moreover we discovered that an unidirectional loop-extrusion process mediated by the cohesin complex takes place on both side of the DSBs, which allow repair foci formation by ATM. We also found, at a global scale, that DSBs can form a novel "D" chromatin compartment, composed of gH2AX-decorated chromatin domains, but also of DNA damage responsive genes, suggesting a role of DSB clustering in activating the DNA Damage Response
    corecore