thesis

Détection des ARNnc dans les séquences génomiques. Application au génome de Ralstonia solanacearum

Abstract

Les ARN non-codant sont des régulateurs clés des divers processus cellulaires, chez les procaryotes et les eucaryotes. Malgré le grand nombre des ARN non-codant connus à ce jour il n'existe pas de méthode bioinformatique universelle permettant leur détection. Il est connu que, dans les genomes archéans A+T riches hyperthermophiles, la détection est possible à l'aide de leur composition en G+C elevée dans ces génomes. Ici nous étudions l'approche par biais de composition pour la détection des ARN non-codant dans le génome G+C riche de Ralstonia solanacearum pour lequel aucun étude de recherche des ARNnc n'a pas été menée à ce jour. Nous étudions tout d'abord l'existence d'un biais de composition dans les ARNnc du génome A+T riche de Staphylococcus aureus. D'un point de vue méthodologique, ce travail propose une procédure pour tester l'existence d'un biais en G+C dans différents éléments génomiques. La procédure est basée sur la theorie des Modeles Lineaires Generalises. Nous montrons que les ARNnc de S. aureus ensemble avec certaines séquences repetées, sont caracterisées par le G+C% plus elevée et ceci peut être utilisé pour leur détection. La même approche à été utilisée avec moins de succès sur le génome de R. somanacearum. De façon complémentaire a l'approche par biais de composition, nous avons utilise l'analyse comparative des différentes souches de R. solanacearum pour la détection des ARNnc conserves. Nous avons développe la nouvelle version de RNAsim, un outil utilisant la théorie des graphes pour identifier les régions intergeniques conservées entre plusieurs génomes. Les candidats choisis a l'aide de l'approche comparative ont été analyses par rapport a la conservation de leur structure secondaire, éléments de syntenie etc. afin d'évaluer leur pertinence biologique. Huit candidats ont été sélectionnes et ils seront testes biologiquement.Recently, noncoding RNAs (ncRNAs) have emerged as key regulators in control of diverse cellular processes both in procaryotes and eucaryotes. Despite a great number of noncoding RNA known today, no universal feature allowing their reliable prediction has been found. Nevertheless, it is known that in archean A+T rich thermophiles ncRNA detection is possible on the basis on their elevated G+C contents. On the other hand, there are no studies exploring the compositional properties of noncoding RNA in G+C rich genomes. Here we study the noncoding RNA detection in Ralstonia solanacearum G+C rich beta-proteobacterium in which no previous systematic search of noncoding RNAs had been undertaken.e first studied the existence of the compositional bias in ncRNAs in A+T rich bacterium Staphylococcus aureus. From the methodological point of view, this work resulted in proposition of a procedure for testing the G+C bias in different genomes features, and noncoding RNA in particular, based on the Generalised Linear Modelling. We show that S. aureus ncRNAs, as well as some repeat sequences, are caracterised by a significant compositional bias which can be used for their detection. The same approach was less succesiful when applied on R. solanacearum genome. Complementary to the compositional bias approach, we used the comparative genome analysis between different strains of R. solanacearum in order to detect conserved noncoding RNA. During this work, we developed a new version of RNAsim, a tool using graph theory approach in order to predict conserved intergenic regions in multiple genomes. The candidates selectionned on their conservation were analysed on the basis of their secondary structure conservation, elements of synteny and other features, in order to determine their biological relevance. Eight candidates were selected and theirtranscription will be tested biologically

    Similar works