118 research outputs found

    Gene Ontology Function prediction in Mollicutes using Protein-Protein Association Networks

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>Many complex systems can be represented and analysed as networks. The recent availability of large-scale datasets, has made it possible to elucidate some of the organisational principles and rules that govern their function, robustness and evolution. However, one of the main limitations in using protein-protein interactions for function prediction is the availability of interaction data, especially for Mollicutes. If we could harness predicted interactions, such as those from a Protein-Protein Association Networks (PPAN), combining several protein-protein network function-inference methods with semantic similarity calculations, the use of protein-protein interactions for functional inference in this species would become more potentially useful.</p> <p>Results</p> <p>In this work we show that using PPAN data combined with other approximations, such as functional module detection, orthology exploitation methods and Gene Ontology (GO)-based information measures helps to predict protein function in <it>Mycoplasma genitalium</it>.</p> <p>Conclusions</p> <p>To our knowledge, the proposed method is the first that combines functional module detection among species, exploiting an orthology procedure and using information theory-based GO semantic similarity in PPAN of the <it>Mycoplasma </it>species. The results of an evaluation show a higher recall than previously reported methods that focused on only one organism network.</p

    A Genome-Scale Metabolic Reconstruction of Mycoplasma genitalium, iPS189

    Get PDF
    With a genome size of ∼580 kb and approximately 480 protein coding regions, Mycoplasma genitalium is one of the smallest known self-replicating organisms and, additionally, has extremely fastidious nutrient requirements. The reduced genomic content of M. genitalium has led researchers to suggest that the molecular assembly contained in this organism may be a close approximation to the minimal set of genes required for bacterial growth. Here, we introduce a systematic approach for the construction and curation of a genome-scale in silico metabolic model for M. genitalium. Key challenges included estimation of biomass composition, handling of enzymes with broad specificities, and the lack of a defined medium. Computational tools were subsequently employed to identify and resolve connectivity gaps in the model as well as growth prediction inconsistencies with gene essentiality experimental data. The curated model, M. genitalium iPS189 (262 reactions, 274 metabolites), is 87% accurate in recapitulating in vivo gene essentiality results for M. genitalium. Approaches and tools described herein provide a roadmap for the automated construction of in silico metabolic models of other organisms

    Insights on the virulence of swine respiratory tract mycoplasmas through genome-scale metabolic modeling

    Get PDF
    Background: The respiratory tract of swine is colonized by several bacteria among which are three Mycoplasma species: Mycoplasma flocculare, Mycoplasma hyopneumoniae and Mycoplasma hyorhinis. While colonization by M. flocculare is virtually asymptomatic, M. hyopneumoniae is the causative agent of enzootic pneumonia and M. hyorhinis is present in cases of pneumonia, polyserositis and arthritis. The genomic resemblance among these three Mycoplasma species combined with their different levels of pathogenicity is an indication that they have unknown mechanisms of virulence and differential expression, as for most mycoplasmas. Methods: In this work, we performed whole-genome metabolic network reconstructions for these three mycoplasmas. Cultivation tests and metabolomic experiments through nuclear magnetic resonance spectroscopy (NMR) were also performed to acquire experimental data and further refine the models reconstructed in silico. Results: Even though the refined models have similar metabolic capabilities, interesting differences include a wider range of carbohydrate uptake in M. hyorhinis, which in turn may also explain why this species is a widely contaminant in cell cultures. In addition, the myo-inositol catabolism is exclusive to M. hyopneumoniae and may be an important trait for virulence. However, the most important difference seems to be related to glycerol conversion to dihydroxyacetone-phosphate, which produces toxic hydrogen peroxide. This activity, missing only in M. flocculare, may be directly involved in cytotoxicity, as already described for two lung pathogenic mycoplasmas, namely Mycoplasma pneumoniae in human and Mycoplasma mycoides subsp. mycoides in ruminants. Metabolomic data suggest that even though these mycoplasmas are extremely similar in terms of genome and metabolism, distinct products and reaction rates may be the result of differential expression throughout the species. Conclusions: We were able to infer from the reconstructed networks that the lack of pathogenicity of M. flocculare if compared to the highly pathogenic M. hyopneumoniae may be related to its incapacity to produce cytotoxic hydrogen peroxide. Moreover, the ability of M. hyorhinis to grow in diverse sites and even in different hosts may be a reflection of its enhanced and wider carbohydrate uptake. Altogether, the metabolic differences highlighted in silico and in vitro provide important insights to the different levels of pathogenicity observed in each of the studied species

    Modélisation métabolique à l’échelle du génome de la bactérie quasi-minimale Mesoplasma florum

    Get PDF
    Des avancées significatives au niveau de la synthèse et de l’assemblage de fragments d’acide désoxyribonucléique (ADN), le support physique des fonctions cellulaires encodées dans une cellule vivante, permettent maintenant la construction de génomes entiers. Ce progrès permet d’imaginer que la conception d’organismes synthétiques deviendra routinière au cours des prochaines années. Cette capacité promet de transformer radicalement le domaine de la biologie en formant une nouvelle discipline d’ingénierie biologique. Parmi les retombées anticipées, on note le remplacement de synthèses chimiques par des procédés biologiques renouvelables tels que la production de biocarburants, la synthèse de médicaments microbiens, ou des approches alternatives pour le traitement des maladies. Dans ce contexte, il devient particulièrement important d’arriver à prédire correctement le phénotype résultant des génomes qui seront générés. Pour y arriver, il convient de réduire la complexité biologique en travaillant d’abord avec les cellules les plus simples possibles. Ce type d’organisme ayant subi un processus de réduction de génome et dont la majorité des gènes sont essentiels afin de survivre en conditions définies se nomme une cellule minimale. Le groupe phylogénétique des mollicutes, bactéries dépourvues de paroi cellulaire, contient les espèces vivant avec les plus petits génomes connus à ce jour. Membre de ce groupe, le pathogène humain Mycoplasma genitalium possède le plus petit génome capable de croissance autonome (560kbp codant pour 482 protéines. Cependant, sa pathogénicité et sa vitesse de croissance réduite (~24h) limitent l’applicabilité de M. genitalium en biologie synthétique. Pour remédier à ce problème, notre laboratoire a choisi de travailler avec Mesoplasma florum dont le temps de doublement est très rapide (~32 min) et qui ne cause pas de maladies chez l’humain. Les travaux effectués chez M. florum permettent maintenant le clonage et la transplantation de son génome et des travaux récents ont permis de caractériser les propriétés physico-chimiques de sa cellule ainsi que plusieurs paramètres biologiques. Afin de permettre la conception de génomes synthétiques basés sur M. florum, il convient d’intégrer un maximum de connaissances dans un cadre informatique structuré capable de générer des prédictions phénotypiques. Un modèle métabolique à l’échelle du génome (GEM) reposant sur la méthode d’analyse des flux à l’équilibre (FBA) représente un format particulièrement intéressant pour initier ces travaux de biologie des systèmes. La qualité des prédictions générées par ce type de modèle est dépendante de la précision de l’objectif à atteindre. Pour simuler la croissance, les GEMs doivent satisfaire un objectif nommé “fonction objective de biomasse” (BOF) qui contient l’ensemble des métabolites nécessaires à la production d’une nouvelle cellule avec des coefficients stœchiométriques représentatifs de l’abondance de ces composantes dans la cellule. Pendant mon parcours de doctorat, j’ai développé le logiciel BOFdat qui permet la définition d’une BOF représentative de la composition cellulaire spécifique à une espèce avec les données expérimentales associées. Les deux premières des trois étapes de BOFdat déterminent les coefficients stoechiométriques de molécules connues pour faire partie de la composition cellulaire telles que les macromolécules principales (étape 1, ADN, ARN et protéines) et les coenzymes essentiels (étape 2). L’étape 3 de BOFdat propose une méthode non-biaisée pour déterminer les métabolites susceptibles d’améliorer la prédiction d’essentialité des gènes formulée par le modèle. Pour ce faire, un algorithme génétique maximise la composition de la biomasse en fonction des données d’essentialité expérimentales à l’échelle du génome. BOFdat a été validé en reconstruisant la BOF du modèle iML1515 de la bactérie modèle Escherichia coli. L’utilisation de BOFdat a permis de récapituler le taux de croissance prédit avec la BOF originale tout en améliorant la qualité des prédictions d’essentialité de gènes de iML1515. BOFdat est disponible en libre accès pour quiconque désire construire une BOF pour un modèle métabolique. Ensuite, un GEM nommé iJL208 a été produit et contient 208 des 676 protéines représentant l’ensemble du métabolisme de M. florum. La qualité de l’annotation du génome a d’abord été évaluée en intégrant l’information obtenue par trois approches bio-informatiques, révélant que la majorité des protéines (418/676) ont une qualité suffisante pour être incorporées dans le modèle. Ensuite, les réactions ont été identifiées et rigoureusement incorporées une à la fois afin de construire le réseau métabolique de cette bactérie quasi-minimale. L’étude de la carte métabolique reconstruite révèle une dépendance prononcée pour l’import de composantes à partir du milieu de culture ainsi que l’importance des mécanismes de recyclage des métabolites. Pour sa production d’énergie, M. florum est entièrement dépendante de la glycolyse et ne possède pas la machinerie nécessaire à la respiration cellulaire. L’élaboration d’un milieu de culture semi-défini a réduit la présence de sucres contaminants dans le milieu de culture initial et ainsi de distinguer la croissance avec ou sans supplémentation de sucrose. Cette avancée importante a permis de mesurer les taux d’assimilation de sucrose et de production des déchets métaboliques lactate et acétate. Ces paramètres ont été utilisés afin de contraindre le modèle et de mieux comprendre la sensibilité du modèle à une variété de paramètres. Aussi, la croissance de M. florum a pu être validée expérimentalement avec différents sucres. L’information contextuelle obtenue, combinée à une analyse de structures tridimensionnelles de protéines clés, a permis de suggérer des hypothèses crédibles supportant l’assimilation de ces sucres par M. florum. Finalement, iJL208 a été utilisé afin de formuler une prédiction de génome minimal pour M. florum en simulant itérativement de larges délétions dans son génome. Combiner l’intégration de données expérimentales avec les prédictions du modèle constitue une voie d’avenir pour la conception de génomes synthétiques qui rejoint les capacités techniques d’assemblage de chromosomes en biologie synthétique. Globalement, les projets réalisés au cours de mon doctorat contribuent à l’avancement de la biologie des systèmes chez M. florum dans le but de prédire efficacement les phénotypes de la souche naturelle et de variants synthétiques qui pourront être produits au cours des prochaines années

    Systematic analysis of experimental phenotype data reveals gene functions

    Get PDF
    High-throughput phenotyping projects in model organisms have the potential to improve our understanding of gene functions and their role in living organisms. We have developed a computational, knowledge-based approach to automatically infer gene functions from phenotypic manifestations and applied this approach to yeast (Saccharomyces cerevisiae), nematode worm (Caenorhabditis elegans), zebrafish (Danio rerio), fruitfly (Drosophila melanogaster) and mouse (Mus musculus) phenotypes. Our approach is based on the assumption that, if a mutation in a gene [Image: see text] leads to a phenotypic abnormality in a process [Image: see text], then [Image: see text] must have been involved in [Image: see text], either directly or indirectly. We systematically analyze recorded phenotypes in animal models using the formal definitions created for phenotype ontologies. We evaluate the validity of the inferred functions manually and by demonstrating a significant improvement in predicting genetic interactions and protein-protein interactions based on functional similarity. Our knowledge-based approach is generally applicable to phenotypes recorded in model organism databases, including phenotypes from large-scale, high throughput community projects whose primary mode of dissemination is direct publication on-line rather than in the literature

    Cross-Genome Comparisons of Newly Identified Domains in Mycoplasma gallisepticum and Domain Architectures with Other Mycoplasma species

    Get PDF
    Accurate functional annotation of protein sequences is hampered by important factors such as the failure of sequence search methods to identify relationships and the inherent diversity in function of proteins related at low sequence similarities. Earlier, we had employed intermediate sequence search approach to establish new domain relationships in the unassigned regions of gene products at the whole genome level by taking Mycoplasma gallisepticum as a specific example and established new domain relationships. In this paper, we report a detailed comparison of the conservation status of the domain and domain architectures of the gene products that bear our newly predicted domains amongst 14 other Mycoplasma genomes and reported the probable implications for the organisms. Some of the domain associations, observed in Mycoplasma that afflict humans and other non-human primates, are involved in regulation of solute transport and DNA binding suggesting specific modes of host-pathogen interactions

    Caractérisation intégrative et développement d’outils moléculaires chez la bactérie "Mesoplasma florum"

    Get PDF
    L’émergence de la biologie synthétique marque l’entrée dans une nouvelle ère où il sera possible de modifier et reprogrammer des génomes entiers afin de répondre à des besoins spécifiques. Ce domaine de recherche est par conséquent appelé à jouer un rôle de premier plan dans le développement de nouvelles technologies visant à s’attaquer à certains des plus grands défis du 21e siècle tels que la multirésistance aux antibiotiques, la production d’énergies renouvelables et le traitement de maladies comme le cancer ou le diabète. Notre habileté actuelle à programmer des comportements cellulaires prévisibles est cependant très limitée, principalement parce que les organismes modèles couramment utilisés possèdent une complexité qui dépasse nos capacités d’analyse et que les règles fondamentales qui gouvernent le fonctionnement global des cellules demeurent encore mal comprises. En raison de leurs génomes remarquablement petits, les bactéries appartenant à la classe des Mollicutes représentent des candidats particulièrement intéressants afin de décortiquer le fonctionnement intégral de cellules via les approches intégratives de la biologie des systèmes et de la génomique synthétique. La majorité de ces microorganismes sont toutefois caractérisés par un style de vie parasitaire, des capacités métaboliques réduites et une croissance relativement lente nécessitant l’utilisation de milieux de culture complexes. Conjointement au manque d’outils génétiques efficaces, ces caractéristiques restreignent considérablement leur manipulation en laboratoire. Certains Mollicutes se démarquent néanmoins en tant qu’organismes modèles pour l’avancement de la biologie synthétique et de la biologie des systèmes. C’est le cas pour Mesoplasma florum, une bactérie étroitement apparentée aux mycoplasmes du groupe de Mycoplasma mycoides (mycoides cluster). Contrairement à la plupart des mycoplasmes, M. florum ne possède aucun pouvoir pathogène connu et croît rapidement en conditions de laboratoire. De plus, M. florum possède un génome comprenant seulement 793 224 paires de bases et 685 séquences codantes pour des protéines, ce qui positionne cette bactérie parmi les organismes à réplication autonome les plus simples connus à ce jour. Malgré ces avantages considérables, seulement quelques études avaient jusqu’à tout récemment spécifiquement exploré la biologie de M. florum, et ce même si sa découverte remonte à près de 40 ans. Ainsi, lors du commencement de mon doctorat, plusieurs aspects importants concernant ce microorganisme demeuraient toujours à définir. Par exemple, pratiquement aucune donnée quantitative sur la physiologie de cette bactérie était à ce moment-là disponible dans la littérature, et aucune étude sur l’expression de ses gènes n’avait encore été entreprise. De plus, très peu voire même aucun outil moléculaire n’était disponible afin de modifier le génome de M. florum, ce qui constituait une limitation technique importante à l’étude de la biologie de cet organisme, en plus de restreindre son utilisation en tant que châssis cellulaire pour l’ingénierie microbienne et le développement d’applications biotechnologiques. Face à cette problématique, j’ai tout d’abord développé un système de culture en continu flexible et peu dispendieux permettant de faire croître M. florum dans des conditions contrôlées, stables et hautement reproductibles. Cet appareil offre plusieurs modes de fonctionnement pour accommoder les différents besoins rencontrés en laboratoire, et nous avons rendu les détails de sa conception entièrement disponibles pour l’ensemble de la communauté scientifique. En diminuant les fluctuations physiologiques des cellules, ce système de culture permet de réduire les variations expérimentales lors de l’étude de M. florum, et ainsi de générer des données plus facilement interprétables et comparables entre expériences. J’ai ensuite développé les tout premiers plasmides spécifiquement conçus pour se répliquer chez M. florum. Basés sur l’origine de réplication du chromosome, ces plasmides ont permis de tester la fonctionnalité de différents marqueurs de sélection aux antibiotiques, en plus de mettre au point différentes méthodes de transformation pour cette bactérie. Grâce à leur tendance naturelle à recombiner avec le chromosome, ces plasmides ont d’ailleurs servi de fondement à la technique développée par notre laboratoire afin de cloner le génome complet de M. florum dans la levure. Cette souche de levure peut maintenant servir de plateforme afin de modifier efficacement le génome de M. florum et ensuite le transplanter dans une cellule réceptrice. Finalement, j’ai procédé à la caractérisation approfondie de cette bactérie quasi minimale en combinant différentes méthodes expérimentales et approches intégratives. Cette caractérisation intégrative comprend la mesure de plusieurs aspects physiques et physiologiques propres à M. florum, incluant son temps de doublement, diamètre cellulaire, masse cellulaire sèche, ainsi que la définition des fractions macromoléculaires de celle-ci. J’ai également réalisé les premières analyses du transcriptome et du protéome de ce microorganisme afin de définir les unités transcriptionnelles, estimer les abondances moléculaires absolues de chacun des transcrits et protéines exprimées, de même qu’évaluer l’importance globale des fonctions cellulaires prédites. En plus d’augmenter nos connaissances fondamentales sur différents aspects de la biologie de M. florum, ces efforts de caractérisation serviront de fondation pour le développement d’un modèle à l’échelle du génome décrivant le métabolisme de cette bactérie. L’ensemble de ces efforts visent à acquérir les connaissances et les outils moléculaires nécessaires afin de transformer M. florum en une plateforme simplifiée, hautement caractérisée et spécialement conçue pour explorer les règles gouvernant l’organisation et la plasticité des génomes, ainsi que les mécanismes cellulaires à la base du fonctionnement des cellules. Une telle plateforme a le potentiel de transformer la biologie synthétique en une discipline logique, prévisible et reproductible, rendant ainsi possible le prototypage rationnel et efficace de génomes dans le but de produire des souches bactériennes capables d’accomplir des tâches bien précises

    LocateP: Genome-scale subcellular-location predictor for bacterial proteins

    Get PDF
    Contains fulltext : 69477.pdf ( ) (Open Access)BACKGROUND: In the past decades, various protein subcellular-location (SCL) predictors have been developed. Most of these predictors, like TMHMM 2.0, SignalP 3.0, PrediSi and Phobius, aim at the identification of one or a few SCLs, whereas others such as CELLO and Psortb.v.2.0 aim at a broader classification. Although these tools and pipelines can achieve a high precision in the accurate prediction of signal peptides and transmembrane helices, they have a much lower accuracy when other sequence characteristics are concerned. For instance, it proved notoriously difficult to identify the fate of proteins carrying a putative type I signal peptidase (SPIase) cleavage site, as many of those proteins are retained in the cell membrane as N-terminally anchored membrane proteins. Moreover, most of the SCL classifiers are based on the classification of the Swiss-Prot database and consequently inherited the inconsistency of that SCL classification. As accurate and detailed SCL prediction on a genome scale is highly desired by experimental researchers, we decided to construct a new SCL prediction pipeline: LocateP. RESULTS: LocateP combines many of the existing high-precision SCL identifiers with our own newly developed identifiers for specific SCLs. The LocateP pipeline was designed such that it mimics protein targeting and secretion processes. It distinguishes 7 different SCLs within Gram-positive bacteria: intracellular, multi-transmembrane, N-terminally membrane anchored, C-terminally membrane anchored, lipid-anchored, LPxTG-type cell-wall anchored, and secreted/released proteins. Moreover, it distinguishes pathways for Sec- or Tat-dependent secretion and alternative secretion of bacteriocin-like proteins. The pipeline was tested on data sets extracted from literature, including experimental proteomics studies. The tests showed that LocateP performs as well as, or even slightly better than other SCL predictors for some locations and outperforms current tools especially where the N-terminally anchored and the SPIase-cleaved secreted proteins are concerned. Overall, the accuracy of LocateP was always higher than 90%. LocateP was then used to predict the SCLs of all proteins encoded by completed Gram-positive bacterial genomes. The results are stored in the database LocateP-DB http://www.cmbi.ru.nl/locatep-db1. CONCLUSION: LocateP is by far the most accurate and detailed protein SCL predictor for Gram-positive bacteria currently available
    corecore