9 research outputs found

    Systems biology of degenerative diseases

    Get PDF

    Développement d’une méthode bio-informatique permettant de relier les gènes aux métabolites

    Get PDF
    L’objectif de ce projet était de faire le lien entre gènes et métabolites afin d’éventuellement proposer des métabolites à mesurer en lien avec la fonction de gènes. Plus particulièrement, nous nous sommes intéressés aux gènes codant pour des protéines ayant un impact sur le métabolisme, soit les enzymes qui catalysent les réactions faisant partie intégrante des voies métaboliques. Afin de quantifier ce lien, nous avons développé une méthode bio-informatique permettant de calculer la distance qui est définie comme le nombre de réactions entre l’enzyme encodée par le gène et le métabolite dans la carte globale du métabolisme de la base de données Kyoto Encyclopedia of Genes and Genomes (KEGG). Notre hypothèse était que les métabolites d’intérêt sont des substrats/produits se trouvant à proximité des réactions catalysées par l’enzyme encodée par le gène. Afin de tester cette hypothèse et de valider la méthode, nous avons utilisé les études d’association pangénomique combinées à la métabolomique (mGWAS) car elles rapportent des associations entre variants génétiques, annotés en gènes, et métabolites mesurés. Plus précisément, la méthode a été appliquée à l’étude mGWAS par Shin et al. Bien que la couverture des associations de Shin et al. était limitée (24/299), nous avons pu valider de façon significative la proximité entre gènes et métabolites associés (P<0,01). En somme, cette méthode et ses développements futurs permettront d’interpréter de façon quantitative les associations mGWAS, de prédire quels métabolites mesurer en lien avec la fonction d’un gène et, plus généralement, de permettre une meilleure compréhension du contrôle génétique sur le métabolisme.The objective of this project was to link genes and metabolites in order to ultimately predict which metabolites to measure in order to adequately reflect the function of a given gene. Specifically, we were interested in genes, which code for proteins that regulate substrate metabolism, hence enzymes that catalyze reactions that are part of metabolic pathways. In order to quantify this link, we have developed a bioinformatics method to calculate a distance, which is defined as the number of reactions separating a given selected gene-encoded enzyme and its metabolite of interest in Kyoto Encyclopedia of Genes and Genomes (KEGG) database’s metabolic overview map. Our hypothesis was that metabolites of interest are products/substrates found at proximity of the reactions catalyzed by the selected gene-encoded enzyme. In order to test our hypothesis and validate the method, we have used genome-wide association study of metabolites levels (mGWAS) because these studies report associations between genetic variants, annotated to genes, and measured metabolites. More specifically, we used the mGWAS conducted by Shin et al. Even though the coverage of the associations reported by Shin et al. was limited (24/299), we significantly validated the proximity between gene-metabolite associated pairs (P<0.01). Overall, the method and its future developments will allow the quantitative interpretation of mGWAS associations, predict which metabolite to measure with regards to the function of a gene and, in general, enable a better understanding of the genetic control of metabolism

    Développement d’un outil bio-informatique pour l’annotation des associations entre gènes et métabolites basée sur les voies métaboliques

    Full text link
    La métabolomique permet l’étude de l’ensemble des métabolites (ex : lipides, sucres, acides aminés) par le biais d’une variété d’outils analytiques et de protocoles expérimentaux qui engendre des coûts importants. Actuellement aucun laboratoire ne peut analyser l’ensemble des métabolites. C'est pourquoi, il est crucial de pouvoir prédire des classes de métabolites pertinentes à analyser en lien avec le phénotype étudié. Toutefois, il n’existe actuellement pas d’outil bio-informatique idéale pour accomplir cette tâche. Dans le cadre de ce projet, l’objectif était de développer un outil bio-informatique afin de prédire les métabolites pertinents à analyser en se basant sur la connaissance seule de l’architecture génétique du phénotype étudié. Afin d'atteindre notre objectif, nous avons posé l’hypothèse que les gènes encodant des enzymes catalysant des réactions métaboliques, modulent la concentration des métabolites à leur proximité dans les voies métaboliques. Cette hypothèse a été testée en calculant le court chemin réactionnel (srd - sorthest reactional path) entre les gènes (SNPs annotés à leur gène putatif) et les métabolites faisant partie des associations statistiques provenant du jeu de données mGWAS de Shin et al. en les cartographiant sur le réseau métabolique de la base de données KEGG. Des 79 associations impliquant un gène encodant une enzyme, 49 ont été annotées par une valeur srd, dont la valeur médiane est de 1. C’est-à-dire, qu'il existe une réaction entre le gène et son métabolite associé, ce qui indique que l'expression du gène peut avoir une influence importante sur la concentration du métabolite. L’annotation majoritaire de courte valeur srd pour les associations statistiques de Shin et al. démontre la pertinence de cette métrique pour définir un profil métabolique à analyser en fonction de l’architecture génétique. En revanche, le manque au niveau de la couverture de l'annotation de l’ensemble des associations pourrait être amélioré en appliquant la méthode avec d'autres bases de données, notamment, Recon2. En somme, PathQuant avec ses futurs développements représente un outil intéressant pour la prédiction d’un profil métabolique à analyser en fonction de l’architecture génétique d’un phénotype donné, en plus de préciser notre compréhension du contrôle des gènes sur le métabolisme.Metabolomic enables the investigation of metabolites belonging to different chemical classes (ex: lipids, sugars, amino acids) which requires various methodologies and analytical tools. The current bottleneck is the impossibility to investigate every metabolite classes within one metabolic study or using one protocol. Thus, it is crucial to develop methods and tools to predict metabolites or metabolite classes to analyze for a given phenotype. The aim of this study was to develop a bioinformatic tool to prioritize metabolites to analyze based on the genomic architecture of a given phenotype. To achieve our goal, we hypothesized that genes encoding enzymes catalyzing metabolic reactions have an impact on the metabolite levels that are near them in metabolic pathways. We developed a method to compute the shortest reactional distance (srd) between a gene and a metabolite mapped on the metabolic pathways of the KEGG database. To test our method, we applied it to a dataset of statistical associations between genes (SNPs annotated to their putative gene) and metabolites reported by the mGWAS study of Shin et al. We mapped and annotated an srd value for 49 of the 79 associations involving a gene encoding an enzyme and a metabolite of that dataset with a median value of 1. Meaning there is only one reaction separating the gene from the associated metabolite. This indicates the genes could have a significant impact on metabolite levels. On the other hand, the lack of coverage of the associations could be improved by applying the method to other databases, in particular, Recon2. In conclusion, PathQuant and its future developments represent a relevant tool to predict a metabolic profil to analyze based on the genomic architecture of a given phenotype, in addition, it can improve the understanding of the genes control on metabolism

    Méthodes sémantiques pour la comparaison inter-espèces de voies métaboliques (application au métabolisme des lipides chez l'humain, la souris et la poule)

    Get PDF
    La comparaison inter-espèces de voies métaboliques est une problématique importante en biologie. Actuellement, les connaissances sont générées à partir d'expériences sur un nombre relativement limité d'espèces dites modèles. Mieux connaître une espèce permet de valider ou non une inférence faite à partir de ces données expérimentales et de déterminer si ou dans quelle mesure des résultats obtenus sur une espèce modèle peuvent être transposés à une autre espèce. Cette thèse propose une méthode de comparaison inter-espèces de voies métaboliques. Elle compare chaque étape d'une voie métabolique en exploitant les annotations dans Gene Ontology qui leur sont associées. Ce travail valide l'intérêt des mesures de similarités sémantiques pour interpréter ces annotations, propose d'utiliser conjointement une mesure de particularité sémantique et propose une méthode basée sur des motifs de similarité et de particularité pour interpréter chaque étape de voie métabolique. De nombreuses mesures sémantiques quantifient la similarité entre des produits de gènes en fonction des annotations qu'ils ont en commun. Nous en avons identifié et utilisé une adaptée à la problématique de comparaison inter-espèces. En se focalisant sur la part commune aux produits de gènes comparés, les mesures de similarité sémantiques ignorent les caractéristiques spécifiques d'un seul produit de gène. Or la comparaison inter-espèces de voies métaboliques se doit de quantifier non seulement la similarité des produits de gènes qui interviennent dans celles-ci, mais également leurs particularités. Nous avons développé une mesure de particularité sémantique répondant à cette problématique. Pour chaque étape de voie métabolique, nous calculons un profil composé de sa valeur de similarité et de ses deux valeurs de particularité sémantiques. Il n'est pas possible d'établir formellement que deux produits de gènes sont similaires ou que l'un d'eux a des particularités significatives sans disposer d'un seuil de similarité et d'un seuil de particularité. Jusqu'à présent, ces interprétations se faisaient sur la base d'un seuil implicite ou arbitraire. Pour combler ce manque, nous avons développé une méthode de définition de seuils pour les mesures de similarité et de particularité sémantiques. Nous avons enfin appliqué une mesure de similarité inter-espèces et notre mesure de particularité pour comparer le métabolisme des lipides entre l'Homme, la souris et la poule. Nous avons pu interpréter les résultats à l'aide des seuils que nous avions définis. Chez les trois espèces, des particularités ont pu être observées, y compris au niveau de produits de gènes similaires. Elles concernent notamment des processus biologiques et des composants cellulaires. Les fonctions moléculaires présentent une forte similarité et peu de particularités. Ces résultats sont biologiquement pertinents.Cross-species comparison of metabolic pathways is an important task in biology. It is a major stake for both human health and agronomy. Currently, knowledge is acquired from some experiments on a relatively low number of species referred to as models''. A better understanding of a species determines whether to validate or not an inference made from these experimental data. It also determines whether or to what extent results obtained on model species can be transposed to another species. This thesis proposes a cross-species metabolic pathways comparison method. Our method compares each step of a metabolic pathway using the associated Gene Ontology annotations. This work validates the interest of the semantic similarity measures for interpreting these annotations, proposes to use jointly a semantic particularity measure and proposes a method based on similarity and particularity patterns to interpret each metabolic pathway step. Several gene products are involved throughout a metabolic pathway. They are associated to some annotations in order to describe their biological roles. Based on a shared ontology, these annotations allow to compare data from different species and to take into account several level of abstraction. Several semantic measures quantifying the similarity between gene products from their annotations have been developed previously. We have identified and used a semantic similarity measure appropriate for cross-species comparisons. Because they focus on the common part of the compared gene products, the semantic similarity measures ignore their specific characteristics. Therefore, cross-species metabolic pathways comparison has to quantify not only the similarity of the gene products involved, but also their particularity. We have developed a semantic particularity measure addressing this issue. For each pathway step, we proposed to create a profile combining its semantic similarity and its two semantic particularity values. Concerning the results interpretation, it is not possible to establish formally that two gene products are similar or that one of them have some significant particularities without having a similarity threshold and a particularity threshold. So far, these interpretations were based on an implicit or an arbitrary threshold. To address this gap, we developed a threshold definition method for the semantic similarity and particularity measures. We last applied a cross-species similarity measure and our particularity measure to compare the lipid metabolism between human, mice and chicken. We then interpreted the results using the previously defined thresholds. In all three species, we observed some particularities, including on similar genes. They concerned notably some biological processes and cellular components. The molecular functions present a strong similarity and few particularities. These results are biologically relevant.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

    Knowledge representation in metabolic pathway databases

    No full text
    The accurate representation of all aspects of a metabolic network in a structured format, such that it can be used for a wide variety of computational analyses, is a challenge faced by a growing number of researchers. Analysis of five major metabolic pathway databases reveals that each database has made widely different choices to address this challenge, including how to deal with knowledge that is uncertain or missing. In concise overviews, we show how concepts such as compartments, enzymatic complexes and the direction of reactions are represented in each database. Importantly, also concepts which a database does not represent are described. Which aspects of the metabolic network need to be available in a structured format and to what detail differs per application. For example, for in silico phenotype prediction, a detailed representation of gene-protein-reaction relations and the compartmentalization of the network is essential. Our analysis also shows that current databases are still limited in capturing all details of the biology of the metabolic network, further illustrated with a detailed analysis of three metabolic processes. Finally, we conclude that the conceptual differences between the databases, which make knowledge exchange and integration a challenge, have not been resolved, so far, by the exchange formats in which knowledge representation is standardized
    corecore