11 research outputs found

    Novel approaches to the integration and analysis of systems biology data

    Get PDF
    The opportunity to investigate whole cellular systems using experimental and computational high-throughput methods leads to the generation of unprecedented amounts of data. Processing of these data often results in large lists of genes or proteins that need to be analyzed and interpreted in the context of all other biological information that is already available. To support such analyses, repositories aggregating and merging the biological information contained in different databases are required. To address this need, we created an integrative data warehouse containing millions of up-to-date annotations related to human genes and proteins from over thirty major molecular biology databases. In particular, this data warehouse was instrumental in assessing the data quality of human protein interactions and in predicting an important, but largely unidentified, group of proteins that function as molecular scaffolds in the formation of signaling cascades. Additionally, the data warehouse enabled us to devise the novel computational method BioSim for the discovery of biological relationships based on the functional similarity of gene and protein annotations. Furthermore, we showed how this method allows identifying disease-associated genes. To facilitate the analysis and interpretation of large lists of genes or proteins derived from high-throughput methods, we built the new web portal BioMyn. It provides a powerful search engine with public access to the data warehouse and the BioSim method. BioMyn also offers a number of useful tools for own functional enrichment analysis and the visualization of the results.Die Möglichkeit, ganze zellulĂ€re Systeme mit experimentellen und computerbasierten Hochdurchsatz-Methoden zu erforschen, fĂŒhrt zur Generierung beispielloser Datenmengen. Die Verarbeitung dieser Daten ergibt oft große Listen von Genen oder Proteinen, die im Kontext all der anderen bereits vorhandenen, biologischen Informationen analysiert und interpretiert werden mĂŒssen. Um solche Analysen zu unterstĂŒtzen, werden Datensammlungen benötigt, die die in verschiedenen Datenbanken enthaltenen biologischen Informationen zusammenfĂŒhren und verknĂŒpfen. Um diesem Bedarf Rechnung zu tragen, wurde ein integratives Data-Warehouse angelegt, das Millionen aktueller Annotationen bezĂŒglich humaner Gene und Proteine aus ĂŒber dreißig wichtigen Datenbanken der Molekularbiologie beinhaltet. Insbesondere war dieses Data-Warehouse nĂŒtzlich bei der Bewertung der DatenqualitĂ€t humaner Proteininteraktionen und bei der Vorhersage einer bedeutenden, jedoch grĂ¶ĂŸtenteils unidentifizierten Gruppe von Proteinen, die als molekulares GerĂŒst der Bildung von Signalkaskaden dienen. Zudem ermöglichte es das Data-Warehouse, die neuartige Computermethode BioSim zur Aufdeckung biologischer Ähnlichkeiten, basierend auf funktionellen Ähnlichkeiten von Gen- und Proteinannotationen, zu entwickeln. Des Weiteren wurde gezeigt, wie diese Methode die Identifizierung krankheitsassoziierter Gene erlaubt. Um die Analyse und Interpretation großer Listen von Genen oder Proteinen, die aus Hochdurchsatz-Methoden stammen, zu erleichtern, wurde das neue Webportal BioMyn geschaffen. Es bietet eine starke Suchmaschine, die das Data-Warehouse und die BioSim-Methode öffentlich zugĂ€nglich macht. Auch stellt BioMyn eine Reihe praktischer Tools fĂŒr eigene Funktionsanalysen und die Visualisierung der Ergebnisse zur VerfĂŒgung

    Protein Function Easily Investigated by Genomics Data Mining Using the ProteINSIDE Online Tool

    Get PDF

    Conception d'un web service pour la fouille de données de génomique : application à la caractérisation de la myogenÚse et de l'adipogenÚse

    Get PDF
    The quality of carcasses and meats depends on the balance between muscle and adipose tissue (AT) masses that determine carcass weight and performance (muscle and fat composition), but also the sensory quality of the meat (tenderness, juiciness and flavor). Understanding how to control the ratio of muscle mass relative to AT mass represents a major challenge for beef producers. The balance between these masses depends on the number and volume of muscle and AT cells. These cellular events are taking place at the early steps of fetal period in cattle, as the total number of muscle cells is fixed at 180 days post-conception (dpc) in the fetus. The analysis of the evolution of these two proteome tissues during fetal life produced original but insufficient data. In addition, it is not always easy to extract or generate relevant biological information from genomic experiments. This is particularly true in ruminant species because they are not annotated in databases and few bioinformatic resources are dedicated to them. In this context, our objective was to design an “all in one” web service to analyze genomic data in cattle in order to improve knowledge of the mechanisms involved in fetal muscle and AT growth. Thus, we have organized our thesis in two axes. We developed a genomic data analysis tool, dedicated to ruminant species (cattle, sheep and goat) and named ProteINSIDE (www.proteinside.org). In a single query, this tool synthesizes the biological information stored in public databases or provided by functional annotations from gene ontology. It also predicts proteins that are secreted (tissue secretome) and which are involved in signaling between cells or tissues. It links proteins according to their molecular interactions to identify and visualize those that contribute to the same biological processes and those that are central to a biological process. ProteINSIDE was tested with data sets of 1000 proteins by species and has been successfully compared with DAVID, BioMyn, and AgBase (designed for information retrieval and annotation), as well as PrediSi and Phobius (that predict proteins secreted). We applied ProteINSIDE to the proteome analysis of muscle and AT. A first analysis of data on the ontogenesis of the tissue revealed links between proteins of both fetal tissues and proteins involved in autophagy processes. In a second study, we constructed and described the bovine proteomes of both tissues at 140 dpc. We identified 514 muscle protein and 752 AT proteins, including 346 commons proteins. As an example, these proteins are involved in the negative regulation of apoptosis, in autophagy processes, in the regulation of cell proliferation, and in the Wnt signaling pathway. We identified 47 and 93 potentially secreted proteins by muscle and TA, including 24 commons proteins. The integration of knowledges about the secreted proteins with those available for the “surfaceome” suggested proteins which could participate in the cross-talk between muscle and AT. Thus, we produced a web server to mine genomic data from bovine, sheep, and goat species, but also from human, rat and mice species. This type of server should be particularly useful to the scientific community. Its implementation has led to the production of new knowledge and working hypotheses for the understanding of the mechanisms which regulate fetal growth of muscle and AT.La qualitĂ© des carcasses et des viandes bovines dĂ©pend de l’équilibre entre les masses musculaires et adipeuses qui conditionnent le poids de carcasse et son rendement (composition en muscle et en gras), mais aussi la qualitĂ© sensorielle de la viande (tendretĂ©, jutositĂ© et flaveur). Comprendre comment contrĂŽler le rapport des masses de muscle relativement Ă  celles des tissus adipeux (TA) reprĂ©sente donc un enjeu majeur pour les filiĂšres de viande bovine. Ce rapport dĂ©pend du nombre et du volume des cellules musculaires et adipeuses. Ces propriĂ©tĂ©s sont sous le contrĂŽle d’évĂ©nements cellulaires se mettant en place prĂ©cocement chez le bovin puisque le nombre de cellules musculaires est fixĂ© dĂšs l’ñge 180 jours post-conception (jpc) chez le fƓtus. Des analyses de l’évolution des protĂ©omes de ces deux tissus, au cours de la vie fƓtale ont produit des donnĂ©es originales mais insuffisantes. En outre, il n’est pas toujours aisĂ© d’extraire ou de gĂ©nĂ©rer une information biologique pertinente Ă  partir d’expĂ©rimentations de gĂ©nomique. Ceci est particuliĂšrement vrai chez les ruminants, car ils sont peu annotĂ©s dans les bases de donnĂ©es et peu de ressources bioinformatiques leur sont dĂ©diĂ©es. Dans ce contexte, notre objectif Ă©tait de concevoir un serveur web « tout en un » permettant une fouille des donnĂ©es de gĂ©nomique chez le bovin afin d’amĂ©liorer les connaissances sur les mĂ©canismes associĂ©s Ă  la croissance par hyperplasie et par hypertrophie des tissus musculaire et adipeux. Aussi, nous avons organisĂ© notre travail de thĂšse en deux axes.Un outil d’analyse de donnĂ©es de gĂ©nomique, dĂ©diĂ© aux ruminants (bovin, ovin et caprin) nommĂ© ProteINSIDE (www.proteinside.org) a Ă©tĂ© dĂ©veloppĂ©. En une seule requĂȘte, il synthĂ©tise l'information biologique stockĂ©e dans les bases de donnĂ©es publiques ou fournie par les annotations fonctionnelles issues de l’ontologie des gĂšnes. Il prĂ©dit aussi les protĂ©ines qui sont sĂ©crĂ©tĂ©es (sĂ©crĂ©tome des tissus) et qui interviennent dans la signalisation entre les cellules ou tissus. Il lie les protĂ©ines selon leurs interactions molĂ©culaires afin d’identifier et de visualiser celles qui contribuent Ă  un mĂȘme processus biologique et celles qui sont centrales Ă  un processus biologique. ProteINSIDE a Ă©tĂ© testĂ© avec des jeux de donnĂ©es de 1000 protĂ©ines par espĂšce et a Ă©tĂ© comparĂ© avec succĂšs Ă  DAVID, BioMyn et AgBase, conçus pour la recherche d'information et l'annotation, ainsi qu'Ă  PrediSi et Phobius qui prĂ©disent les protĂ©ines sĂ©crĂ©tĂ©es. ProteINSIDE a Ă©tĂ© appliquĂ© Ă  l’analyse des protĂ©omes des tissus musculaires et adipeux. Une premiĂšre analyse des donnĂ©es relatives Ă  l’ontogenĂšse des tissus, a rĂ©vĂ©lĂ© des liens entre des protĂ©ines prĂ©sentes dans les deux tissus fƓtaux et des protĂ©ines impliquĂ©es dans les processus d’autophagie. Dans une seconde Ă©tude, nous avons dĂ©crit les protĂ©omes des deux tissus Ă  140 jpc. Nous avons identifiĂ© 514 protĂ©ines musculaires et 752 protĂ©ines adipeuses, dont 346 communes. Ces protĂ©ines interviennent par exemple dans la rĂ©gulation nĂ©gative de l’apoptose, dans les processus d’autophagie, dans la rĂ©gulation de la prolifĂ©ration cellulaire et dans la voie de signalisation Wnt. Nous avons identifiĂ© 47 et 93 protĂ©ines potentiellement sĂ©crĂ©tĂ©es par le muscle et le TA, dont 24 communes. L’intĂ©gration des connaissances sur les protĂ©ines sĂ©crĂ©tĂ©es avec celles disponibles pour le « surfaceome » a suggĂ©rĂ© des protĂ©ines qui participeraient au dialogue muscle-TA. Nous avons donc produit un serveur web pour la fouille de donnĂ©es de gĂ©nomique non seulement chez le bovin, l’ovin, le caprin, mais aussi chez l’homme, le rat et la souris. Ce type de serveur devrait ĂȘtre particuliĂšrement utile Ă  la communautĂ© scientifique. Son application a conduit Ă  la production de connaissances nouvelles et d’hypothĂšses de travail pour la comprĂ©hension des mĂ©canismes de rĂ©gulation de la croissance fƓtale du muscle squelettique et du tissu adipeux

    Pharmacolgical and biological annotations enhance functional residues prediction

    Full text link
    Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Biología Molecular. Fecha de lectura: 15-09-201

    Bericht 2012

    No full text

    Computational methods for integrating and analyzing human systems biology data

    Get PDF
    The combination of heterogeneous biological datasets is a key requirement for modern molecular systems biology. Of particular importance for our understanding of complex biological systems like the human cell are data about the interactions of proteins with other molecules. In this thesis, we develop and apply methods to improve the availability and the quality of such interaction data. We also demonstrate how these data can be used in interdisciplinary studies to discover new biological results. First, we develop technical systems for the instant integration of interaction data that are stored and maintained in separate online repositories. Second, we implement a computational framework for the application of multiple scoring algorithms to qualitatively assess different aspects of interaction data. Our methods are based on distributed client-server systems, ensuring that the services can be updated continuously. This promotes equal access to interaction data and allows researchers to expand the client-server systems with their own service. Third, we focus our application studies on integrative network-based analyses of human host factors for viral infections. Our applications provide new biological insights into the life cycle of the hepatitis C virus and identify new potential candidates for antiviral drug therapy.Die Kombination verschiedener biologischer DatensĂ€tze ist fĂŒr die moderne molekulare Systembiologie unumgĂ€nglich. Eine besondere Bedeutung fĂŒr unser VerstĂ€ndnis von komplexen biologischen Systemen wie der Zelle haben dabei Daten ĂŒber die Wechselwirkungen von Proteinen mit anderen MolekĂŒlen. In dieser Arbeit entwickeln und verwenden wir Methoden zur Verbesserung der VerfĂŒgbarkeit und Bewertbarkeit von solchen Interaktionsdaten. Wir zeigen auch, wie diese Daten in interdisziplinĂ€ren Studien genutzt werden können, um neue biologische Erkenntnisse zu gewinnen. Zuerst entwickeln wir technische Systeme, um Interaktionsdaten von verschiedenen Quellen des Internets zusammenzufĂŒhren. Danach entwickeln wir ein computergestĂŒtztes System, welches die Anwendung verschiedener Algorithmen ermöglicht, um unterschiedliche Aspekte von Wechselwirkungen qualitativ zu bewerten. Unsere Methoden basieren auf verteilten Client-Server-Systemen, die sicherstellen, dass einzelne Dienste dauerhaft aktuell gehalten werden können. Zudem fördert dies einen gleichberechtigten Zugang zu Interaktionsdaten, und Wissenschaftler können die Systeme mit eigenen Diensten erweitern. Unser Anwendungsschwerpunkt liegt auf der netzwerkbasierten Analyse humaner Wirtsfaktoren fĂŒr virale Infektionen. Unsere Auswertungen tragen zu einem besseren VerstĂ€ndnis des Lebenszyklus des Hepatitis-C-Virus bei und zeigen Ansatzpunkte fĂŒr die Entwicklung neuer antiviraler Medikamente auf

    Computational methods for integrating and analyzing human systems biology data

    Get PDF
    The combination of heterogeneous biological datasets is a key requirement for modern molecular systems biology. Of particular importance for our understanding of complex biological systems like the human cell are data about the interactions of proteins with other molecules. In this thesis, we develop and apply methods to improve the availability and the quality of such interaction data. We also demonstrate how these data can be used in interdisciplinary studies to discover new biological results. First, we develop technical systems for the instant integration of interaction data that are stored and maintained in separate online repositories. Second, we implement a computational framework for the application of multiple scoring algorithms to qualitatively assess different aspects of interaction data. Our methods are based on distributed client-server systems, ensuring that the services can be updated continuously. This promotes equal access to interaction data and allows researchers to expand the client-server systems with their own service. Third, we focus our application studies on integrative network-based analyses of human host factors for viral infections. Our applications provide new biological insights into the life cycle of the hepatitis C virus and identify new potential candidates for antiviral drug therapy.Die Kombination verschiedener biologischer DatensĂ€tze ist fĂŒr die moderne molekulare Systembiologie unumgĂ€nglich. Eine besondere Bedeutung fĂŒr unser VerstĂ€ndnis von komplexen biologischen Systemen wie der Zelle haben dabei Daten ĂŒber die Wechselwirkungen von Proteinen mit anderen MolekĂŒlen. In dieser Arbeit entwickeln und verwenden wir Methoden zur Verbesserung der VerfĂŒgbarkeit und Bewertbarkeit von solchen Interaktionsdaten. Wir zeigen auch, wie diese Daten in interdisziplinĂ€ren Studien genutzt werden können, um neue biologische Erkenntnisse zu gewinnen. Zuerst entwickeln wir technische Systeme, um Interaktionsdaten von verschiedenen Quellen des Internets zusammenzufĂŒhren. Danach entwickeln wir ein computergestĂŒtztes System, welches die Anwendung verschiedener Algorithmen ermöglicht, um unterschiedliche Aspekte von Wechselwirkungen qualitativ zu bewerten. Unsere Methoden basieren auf verteilten Client-Server-Systemen, die sicherstellen, dass einzelne Dienste dauerhaft aktuell gehalten werden können. Zudem fördert dies einen gleichberechtigten Zugang zu Interaktionsdaten, und Wissenschaftler können die Systeme mit eigenen Diensten erweitern. Unser Anwendungsschwerpunkt liegt auf der netzwerkbasierten Analyse humaner Wirtsfaktoren fĂŒr virale Infektionen. Unsere Auswertungen tragen zu einem besseren VerstĂ€ndnis des Lebenszyklus des Hepatitis-C-Virus bei und zeigen Ansatzpunkte fĂŒr die Entwicklung neuer antiviraler Medikamente auf

    Network biology methods for functional characterization and integrative prioritization of disease genes and proteins

    Get PDF
    Nowadays, large amounts of experimental data have been produced by high-throughput techniques, in order to provide more insight into complex phenotypes and cellular processes. The development of a variety of computational and, in particular, network-based approaches to analyze these data have already shed light on previously unknown mechanisms. However, we are still far from a comprehensive understanding of human diseases and their causes as well as appropriate preventive measures and successful therapies. This thesis describes the development of methods and user-friendly software tools for the integrative analysis and interactive visualization of biological networks as well as their application to biomedical data for understanding diseases. We design an integrative phenotype-specific framework for prioritizing candidate disease genes and functionally characterizing similar phenotypes. It is applied to the identification of several disease-relevant genes and processes for inflammatory bowel diseases and primary sclerosing cholangitis as well as for Parkinson's disease. Since finding the causative disease genes does often not suffice to understand diseases, we also concentrate on the molecular characterization of sequence mutations and their effect on protein structure and function. We develop a software suite to support the interactive, multi-layered visual analysis of molecular interaction mechanisms such as protein binding, allostery and drug resistance. To capture the dynamic nature of proteins, we also devise an approach to visualizing and analyzing ensembles of protein structures as, for example, generated by molecular dynamics simulations.In den letzten Jahren wurde mittels Hochdurchsatzverfahren eine große Menge experimenteller Daten generiert, um einen Einblick in komplexe PhĂ€notypen und zellulĂ€re Prozesse zu ermöglichen. Die Entwicklung von verschiedenen bioinformatischen und insbesondere netzwerkbasierten AnsĂ€tzen zur Analyse dieser Daten konnte bereits Aufschluss ĂŒber bisher unbekannte Mechanismen geben. Dennoch sind wir weit entfernt von einem umfassenden VerstĂ€ndnis menschlicher Krankheiten und ihrer Ursachen sowie geeigneter prĂ€ventiver Maßnahmen und erfolgreicher Therapien. Diese Dissertation beschreibt die Entwicklung von Methoden und benutzerfreundlichen Softwarewerkzeugen fĂŒr die integrative Analyse und interaktive Visualisierung biologischer Netzwerke sowie ihre Anwendung auf biomedizinische Daten zum VerstĂ€ndnis von http://scidok.sulb.uni-saarland.de/volltexte/incoming/2016/6595/Krankheiten. Wir entwerfen ein integratives, phĂ€notypspezifisches Framework fĂŒr die Priorisierung potentiell krankheitserregender Gene und die funktionelle Charakterisierung Ă€hnlicher PhĂ€notypen. Es wird angewandt, um mehrere krankheitsspezifische Gene und Prozesse von chronisch-entzĂŒndlichen Darmerkrankungen und primĂ€r sklerosierender Cholangitis sowie von Parkinson zu bestimmen. Da es fĂŒr das VerstĂ€ndnis von Krankheiten oft nicht genĂŒgt, die krankheitserregenden Gene zu entdecken, konzentrieren wir uns auch auf die molekulare Charakterisierung von Sequenzmutationen und ihren Effekt auf die Proteinstruktur und -funktion. Wir entwickeln eine Software, um die interaktive, vielschichtige visuelle Analyse von molekularen Mechanismen wie Proteinfaltung, Allosterie und Arzneimittelresistenz zu unterstĂŒtzen. Um den dynamischen Charakter von Proteinen zu erfassen, ersinnen wir auch eine Methode fĂŒr die Visualisierung und Analyse von Proteinstrukturen, welche sich zum Beispiel wĂ€hrend Molekulardynamiksimulationen ergeben

    Novel Search Method for the Discovery of Functional Relationships

    Get PDF
    MOTIVATION: Numerous annotations are available that functionally characterize genes and proteins with regard to molecular process, cellular localization, tissue expression, protein domain composition, protein interaction, disease association and other properties. Searching this steadily growing amount of information can lead to the discovery of new biological relationships between genes and proteins. To facilitate the searches, methods are required that measure the annotation similarity of genes and proteins. However, most current similarity methods are focused only on annotations from the Gene Ontology (GO) and do not take other annotation sources into account. RESULTS: We introduce the new method BioSim that incorporates multiple sources of annotations to quantify the functional similarity of genes and proteins. We compared the performance of our method with four other well-known methods adapted to use multiple annotation sources. We evaluated the methods by searching for known functional relationships using annotations based only on GO or on our large data warehouse BioMyn. This warehouse integrates many diverse annotation sources of human genes and proteins. We observed that the search performance improved substantially for almost all methods when multiple annotation sources were included. In particular, our method outperformed the other methods in terms of recall and average precision
    corecore