12 research outputs found

    FragKB: Structural and Literature Annotation Resource of Conserved Peptide Fragments and Residues

    Get PDF
    BACKGROUND: FragKB (Fragment Knowledgebase) is a repository of clusters of structurally similar fragments from proteins. Fragments are annotated with information at the level of sequence, structure and function, integrating biological descriptions derived from multiple existing resources and text mining. METHODOLOGY: FragKB contains approximately 400,000 conserved fragments from 4,800 representative proteins from PDB. Literature annotations are extracted from more than 1,700 articles and are available for over 12,000 fragments. The underlying systematic annotation workflow of FragKB ensures efficient update and maintenance of this database. The information in FragKB can be accessed through a web interface that facilitates sequence and structural visualization of fragments together with known literature information on the consequences of specific residue mutations and functional annotations of proteins and fragment clusters. FragKB is accessible online at http://ubio.bioinfo.cnio.es/biotools/fragkb/. SIGNIFICANCE: The information presented in FragKB can be used for modeling protein structures, for designing novel proteins and for functional characterization of related fragments. The current release is focused on functional characterization of proteins through inspection of conservation of the fragments

    Exploration of the Disambiguation of Amino Acid Types to Chi-1 Rotamer Types in Protein Structure Prediction and Design

    Full text link
    A protein’s global fold provide insight into function; however, function specificity is often detailed in sidechain orientation. Thus, determining the rotamer conformations is often crucial in the contexts of protein structure/function prediction and design. For all non-glycine and non-alanine types, chi-1 rotamers occupy a small number of discrete number of states. Herein, we explore the possibility of describing evolution from the perspective of the sidechains’ structure versus the traditional twenty amino acid types. To validate our hypothesis that this perspective is more crucial to our understanding of evolutionary relationships, we investigate its uses as evolutionary, substitution matrices for sequence alignments for fold recognition purposes and computational protein design with specific focus in designing beta sheet environments, where previous studies have been done on amino acid-types alone. Throughout this study, we also propose the concept of the “chi-1 rotamer sequence” that describes the chi-1 rotamer composition of a protein. We also present attempts to predict these sequences and real-value torsion angles from amino acid sequence information. First, we describe our developments of log-odds scoring matrices for sequence alignments. Log-odds substitution matrices are widely used in sequence alignments for their ability to determine evolutionary relationship between proteins. Traditionally, databases of sequence information guide the construction of these matrices which illustrates its power in discovering distant or weak homologs. Weak homologs, typically those that share low sequence identity (< 30%), are often difficult to identify when only using basic amino acid sequence alignment. While protein threading approaches have addressed this issue, many of these approaches include sequenced-based information or profiles guided by amino acid-based substitution matrices, namely BLOSUM62. Here, we generated a structural-based substitution matrix born by TM-align structural alignments that captures both the sequence mutation rate within same protein family folds and the chi-1 rotamer that represents each amino acid. These rotamer substitution matrices (ROTSUMs) discover new homologs and improved alignments in the PDB that traditional substitution matrices, based solely on sequence information, cannot identify. Certain tools and algorithms to estimate rotamer torsions angles have been developed but typically require either knowledge of backbone coordinates and/or experimental data to help guide the prediction. Herein, we developed a fragment-based algorithm, Rot1Pred, to determine the chi-1 states in each position of a given amino acid sequence, yielding a chi-1 rotamer sequence. This approach employs fragment matching of the query sequence to sequence-structure fragment pairs in the PDB to predict the query’s sidechain structure information. Real-value torsion angles were also predicted and compared against SCWRL4. Results show that overall and for most amino-acid types, Rot1Pred can calculate chi-1 torsion angles significantly closer to native angles compared to SCWRL4 when evaluated on I-TASSER generated model backbones. Finally, we’ve developed and explored chi-1-rotamer-based statistical potentials and evolutionary profiles constructed for de novo computational protein design. Previous analyses which aim to energetically describe the preference of amino acid types in beta sheet environments (parallel vs antiparallel packing or n- and c-terminal beta strand capping) have been performed with amino acid types although no explicit rotamer representation is given in their scoring functions. In our study, we construct statistical functions which describes chi-1 rotamer preferences in these environments and illustrate their improvement over previous methods. These specialized knowledge-based energy functions have generated sequences whose I-TASSER predicted models are structurally-alike to their input structures yet consist of low sequence identity.PHDChemical BiologyUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttps://deepblue.lib.umich.edu/bitstream/2027.42/145951/1/jarrettj_1.pd

    Protein Local Tertiary Structure Prediction by Super Granule Support Vector Machines with Chou-Fasman Parameter

    Get PDF
    Prediction of a protein's tertiary structure from its sequence information alone is considered a major task in modern computational biology.  In order to closer the gap between protein sequences to its tertiary structures, we discuss the correlation between protein sequence and local tertiary structure information in this paper.  The strategy we used in this work is predict small portions (local) of protein tertiary structure with high confidence from conserved protein sequences, which are called “protein sequence motifs”. 799 protein sequence motifs that transcend protein family boundaries were obtained from our previous work.  The prediction accuracy generated from the best group of protein sequence motifs always keep higher than 90% while more than 8% of the independent testing data segments are predicted. Since the most meaningful result published in latest publication is merely 70.02% accuracy under the coverage of 4.45%, the research results achieved in this paper are obviously outperformed. Besides, we also set up a stricter evaluation to our prediction to further understand the relation between protein sequence motifs and tertiary structure predictions.  The results suggest that the hidden sequence-to-structure relationship can be uncovered using the Super Granule SVM Model with the Chou-Fasman Parameter.  With the high local tertiary structure prediction accuracy provided in this article, the hidden relation between protein primary sequences and their 3D structure are uncovered considerably

    PROTEIN FUNCTION, DIVERISTY AND FUNCTIONAL INTERPLAY

    Get PDF
    Functional annotations of novel or unknown proteins is one of the central problems in post-genomics bioinformatics research. With the vast expansion of genomic and proteomic data and technologies over the last decade, development of automated function prediction (AFP) methods for large-scale identification of protein function has be-come imperative in many aspects. In this research, we address two important divergences from the “one protein – one function” concept on which all existing AFP methods are developed

    Development of novel Classical and Quantum Information Theory Based Methods for the Detection of Compensatory Mutations in MSAs

    Get PDF
    Multiple Sequenzalignments (MSAs) von homologen Proteinen sind nützliche Werkzeuge, um kompensatorische Mutationen zwischen nicht-konservierten Residuen zu charakterisieren. Die Identifizierung dieser Residuen in MSAs ist eine wichtige Aufgabe um die strukturellen Grundlagen und molekularen Mechanismen von Proteinfunktionen besser zu verstehen. Trotz der vielen Anzahl an Literatur über kompensatorische Mutationen sowie über die Sequenzkonservierungsanalyse für die Erkennung von wichtigen Residuen, haben vorherige Methoden meistens die biochemischen Eigenschaften von Aminosäuren nicht mit in Betracht gezogen, welche allerdings entscheidend für die Erkennung von kompensatorischen Mutationssignalen sein können. Jedoch werden kompensatorische Mutationssignale in MSAs oft durch das Rauschen verfälscht. Aus diesem Grund besteht ein weiteres Problem der Bioinformatik in der Trennung signifikanter Signale vom phylogenetischen Rauschen und beziehungslosen Paarsignalen. Das Ziel dieser Arbeit besteht darin Methoden zu entwickeln, welche biochemische Eigenschaften wie Ähnlichkeiten und Unähnlichkeiten von Aminosäuren in der Identifizierung von kompensatorischen Mutationen integriert und sich mit dem Rauschen auseinandersetzt. Deshalb entwickeln wir unterschiedliche Methoden basierend auf klassischer- und quantum Informationstheorie sowie multiple Testverfahren. Unsere erste Methode basiert auf der klassischen Informationstheorie. Diese Methode betrachtet hauptsächlich BLOSUM62-unähnliche Paare von Aminosäuren als ein Modell von kompensatorischen Mutationen und integriert sie in die Identifizierung von wichtigen Residuen. Um diese Methode zu ergänzen, entwickeln wir unsere zweite Methode unter Verwendung der Grundlagen von quantum Informationstheorie. Diese neue Methode unterscheidet sich von der ersten Methode durch gleichzeitige Modellierung ähnlicher und unähnlicher Signale in der kompensatorischen Mutationsanalyse. Des Weiteren, um signifikante Signale vom Rauschen zu trennen, entwickeln wir ein MSA-spezifisch statistisches Modell in Bezug auf multiple Testverfahren. Wir wenden unsere Methode für zwei menschliche Proteine an, nämlich epidermal growth factor receptor (EGFR) und glucokinase (GCK). Die Ergebnisse zeigen, dass das MSA-spezifisch statistische Modell die signifikanten Signale vom phylogenetischen Rauschen und von beziehungslosen Paarsignalen trennen kann. Nur unter Berücksichtigung BLOSUM62-unähnlicher Paare von Aminosäuren identifiziert die erste Methode erfolgreich die krankheits-assoziierten wichtigen Residuen der beiden Proteine. Im Gegensatz dazu, durch die gleichzeitige Modellierung ähnlicher und unähnlicher Signale von Aminosäurepaare ist die zweite Methode sensibler für die Identifizierung von katalytischen und allosterischen Residuen

    Identifizierung ähnlicher Reaktionsmechanismen in homologen Enzymen unterschiedlicher Funktion unter Verwendung konservierter Sequenzdomänen

    Get PDF
    Enzyme sind außerordentlich effiziente Biokatalysatoren und beschleunigen als solche nahezu sämtliche biochemischen Reaktionen in biologischen Systemen. Neue Enzyme entstehen nicht de novo, sondern entwickeln sich schrittweise durch Abwandlung der bereits vorhandenen Enzyme. Daher lassen sich die Reaktionen des Grundstoffwechsels der Zellen trotz ihrer Vielfalt auf relativ wenige Grundtypen zurückführen. Diese Tatsache hat man teilweise bei der EC-Klassifikation der Enzyme berücksichtigt. Die Einordnung in EC-Klassen erfolgt jedoch im allgemeinen nicht aufgrund von gemeinsamer Abstammung oder ähnlichen Reaktionsmechanismen, sondern überwiegend nach enzymologischen Kriterien wie der Wirkungs- und Substratspezifität. Infolgedessen weisen Enzyme der gleichen EC-Klasse häufig keine strukturelle Ähnlichkeit zueinander auf, wodurch impliziert wird, daß diese Enzyme eher durch Konvergenz als durch Divergenz entstanden sind, während umgekehrt Enzyme gemeinsamen evolutionären Ursprungs oftmals ganz unterschiedlichen EC-Klassen angehören. Letzteres führte zur Annahme, daß Enzyme trotz gemeinsamer Abstammung ganz verschiedene Funktionen haben können. Es gibt jedoch Hinweise darauf, daß diese Enzyme ähnliche Reaktionsmechanismen zur Realisierung der verschiedenen Funktionen verwenden. Während die EC-Klassifikation alle an sie gestellten Anforderungen erfüllt, besteht somit Bedarf für ein alternatives, komplementäres Klassifizierungssystem, das nicht auf einer empirischen Einteilung der beobachteten Reaktionen, sondern auf der evolutionären Verwandtschaft der Enzyme beruht und infolgedessen Rückschlüsse auf die zugrundeliegenden Reaktionsmechanismen zuläßt. In der vorliegenden Dissertation wurde untersucht, ob eine auf Sequenzhomologie basierende Einteilung der Enzyme mit den von den Enzymen verwendeten Reaktionsmechanismen korreliert. Ziel war die systematische Clusterung und Analyse aller bekannten Enzymsequenzen zur Identifizierung von gemeinsamen oder ähnlichen Enzymmechanismen. Vorbedingung zur Bearbeitung des Problems war die Entwicklung einer Methode zur Identifizierung modular aufgebauter Proteinen, die aus mehreren, evolutionär oftmals unabhängigen Sequenzdomänen bestehen. Da solche modularen Enzyme in unterschiedlichen Bereichen Ähnlichkeit zu verschiedenen Enzymfamilien aufweisen können, implizieren sie häufig ein scheinbares, tatsächlich jedoch nicht vorhandenes gemeinsames Auftreten von Enzymaktivitäten in einem Sequenzcluster. Die Domänenstruktur wurde mittels der Lage und Ausdehnung lokaler Sequenzalignments ermittelt. Anschließend wurden die so bestimmten Sequenzbereiche entsprechend ihrer Sequenzähnlichkeit zu Gruppen homologer Sequenzabschnitte zusammengefaßt. Hierzu wurde die Methode der Clusteranalyse verwendet. Die Analyse erfolgte bei verschiedenen Grenzwerten, um eine hierarchische Strukturierung des Sequenz-Raumes zu erhalten. Hierbei zeigte sich, daß abhängig vom verwendeten Grenzwert bis zu 40% der generierten Sequenzcluster Enzyme verschiedener Enzymklassen, teilweise sogar verschiedener EC-Hauptklassen enthielten. Bei der Analyse zeigte sich jedoch, daß in allen betrachteten Fällen trotz auf den ersten Blick unterschiedlicher Katalyse der Reaktionsmechanismus oder aber die Substratspezifität dieser Reaktionen sehr ähnlich sind

    Metabolic models - But without phylogenetical fallacy! The issue and the optimisation of the functional prediction of enzymes and the reconstruction of metabolic models based on phylogeny considering the example of Rhodobacteraceae and archaea.

    Get PDF
    Die Erstellung metabolischer Modelle infolge der Rekonstruktion von Netzwerken enzymkatalysierter Reaktionen des Stoffwechsels eines Organismus ist ein nicht mehr wegzudenkendes systembiologisches Werkzeug. Die Systembiologie verfolgt den Ansatz, mit Hilfe dieser Modelle Organismen und ihre metabolischen Anpassungen in ihrer Gesamtheit zu simulieren und zu analysieren. Eine entscheidende Ausgangsbasis schafft die Enzymfunktionsvorhersage. Hierfür stehen vielfältige Daten und Methoden der Bioinformatik zur Verfügung. Um möglichst einfach fundamentierte Aussagen über den Enzympool eines Organismus treffen und diese Informationen im Sinne der metabolischen Modellerstellung verwenden zu können, wird das Programm EnzymeDetector weiterentwickelt. Somit kann durch die Aggregation der Informationen von automatisierten Annotationsdatenbanken und manuell geprüfter, experimentell beschriebener Enzymfunktionen eine umfassende Sammlung genomweiter Funktionsvorhersagen von über 3000 Organismen erstellt werden. Unterstützung bei der Entscheidung für die wahrscheinlichste Genfunktion bieten Algorithmen auf Basis von Sequenzvergleichen mittels BLAST, Pfam-Proteinfamilien und Sequenzmustern. Die Darstellung des Metabolismus ganzer phylogenetischer Kladen wird somit erleichtert und es werden am Beispiel der Rhodobacteraceen und der Archaeen Zusammenhänge der Enzymausstattung zu diversen mikrobiellen Eigenschaften interpretiert. Zusätzlich werden diese Aussagen im Kontext ganzer Stoffwechselwege und deren enzymatischen Schlüsselfunktionen und Alternativreaktionen analysiert. Die Interpretationen der Ergebnisse analysieren durch den Vergleich der phylogenetischen Verwandtschaftsverhältnisse auf Grundlage der 16S rRNA und der Distanzen der jeweiligen Enzym- und Stoffwechselwegpools kritisch die Diversität des Metabolismus der Organismengruppen und somit die Basis einer weit verbreiteten Methode der Funktionsvorhersage ohne expliziten Sequenznachweis. Andererseits werden domänentypische und mit mikrobiellen Eigenschaften verknüpfte Enzymklassen beschrieben, die regulatorische, sensorische, oder strukturelle Funktionen und Mechanismen katalysieren, bzw. den Bezug der Organismen zu ihrem jeweiligen Habitat charakterisieren und differenzieren.Generating metabolic models of an organism is a highly important tool in Systems Biology. With these models the Systems Biology follows the approach to simulate and analyze organisms and their metabolic adaptations to the environment. The enzyme function prediction offers an important basis. Multiple databases and bioinformatic methods are available for the reconstruction. In order to predict the enzyme pool of an organism as fast and precise as possible and in order to use these informations in the sense of metabolic model reconstruction the tool EnzymeDetector is further developed. An extensive collection of genome-wide function predictions of more than 3000 organisms can be created by aggregating the information of automated annotation databases and manually revised or experimentally described functions. Further developed algorithms based on sequence comparisons with BLAST, Pfam and patternsearches support the decision for the most probable enzyme function. The EnzymeDetector simplifies the building of models and the representation of the metabolism of phylogenetic clades. Furthermore, the connections between an organism's enzyme pool and the diverse microbial characteristics are interpreted by considering the example of Rhodobacteraceae and archaea. Additionally, these information is analyzed in the context of whole pathways and their enzymatic key functions and alternative reactions. The interpretations of the results analyze the diversity of the organisms' metabolism and the base for the wide spread method of function prediction without explicit sequence evidence by comparison of the phylogenetic relationship based on the 16S rRNA and the distances of the enzyme and pathway pools. Moreover, enzymes are described which are either domain specific or connected to microbial properties and catalyze regulatory, sensoric, or structural functions and mechanisms or characterize the relationship of the organisms and their respective habitat in a metabolic context
    corecore