4 research outputs found

    Erweiterte Identifizierung, automatische Generierung und Analyse von konservierten Sequenzmustern und vergleichende Analyse enzymatischer Reaktionen unter Verwendung von homologen Enzymdomänen

    Get PDF
    Enzyme sind Biomoleküle, die chemische Reaktionen in lebenden Organismen katalysieren. Nahezu alle Reaktionen in einer lebenden Zelle benötigen Enzyme, damit chemische Reaktionen in angemessener Zeit ablaufen. Annähernd alle Enzyme sind Proteine. Obwohl Enzyme in der Lage sind, unterschiedliche Reaktionen zu katalysieren, können sie gleiche Domänen enthalten, die sich während der Evolution konserviert haben. Domänen sind die strukturellen, funktionellen und evolutionären Einheiten von Proteinen. The International Union of Biochemistry and Molecular Biology teilt Enzyme in sechs Klassen ein. Die Einteilung wird anhand der katalysierten Reaktion vorgenommen, nicht anhand gleicher Domänen oder Sequenzen. Da die Anzahl sequenzierter Proteine aufgrund von innovativen Sequenzierungstechnologien schnell wächst, ist die korrekte Annotation von Enzymen anhand reiner Sequenzinformation ein zentrales Problem in der Bioinformatik. In dieser Arbeit wurde die Clusteranalyse als etablierte und häufig genutzte Methode in der Bioinformatik dazu genutzt, Sequenzen anhand ihrer Sequenzähnlichkeit zu bedeutsamen Clustern zu gruppieren. Das Ergebnis dieser Analyse und die Erstellung von Sequenzmustern sollen helfen, die Frage zu beantworten, inwiefern es möglich ist, von Sequenzähnlichkeit auf gleiche Funktion zu schließen. Zunächst wurden alle derzeit verfügbaren Enzymsequenzen, die mindestens eine vollständige EC-Nummer tragen, gesammelt. Das Ergebnis von all-vs-all Alignments wurde dazu genutzt, die Domänenstruktur der analysierten Enzyme zu bestimmen. Abhängig vom E-Wert dieser Alignments, wurden Cluster aus homologen Domänen gebildet. Aus bestimmten Clustern wurden Sequenzen entnommen, um daraus Sequenzmuster zu erstellen. Die Qualität dieser Muster wurde durch Suche nach Richtig-Positiven und Falsch-Positiven Treffern getestet. Ein Treffer wird als Richtig-Positiv definiert, wenn der Treffer die gleiche EC-Nummer enthält, wie das Muster. Die erstellten Muster wurden mit Mustern der PROSITE-Datenbank verglichen. Zusätzlich wurde ein Algorithmus, der die größte gemeinsame Teilstruktur bestimmt, dazu genutzt, um Moleküle, die bei geclusterten Enzymen bei der Katalyse beteiligt sind, miteinander zu vergleichen. Reaktionsmatrizen wurden auf diese Weise erstellt. Schließlich wurde das Ergebnis der Clusteranalyse, die aufgrund Sequenzähnlichkeit basiert, mit dem Ergebnis der Clusteranalyse verglichen, die aufgrund identischer Reaktionsmatrizen basiert. 118947 Sequenzmuster wurden erstellt und deren Qualitäten bestimmt. Der größte Teil der Muster wurde aus bis zu zehn Sequenzen bei hohen E-Werten erstellt. Beispiele zeigten, dass Aminosäuren, die für die katalytische Aktivität oder für die Gewährleistung der korrekten 3D Konformation verantwortlich sind, hochkonserviert sind. Der Vergleich der Moleküle, die bei geclusterten Enzymen beteiligt sind, zeigte, dass die meisten Enzyme identische oder sehr ähnliche Moleküle nutzen. Abhängig vom E-Wert, nimmt die Anzahl von identischen Molekülen bei verglichenen Reaktionen mit ansteigendem E-Wert ab. Zusätzlich konnte bei dem Vergleich des Ergebnisses der Clusteranalyse, die auf Sequenzähnlichkeit basiert, mit dem Ergebnis der Clusteranalyse, die auf gleichen Reaktionsmatrizen basiert, gezeigt werden, dass die Anzahl der Enzyme, die in beiden Clusteranalysen gruppiert wurden, mit steigendem E-Wert abnimmt

    Profiling patterns of interhelical associations in membrane proteins.

    Get PDF
    A novel set of methods has been developed to characterize polytopic membrane proteins at the topological, organellar and functional level, in order to reduce the existing functional gap in the membrane proteome. Firstly, a novel clustering tool was implemented, named PROCLASS, to facilitate the manual curation of large sets of proteins, in readiness for feature extraction. TMLOOP and TMLOOP writer were implemented to refine current topological models by predicting membrane dipping loops. TMLOOP applies weighted predictive rules in a collective motif method, to overcome the inherent limitations of single motif methods. The approach achieved 92.4% accuracy in sensitivity and 100% reliability in specificity and 1,392 topological models described in the Swiss-Prot database were refined. The subcellular location (TMLOCATE) and molecular function (TMFUN) prediction methods rely on the TMDEPTH feature extraction method along data mining techniques. TMDEPTH uses refined topological models and amino acid sequences to calculate pairs of residues located at a similar depth in the membrane. Evaluation of TMLOCATE showed a normalized accuracy of 75% in discriminating between proteins belonging to the main organelles. At a sequence similarity threshold of 40%, TMFLTN predicted main functional classes with a sensitivity of 64.1-71.4%) and 70% of the olfactory GPCRs were correctly predicted. At a sequence similarity threshold of 90%, main functional classes were predicted with a sensitivity of 75.6-92.8%) and class A GPCRs were sub-classified with a sensitivity of 84.5%>-92.9%. These results reflect a direct association between the spatial arrangement of residues in the transmembrane regions and the capacity for polytopic membrane proteins to carry out their functions. The developed methods have for the first time categorically shown that the transmembrane regions hold essential information associated with a wide range of functional properties such as filtering and gating processes, subcellular location and molecular function

    A Distance-Based Block Searching Algorithm

    No full text
    We present in this paper an algorithm for the multiple comparison of a set of protein sequences. Our approach is that of peptide matching and consists in looking for all the words that occur approximatively in at least q of the sequences in the set, where q is a parameter. Words are compared by using a reference object called a model, that is itself a word over the alphabet of the amino acids, and the comparison between a model and a word is based on w- length words instead of single symbols. This idea is similar to the one used in the Blast program in the case of pairwise comparisons. Two w-length words are considered to be related if an alignment without gaps of the two using a similarity matrix has a score greater than a certain threshold value t. In our case, we say that a k-length word u is an occurrence of a model m of the same length if every w-length subword of u is related to the corresponding subword of m in the sense given above. If a model m has occurrences in at least q o..
    corecore