Eine computergestützte Strategie zur Vorhersage von funktionalen Interaktionsmotiven

Abstract

Many important protein:protein interactions are mediated by relatively small recognition domains (e.g. SH3, SH2, PDZ, WW) which bind to peptides exhibiting specific sequence motifs. In this type of interaction, one partner (the interaction domain) forms a globular three-dimensional structure, while the other one (the interaction motif) is mostly linear. These interactions are of crucial importance to signalling mechanisms such as receptor signalling, cell compartment targeting and post-translational modification. Up to now, searches for protein interaction motifs were hampered by the short length and fuzzy notation of these motifs, resulting in large amounts of false-positive motif instances without biological relevance. So the aim of this project was to improve the prediction of functional interaction motifs and the genome-wide identification of interaction motifs in viral proteins. In order to improve the search for functional interaction motifs in protein sequences, the work presented here employed two different strategies: Firstly, different sequence filters have been implemented, evaluated and optimized to mask those sequence regions containing little or no interaction motifs. For instance, different predictors of globularity, extracellular or transmembrane regions have been implemented which filter out regions which should be devoid of interaction motifs. Furthermore, single filters were improved and several filters were tested for a possible combined application. It could be shown that the joint employment of these filters minimizes the number of false positives and thus allows focussing on regions which are enriched in functional motifs. Secondly, a novel scoring scheme has been developed for the identification of functional motifs, which scores motif conservation in homologous sequences by taking explicitly into account the sequence similarity to a query sequence. A special feature of this scoring scheme is the fact that no a priori separation between paralogous and orthologous sequences is necessary. A synergistic effect could be demonstrated for both strategies, as the scoring scheme and the filtering approach mutually complement each other. Up to now, this unique combination of motif filtering and motif scoring has not yet been implemented elsewhere. The performance of the whole approach was verified by measuring its ability to identify 576 experimentally validated motifs among a total of 15563 instances in a set of 415 protein sequences. Compared to a random selection procedure, the joint application of sequence filters and the novel scoring scheme resulted in a nine fold enrichment of functional motifs on the first rank. In addition, only half as many hits need to be investigated to recover 75% of the functional instances in this dataset. Therefore, this motif detection approach should be helpful to guide experiments because it allows focussing on those interaction motifs which have a high probability to be functional. Finally this method has also been applied to various viral proteins from HIV and EBV. Each viral protein was searched for high-scoring motifs that have a high chance to be functional. As a validation of the strategy, the literature was searched, whether some of the highest-confidence hits were already experimentally confirmed interaction motifs. Further literature searches were conducted for the remaining high-scoring motifs, and several examples were found in which the motif-mediated interactions can explain the physiological data reported for the respective protein. Both viral examples demonstrated the usefulness of this approach for the experimentalist as it significantly reduces the amount of experiments to be conducted and helps focussing on biologically relevant interaction motifs. Consequently, this approach should be very helpful in annotating unknown proteins and in detecting novel protein:protein interactions mediated by interaction motifs.Eine Vielzahl an wichtigen Protein:Protein-Interaktionen wird von relativ kleinen Adapterdomänen (z.B. SH2, SH3, PDZ, WW) vermittelt. Diese Domänen binden an kurze Peptide, die spezifische Sequenzmotive aufweisen. Das Charakteristische dieser Interaktionen ist, daß ein Partner (die Interaktionsdomäne) eine globuläre Struktur aufweist, während der zweite Interaktionspartner (das Interaktionsmotiv) einen linearen Sequenzabschnitt darstellt. Derartige Interaktionen sind überaus wichtig für die zelluläre Signaltransduktion via Rezeptoren, für das Sortieren von Proteinen in ihr jeweiliges Zielkompartiment sowie für die Mechanismen der post-translationalen Protein-Modifikation. Bislang lieferten Suchen nach solchen Motiven in Proteinsequenzen aufgrund ihrer geringen Länge und ihrer häufig unscharfen Notation eine Vielzahl an Treffern, von denen die überwiegende Mehrzahl ohne biologische Funktion sind. In der vorliegenden Arbeit wurde dieses Problem auf zwei verschiedene Arten angegangen: Zum Einen wurden verschiedene Sequenzfilter implementiert, evaluiert und optimiert mit dem Ziel, diejenigen Sequenzabschnitte zu maskieren, in denen wenige oder gar keine Interaktionsmotive zu finden sind. So wurden beispielsweise verschiedene Vorhersage-algorithmen implementiert, die globuläre Bereiche oder Transmembran-Helices erkennen. In diesen Regionen sollten keine funktionalen Interaktionsmotive zu finden sein und daher wurden diese Sequenzbereiche ausgefiltert. Besonderes Augenmerk wurde auf die methodische Weiterentwicklung und Verbesserung einzelner Filter gelegt und darüber hinaus wurden die Filter auch in verschiedenen Kombinationen getestet. Es konnte gezeigt werden, daß durch die Anwendung dieser Filter die Anzahl an falsch-positiven Treffern signifikant reduziert wird. Dies erleichtert die Planung von entsprechenden Experimenten und erlaubt die Konzentration auf Bereiche, in denen funktionale Motive angereichert sind. Zum Anderen wurde ein neuartiges Bewertungsschema entworfen um funktionale Motive zu identifizieren. Dieses Schema bewertet die Konserviertheit der Motive in homologen Sequenzen wobei explizit die Sequenzähnlichkeit zur Suchsequenz mit berücksichtigt wird. Eine besondere Eigenschaft dieses Bewertungsschemas ist, daß keine Unterteilung der homologen Sequenzen in Paraloge und Orthologe notwendig ist. Beide Ansätze, Bewertungsschema und Sequenzfilter, wurden in dieser Arbeit erstmals gemeinsam implementiert und ergänzen sich gegenseitig auf synergistische Art und Weise. Die Effizienz des gesamten Ansatzes wurde daran gemessen, wie gut es gelang, 576 experimentell bestätigte Motive in 415 Proteinsequenzen aus der Gesamtheit von 15563 Motiven zu identifizieren. Verglichen mit einer Zufallsauswahl bringt eine Kombination von Sequenzfiltern und dem neuartigen Bewertungsschema eine mehr als neunfach erhöhte Anreicherung von funktionalen Motiven auf dem ersten Rang. Des Weiteren müssen nur halb so viele Treffen analysiert werden, um 75% aller funktionalen Motive in diesem Datensatz abzudecken. Deshalb stellt dieser Ansatz eine wertvolle Hilfe dar um Experimente zu planen, denn er erlaubt eine Konzentration auf diejenigen linearen Motive welche die höchste Wahrscheinlichkeit besitzen, biologisch relevant zu sein. Weiterhin wurde diese Methode auch auf mehrere virale Proteine des humanen Immundefizienz-Virus und EBV angewandt. In jedem viralen Protein wurden Interaktionsmotive gemäß der beschriebenen Methode gesucht und bewertet. Anschließend wurde eine Literaturrecherche durchgeführt um zu sehen, welche der signifikanten Motive bereits als biologisch relevant beschrieben waren. Hier konnte gezeigt werden, daß mehrere entsprechende Motive bereits als funktional annotiert waren, was den Nutzen des Bewertungsschema unterstreicht und als Validierung der vorgestellten Strategie dient. Weitere Literatursuchen lieferten darüber hinaus Beispiele für beschriebene physiologische Proteinfunktionen, die durch die hier gefundenen Interaktionsmotive nun molekular erklärt werden können. Beide virale Beispiele unterstreichen den Nutzen dieser Methode für den Experimentator, denn sie reduziert die Anzahl an notwendigen Experimenten und ermöglicht es, sich auf biologisch relevante Interaktionsmotive zu konzentrieren

    Similar works