Solving the multi-class problem of protein secondary structure prediction

Abstract

Die Sekundärstrukturvorhersage von Proteinen als erster Schritt zur Aufklärung ihrer 3D-Strukturen und Funktionen ist eine wichtige Fragestellung der modernen Molekularbiologie. In dieser Arbeit wird mit dem Programm *SPARROW eine neue Methode zur Vorhersage der Sekundärstruktur von Proteinen vorgestellt, die auf einem neuartigen Lernverfahren basiert. Dieses als vektorwertiger Klassifikator bezeichnete Verfahren verwendet eine Klassifikatorfunktion um hochdimensionale Eingangsvektoren in einen niederdimensionalen Ausgangsraum zu projizieren um mit Hilfe der Orientierung dieser Ausgangsvektoren die Sekundärstrukturen zu klassifizieren. Um eine möglichst hohe Genauigkeit dieser Klassifikationen zu gewährleisten wird die Klassifikatorfunktion mittels empirischer Risikominimierung, einem Verfahren der statistischen Lerntheorie, optimiert. Das *SPARROW zugrunde liegende Verfahren besteht aus drei Stufen, von denen die ersten beiden vektorwertige Klassifikatoren verwenden, während die dritte aus einem künstlichen neuronalen Netz besteht. Die erste Stufe korreliert die Sekundärstruktur von Residuen, die durch Sequenzausschnitte in Form von PSI-BLAST-Profilen repräsentiert werden, mit der Primärstruktur. Dabei wird die von DSSP vorhergesagte Sekundärstruktur als Referenz verwendet. Die Vorhersage der ersten Stufe wird von der zweiten Stufe weiterverarbeitet, die damit eine Struktur-Struktur- Korrelation darstellt. Die dritte Stufe stellt eine weitere Struktur-Struktur- Korrelation dar, die aufgrund der nichtlinearen Natur des verwendeten neuronalen Netzes Korrelationen höherer Ordnung in die Vorhersage einbezieht. Durch diesen hierarchischen Aufbau verbessert jede Stufe effektiv die Vorhersage der vorherigen Stufe. Zudem macht es diese Architektur von *SPARROW möglich, über eine Änderung der Anzahl der berücksichtigten Klassen, in den einzelnen Stufen Einfluss auf den Informationsfluss durch das System zu nehmen. Tests auf dem ASTRAL40-Datensatz zeigen, dass *SPARROW bei der Vorhersage dreier Sekundärstrukturklassen (Helices, β-Stränge und strukturlose Regionen) eine Genauigkeit von 81,53% erreicht und somit mit existierenden Vorhersageprogrammen vergleichbar ist. Zudem zeigt dieser Wert, dass *SPARROW eine Verbesserung von ungefähr 0,5% gegenüber seinem Vorgänger SPARROW erreicht. Aus den durchgeführten Untersuchungen geht weiterhin hervor, dass *SPARROW das beste Programm zur Vorhersage kurzer Proteine ist. In Kombination mit anderen Vorhersageprogrammen erweist sich *SPARROW als wichtiger Beitrag zur Aufstellung kombinierter Vorhersageverfahren, die die Korrektheit der vorhergesagten Sekundärstruktur drastisch verbessern können. So kann in der Kombination mit PSIPRED bereits mittels einer einfachen Kombinationsmethode eine Genauigkeit von 82,54% erreicht werden. Ein weiterer Vorteil von *SPARROW äußert sich in der Möglichkeit der Vorhersage der acht von DSSP vorhergesagten Sekundärstrukturklassen, was potentiell mit einer Genauigkeit von 68,28% möglich ist.The prediction of the secondary structure of proteins as a first step towards elucidating their 3D structure and function is an important issue of modern molecular biology. In this thesis a new method for the prediction of protein secondary structure is presented in form of the program *SPARROW, which is based on a newly developed learning machine. This learning machine, denoted as vector valued classifier, uses a vector valued function to project high dimensional input data into a lower dimensional output space and uses the orientation of these projections within the output space to perform the classification of the input data into secondary structure classes. To maximize the accuracy of classifications the vector valued classifier is optimized by means of empirical risk minimization, a technique of statistical learning theory. The prediction scheme underlying *SPARROW consists of three stages, the first two of which are realized by vector valued classifiers while the third consists of an artificial neural network. The first stage correlates the secondary structure of residues, represented by sequence windows encoded in form of PSI-BLAST profiles, with the primary structure (sequence). The reference secondary structure is provided by DSSP. The prediction of the first stage is further processed by the second stage, which thus performs a structure-structure correlation. The final stage, being another structure- structure correlation, makes use of the nonlinear nature of the neural network to allow for higher order correlations in the prediction. For this hierarchic composition each stage effectively improves the prediction of the previous stages. Furthermore the architecture of *SPARROW allows to influence the flow of information through the system by changing the number of classes that each stage distinguishes. In benchmark tests on predicting three secondary structure classes (helices, β-strands and random coils) performed on the ASTRAL40 dataset *SPARROW achieved an accuracy of 81,53% and is thus comparable to established programs for secondary structure prediction. In addition *SPARROW improves the accuracy achieved by its predecessor SPARROW by 0,5%. Another result of the aforementioned investigations is that *SPARROW outperforms other programs in the prediction of short proteins. Considering the creation of combined prediction methods *SPARROW proofs to be an important contribution. For example in combination with PSIPRED using a simple combination method an accuracy of 82,54% can be measured. Another advantage of the concept of *SPARROW is the possibility to predict the eight secondary structure classes provided by DSSP, which yields a potential accuracy of 68,28%

    Similar works