Die Sekundärstrukturvorhersage von Proteinen als erster Schritt zur Aufklärung
ihrer 3D-Strukturen und Funktionen ist eine wichtige Fragestellung der
modernen Molekularbiologie. In dieser Arbeit wird mit dem Programm *SPARROW
eine neue Methode zur Vorhersage der Sekundärstruktur von Proteinen
vorgestellt, die auf einem neuartigen Lernverfahren basiert. Dieses als
vektorwertiger Klassifikator bezeichnete Verfahren verwendet eine
Klassifikatorfunktion um hochdimensionale Eingangsvektoren in einen
niederdimensionalen Ausgangsraum zu projizieren um mit Hilfe der Orientierung
dieser Ausgangsvektoren die Sekundärstrukturen zu klassifizieren. Um eine
möglichst hohe Genauigkeit dieser Klassifikationen zu gewährleisten wird die
Klassifikatorfunktion mittels empirischer Risikominimierung, einem Verfahren
der statistischen Lerntheorie, optimiert. Das *SPARROW zugrunde liegende
Verfahren besteht aus drei Stufen, von denen die ersten beiden vektorwertige
Klassifikatoren verwenden, während die dritte aus einem künstlichen neuronalen
Netz besteht. Die erste Stufe korreliert die Sekundärstruktur von Residuen,
die durch Sequenzausschnitte in Form von PSI-BLAST-Profilen repräsentiert
werden, mit der Primärstruktur. Dabei wird die von DSSP vorhergesagte
Sekundärstruktur als Referenz verwendet. Die Vorhersage der ersten Stufe wird
von der zweiten Stufe weiterverarbeitet, die damit eine Struktur-Struktur-
Korrelation darstellt. Die dritte Stufe stellt eine weitere Struktur-Struktur-
Korrelation dar, die aufgrund der nichtlinearen Natur des verwendeten
neuronalen Netzes Korrelationen höherer Ordnung in die Vorhersage einbezieht.
Durch diesen hierarchischen Aufbau verbessert jede Stufe effektiv die
Vorhersage der vorherigen Stufe. Zudem macht es diese Architektur von *SPARROW
möglich, über eine Änderung der Anzahl der berücksichtigten Klassen, in den
einzelnen Stufen Einfluss auf den Informationsfluss durch das System zu
nehmen. Tests auf dem ASTRAL40-Datensatz zeigen, dass *SPARROW bei der
Vorhersage dreier Sekundärstrukturklassen (Helices, β-Stränge und strukturlose
Regionen) eine Genauigkeit von 81,53% erreicht und somit mit existierenden
Vorhersageprogrammen vergleichbar ist. Zudem zeigt dieser Wert, dass *SPARROW
eine Verbesserung von ungefähr 0,5% gegenüber seinem Vorgänger SPARROW
erreicht. Aus den durchgeführten Untersuchungen geht weiterhin hervor, dass
*SPARROW das beste Programm zur Vorhersage kurzer Proteine ist. In Kombination
mit anderen Vorhersageprogrammen erweist sich *SPARROW als wichtiger Beitrag
zur Aufstellung kombinierter Vorhersageverfahren, die die Korrektheit der
vorhergesagten Sekundärstruktur drastisch verbessern können. So kann in der
Kombination mit PSIPRED bereits mittels einer einfachen Kombinationsmethode
eine Genauigkeit von 82,54% erreicht werden. Ein weiterer Vorteil von *SPARROW
äußert sich in der Möglichkeit der Vorhersage der acht von DSSP vorhergesagten
Sekundärstrukturklassen, was potentiell mit einer Genauigkeit von 68,28%
möglich ist.The prediction of the secondary structure of proteins as a first step towards
elucidating their 3D structure and function is an important issue of modern
molecular biology. In this thesis a new method for the prediction of protein
secondary structure is presented in form of the program *SPARROW, which is
based on a newly developed learning machine. This learning machine, denoted as
vector valued classifier, uses a vector valued function to project high
dimensional input data into a lower dimensional output space and uses the
orientation of these projections within the output space to perform the
classification of the input data into secondary structure classes. To maximize
the accuracy of classifications the vector valued classifier is optimized by
means of empirical risk minimization, a technique of statistical learning
theory. The prediction scheme underlying *SPARROW consists of three stages,
the first two of which are realized by vector valued classifiers while the
third consists of an artificial neural network. The first stage correlates the
secondary structure of residues, represented by sequence windows encoded in
form of PSI-BLAST profiles, with the primary structure (sequence). The
reference secondary structure is provided by DSSP. The prediction of the first
stage is further processed by the second stage, which thus performs a
structure-structure correlation. The final stage, being another structure-
structure correlation, makes use of the nonlinear nature of the neural network
to allow for higher order correlations in the prediction. For this hierarchic
composition each stage effectively improves the prediction of the previous
stages. Furthermore the architecture of *SPARROW allows to influence the flow
of information through the system by changing the number of classes that each
stage distinguishes. In benchmark tests on predicting three secondary
structure classes (helices, β-strands and random coils) performed on the
ASTRAL40 dataset *SPARROW achieved an accuracy of 81,53% and is thus
comparable to established programs for secondary structure prediction. In
addition *SPARROW improves the accuracy achieved by its predecessor SPARROW by
0,5%. Another result of the aforementioned investigations is that *SPARROW
outperforms other programs in the prediction of short proteins. Considering
the creation of combined prediction methods *SPARROW proofs to be an important
contribution. For example in combination with PSIPRED using a simple
combination method an accuracy of 82,54% can be measured. Another advantage of
the concept of *SPARROW is the possibility to predict the eight secondary
structure classes provided by DSSP, which yields a potential accuracy of
68,28%