unknown

Likelihood of protein structure determination

Abstract

Strukturelle Genomanalyse (SG) beinhaltet die, mit hohem datendurchsatz verbundene bestimmung der dreidimensionalen struktur von makromolekülen durch experimentelle Methoden wie röntgenstrahlen-kristallographie und NMR spektroskopie. Eines der ziele von SG ist es, zeit und kosten der bestimmung von dreidimensionalen proteinstrukturen zu reduzieren, für die homologe strukturen noch nicht gelöst worden sind. Mehrere faktoren wie unregelmäßige conformationen, unzulässige selektion von domängrenzen und löslichkeit können die produktion von proteinkonstrukten für die strukturbiologie erschweren. Zuverlässige, auf aminosäuresequenz basierende prädiktoren zur berechnung von proteinkristallisation sind folglich von nöten. Die vorhersage von unregelmäßigen konformationen ist essentiell, da diese schwierigkeiten in der kristallisation verursachen können. In dieser arbeit wird eine neue methode präsentiert, die es erlaubt, ungeordnete residuen auf basis der aminosäuresequenz mit hoher genauigkeit vorherzusagen, indem verschiedene, auf einer konsensusmethode basierende vorhersagemittel verwendet werden. Die Leistung dieser neuen methode ist signifikant besser als von jedem einzelnen, bisher erwähnten Prädiktor. Zusätzlich ist es wichtig, die voraussetzungen für den quartärstatus eines proteins auf basis seiner sequenz vorherzusagen. Eine Proteinkette kann aus einem monomeren protein bestehen, oder kann, zusammen mit anderen ketten, oligomere komplexe formen, die entweder aus homo-oligomeren oder hetero-oligomeren bestehen können. Im letzten fall muss vermieden werden, die dreidimensionale struktur eines einzelnen protomers zu bestimmen, weil es nicht funktionell ist und auch extrem schwer in löslicher form zu exprimieren ist. Es ist daher erstrebenswert, ein berechnungsmittel zu nützen, das vorherzusagen erlaubt, ob ein potentielles genprodukt teil eines permanenten und obligaten hetero-oligomeren komplexes ist. Hier wird eine neue, auf der aminosäuresequenz basierende methode präsentiert, um hetero-oligomere von monomer und homo-oligomeren proteinen und auch um monomere von homo-oligomeren mit hoher genauigkeit zu unterscheiden. Das erfordernis von metallionen ist im design von strukturbiologischen experimenten ebenso wichtig. Metalloproteine bilden etwa ein drittel der proteoms. Die vorhersage von metalloproteinen hilft kristallographen, geeignetes wachstumsmedium für überexpressionsstudien auszuwählen und auch die wahrscheinlichkeit zu erhöhen, ein korrekt gefaltetes und funktionelles molekül zu erhalten. Hier wird gezeigt, dass die aufnahme von metallionen von proteinen auf basis der aminosäurenzusammensetzung und durch verwenden von lernfähigen analyseprogrammen mit hoher genauigkeit vorhergesagt werden kann. Die ergebnisse in der vorliegenden Doktorarbeit stellen die basis für das sorgfältige design von Proteinkonstrukten dar. Diese computer basierenden selektionsmethoden sind hilfreich, um die auswahl von unmöglichen Zielen zu vermeiden – ein Muss in Strukturbiologie und Proteomics.Structural Genomics (SG) involves the high-throughput determination of threedimensional structures of macromolecules by experimental methods such as X-ray crystallography and NMR spectroscopy. One of the aims of SG is to reduce the time and cost in the determination of three-dimensional protein structures for which a homologous structure had not yet been solved. Several factors such as conformational disorder, improper selection of domain boundaries and solubility can hamper the production of protein constructs for structural biology. Reliable computational protein crystallization propensity predictors, based on amino acid sequences, are consequently required. Prediction of protein conformational disorder is important since it can cause difficulty in crystallization. In this work, a new procedure is presented that allows one to predict disordered residues with high accuracy on the basis of amino acid sequences, by using a consensus method based on various prediction tools. The performance of this new procedure is significantly better than that of each individual predictor previously reported. Furthermore, it is important to be able to predict the quaternary status requirements of a protein on the basis of its sequence. A protein chain can be a monomeric protein or it can form, together with other chains, oligomeric assemblies, which can be either homooligomers or hetero-oligomers. In the later case, it must be avoided to determine the three-dimensional structure of a single protomer, since it will not be functional and it will also be extremely difficult to express in a soluble form. It is thus desirable to have a computational tool that allows one to predict if a potential gene product is a part of permanent and obligate hetero-oligomeric assembly. A new method is presented for discriminating hetero-oligomers from monomeric and homo-oligomeric proteins and also between monomers and homo-oliogmers with high accuracy on the basis of amino acid sequences. Metal ion requirements are also important in designing structural biology experiments. Metalloproteins constitute about one-third of the proteome. Prediction of metalloprotein helps crystallographers to select the proper growth medium for over-expression studies and also to increase the probability of obtaining a properly folded and functional molecule. Here it is shown that the uptake of metal ions by proteins can be predicted with high accuracy on the basis of the amino acid composition and by using machine learning methods. The results described in the present Thesis provide a basis for the careful design of protein constructs. These computational screening methods are helpful to avoid the selection of 'impossible' targets- a must in structural biology and proteomics

    Similar works