6 research outputs found

    New Approaches to Protein NMR Automation

    Get PDF
    The three-dimensional structure of a protein molecule is the key to understanding its biological and physiological properties. A major problem in bioinformatics is to efficiently determine the three-dimensional structures of query proteins. Protein NMR structure de- termination is one of the main experimental methods and is comprised of: (i) protein sample production and isotope labelling, (ii) collecting NMR spectra, and (iii) analysis of the spectra to produce the protein structure. In protein NMR, the three-dimensional struc- ture is determined by exploiting a set of distance restraints between spatially proximate atoms. Currently, no practical automated protein NMR method exists that is without human intervention. We first propose a complete automated protein NMR pipeline, which can efficiently be used to determine the structures of moderate sized proteins. Second, we propose a novel and efficient semidefinite programming-based (SDP) protein structure determination method. The proposed automated protein NMR pipeline consists of three modules: (i) an automated peak picking method, called PICKY, (ii) a backbone chemical shift assign- ment method, called IPASS, and (iii) a protein structure determination method, called FALCON-NMR. When tested on four real protein data sets, this pipeline can produce structures with reasonable accuracies, starting from NMR spectra. This general method can be applied to other macromolecule structure determination methods. For example, a promising application is RNA NMR-assisted secondary structure determination. In the second part of this thesis, due to the shortcomings of FALCON-NMR, we propose a novel SDP-based protein structure determination method from NMR data, called SPROS. Most of the existing prominent protein NMR structure determination methods are based on molecular dynamics coupled with a simulated annealing schedule. In these methods, an objective function representing the error between observed and given distance restraints is minimized; these objective functions are highly non-convex and difficult to optimize. Euclidean distance geometry methods based on SDP provide a natural formulation for realizing a three-dimensional structure from a set of given distance constraints. However, the complexity of the SDP solvers increases cubically with the input matrix size, i.e., the number of atoms in the protein, and the number of constraints. In fact, the complexity of SDP solvers is a major obstacle in their applicability to the protein NMR problem. To overcome these limitations, the SPROS method models the protein molecule as a set of intersecting two- and three-dimensional cliques. We adapt and extend a technique called semidefinite facial reduction for the SDP matrix size reduction, which makes the SDP problem size approximately one quarter of the original problem. The reduced problem is solved nearly one hundred times faster and is more robust against numerical problems. Reasonably accurate results were obtained when SPROS was applied to a set of 20 real protein data sets

    Towards Automating Protein Structure Determination from NMR Data

    Get PDF
    Nuclear magnetic resonance (NMR) spectroscopy technique is becoming exceedingly significant due to its capability of studying protein structures in solution. However, NMR protein structure determination has remained a laborious and costly process until now, even with the help of currently available computer programs. After the NMR spectra are collected, the main road blocks to the fully automated NMR protein structure determination are peak picking from noisy spectra, resonance assignment from imperfect peak lists, and structure calculation from incomplete assignment and ambiguous nuclear Overhauser enhancements (NOE) constraints. The goal of this dissertation is to propose error-tolerant and highly-efficient methods that work well on real and noisy data sets of NMR protein structure determination and the closely related protein structure prediction problems. One major contribution of this dissertation is to propose a fully automated NMR protein structure determination system, AMR, with emphasis on the parts that I contributed. AMR only requires an input set with six NMR spectra. We develop a novel peak picking method, PICKY, to solve the crucial but tricky peak picking problem. PICKY consists of a noise level estimation step, a component forming step, a singular value decomposition-based initial peak picking step, and a peak refinement step. The first systematic study on peak picking problem is conducted to test the performance of PICKY. An integer linear programming (ILP)-based resonance assignment method, IPASS, is then developed to handle the imperfect peak lists generated by PICKY. IPASS contains an error-tolerant spin system forming method and an ILP-based assignment method. The assignment generated by IPASS is fed into the structure calculation step, FALCON-NMR. FALCON-NMR has a threading module, an ab initio module, an all-atom refinement module, and an NOE constraints-based decoy selection module. The entire system, AMR, is successfully tested on four out of five real proteins with practical NMR spectra, and generates 1.25A, 1.49A, 0.67A, and 0.88A to the native reference structures, respectively. Another contribution of this dissertation is to propose novel ideas and methods to solve three protein structure prediction problems which are closely related to NMR protein structure determination. We develop a novel consensus contact prediction method, which is able to eliminate server correlations, to solve the protein inter-residue contact prediction problem. We also propose an ultra-fast side chain packing method, which only uses local backbone information, to solve the protein side chain packing problem. Finally, two complementary local quality assessment methods are proposed to solve the local quality prediction problem for comparative modeling-based protein structure prediction methods

    Automatic assignment of protein backbone resonances by direct spectrum inspection in targeted acquisition of NMR data

    Get PDF
    The necessity to acquire large multidimensional datasets, a basis for assignment of NMR resonances, results in long data acquisition times during which substantial degradation of a protein sample might occur. Here we propose a method applicable for such a protein for automatic assignment of backbone resonances by direct inspection of multidimensional NMR spectra. In order to establish an optimal balance between completeness of resonance assignment and losses of cross-peaks due to dynamic processes/degradation of protein, assignment of backbone resonances is set as a stirring criterion for dynamically controlled targeted nonlinear NMR data acquisition. The result is demonstrated with the 12kDa 13C,15N-labeled apo-form of heme chaperone protein CcmE, where hydrolytic cleavage of 29 C-terminal amino acids is detected. For this protein, 90 and 98% of manually assignable resonances are automatically assigned within 10 and 40h of nonlinear sampling of five 3D NMR spectra, respectively, instead of 600h needed to complete the full time domain grid. In addition, resonances stemming from degradation products are identified. This study indicates that automatic resonance assignment might serve as a guiding criterion for optimal run-time allocation of NMR resources in applications to proteins prone to degradatio

    Automatische sequentielle Zuordnung von mehrdimensionalen Protein-NMR-Spektren sowie molekulardynamisch gestützte stereospezifische Zuordnung von Seitenkettenamidgruppen in Modellpeptiden

    Get PDF
    Im ersten Teil dieser Arbeit wurden die stereospezifischen Zuordnungen der Seitenkettenamidgruppen der Random-Coil-Modellpeptide Gly-Gly-Asn-Ala-NH2 und Gly-Gly-Gln-Ala-NH2 ermittelt. Stereospezifische Zuordnungen werden meistens mit Hilfe von Datenbanken bereits gelöster Biomoleküle bestimmt. Die bekannteste dieser Datenbanken ist die Biological Magnetic Resonance Data Bank (BMRB). Untersucht man die in der BMRB gespeicherten chemischen Verschiebungen genauer, so findet man Inkonsistenzen bei den stereospezifischen Zuordnungen. Es wurde außerdem festgestellt, dass die beiden Programme SHIFTS und SHIFTX, die chemischen Verschiebungen aus den 3D-Strukturen von Peptiden und Proteinen vorhersagen können, Resonanzen ebenfalls stereospezifisch falsch zuordnen können. Für die stereospezifische Zuordnung wurden NOESY-Spektren der Random-Coil-Peptide von Gly-Gly-Asn-Ala-NH2 und Gly-Gly-Gln-Ala-NH2 aufgenommen. Mit AUREMOL RELAX, das den vollständigen Relaxationsmatrixformalismus verwendet, wurden entsprechende Spektren aus Molekulardynamik (MD) Rechnungen der beiden Tetrapeptide simuliert. Ein Vergleich der experimentellen und simulierten Signalvolumina erbrachte eine eindeutige stereospezifische Zuordnung der Random-Coil-Verschiebungen der Seitenkettenamid- und Hβ-Protonen der beiden Aminosäuren. Die vorgestellte Methode hat das Potential in zukünftigen Arbeiten auf einen großen Teil aller Aminosäuren übertragen zu werden, um eine vollständige stereospezifische Random-Coil-Verschiebungsdatenbank zu erzeugen. Im zweiten Teil der Arbeit wurde SIBASA, das neue AUREMOL Modul zur automatischen Zuordnung von HSQC-Spektren und NMR-Protonenresonanzen vorgestellt. SIBASA basiert auf dem Top-Down-Ansatz und bestimmt die vollständige Zuordnung eines Proteins, indem es die optimale Übereinstimmung zwischen experimentellen und mit variablen chemischen Verschiebungen zurückgerechnete NOESY-Spektren findet. Durch den Top-Down-Ansatz ist es möglich 2-D-NOESY-Spektren von großen Proteinen als Informationsquelle der automatische Zuordnung zu verwenden. SIBASA benötigt für die vollständige Zuordnung der Protonen und Stickstoffresonanzen eine 3D-Struktur des Proteins, das 2-D-NOESY- und das 3D 15N-NOESY-HSQC-Spektrum. Die Rückrechnungen der NOESY-Spektren werden wieder mit AUREMOL RELAX erzeugt. RELAX wertet zudem MD-Trajektorien aus, um Informationen über lokale Beweglichkeit im Protein erhalten. Mithilfe der Programme SHIFTS und SHIFTX2 kann SIBASA Wahrscheinlichkeitsdichteverteilungen der chemischen Verschiebungen der zuzuordnen Kerne aus der MD-Trajektorie des betrachten Proteins vorhersagen, was zur Verbesserung der Zuverlässigkeit und Geschwindigkeit der automatischen Zuordnung führt. Die optimale Übereinstimmung der experimentellen und der zurückgerechneten NOESY-Spektren wird durch den Threshold-Accepting-Algorithmus, der in mehreren Instanzen mit verschiedenen Startzuordnung ausgeführt wird, bestimmt. Mehrere Instanzen helfen SIBASA die wahrscheinlichste vollständige Zuordnung zu finden und sind Voraussetzung für die Verifikation. SIBASA ist in der Lage, jeder automatisch gefundene Zuordnung eine Wahrscheinlichkeit zuzuordnen. Die automatische Zuordnung wurde mit den NOESY-Spektren und den Röntgenstrukturen der Proteine von S. aureus HPr (H15A) (88 Aminosäuren), von Thioredoxin Plasmodium falciparum (PfTrx) (104 Aminosäuren) und von Ras(T35S)-GppNHp (166 Aminosäuren) getestet. SIBASA konnte 91,3 % der Resonanzen von HPr (H15A), 81,9 % der Resonanzen von PfTrx und 77,6 % der Resonanzen von Ras(T35S)-GppNHp richtig zuordnen. Eine Verifikation auf dem signifikanten Niveau ermöglicht es, einen großen Teil der falschen Zuordnungen von den richtigen zu trennen. Insgesamt erhielten 77,8 % der automatisch gefunden Resonanzzuordnungen von HPr (H15A), 77,5 % der gefunden Resonanzzuordnungen von PfTrx und 66,8 % der Resonanzzuordnungen von Ras(T35S)-GppNHp von SIBASA eine Wahrscheinlichkeit von mindestens 95 %. Von diesen Resonanzen sind beim HPr (H15A) nur 3,5 %, beim PfTrx nur 9,7 % und beim Ras(T35S)-GppNHp nur 10,2 % falsch zugeordnet worden. Es wurde anhand der drei Proteine gezeigt, dass SIBASA in der Lage ist HSQC-Spektren sicher teilzuordnen. Das HSQC-Spektrum von HPr (H15A) konnte von SIBASA vollständig richtig zugeordnet werden. Beim PfTrx waren 90 % und beim Ras(T35S)-GppNHp 88 % der automatisch gefundenen HSQC-Zuordnungen richtig. Vertraut man nur Zuordnungen von HSQC-Signalen, die von SIBASA bestätigt wurden, so konnten 82 % der Signale von HPr (H15A), 72 % der Signale von PfTrx und 68 % der HSQC-Signale des Ras(T35S)-GppNHp richtig zugeordnet werden. In keinem Fall enthielt die Gruppe der bestätigten Signale eine falsche Zuordnung. Das vorgestellte Modul ermöglicht es für die Wirkstoffentwicklung wichtige [1H,15N]-HSQC-Spektren automatisch zuzuordnen, ohne auf die umständliche Markierung der Proteine mit dem Isotop 13C zurückgreifen zu müssen, wobei eine Kristall- oder eine NMR-Struktur eines homologen Proteins verfügbar ist
    corecore