13 research outputs found

    CABS-flex predictions of protein flexibility compared with NMR ensembles

    Full text link
    Motivation: Identification of flexible regions of protein structures is important for understanding of their biological functions. Recently, we have developed a fast approach for predicting protein structure fluctuations from a single protein model: the CABS-flex. CABS-flex was shown to be an efficient alternative to conventional all-atom molecular dynamics (MD). In this work, we evaluate CABS-flex and MD predictions by comparison with protein structural variations within NMR ensembles. Results: Based on a benchmark set of 140 proteins, we show that the relative fluctuations of protein residues obtained from CABS-flex are well correlated to those of NMR ensembles. On average, this correlation is stronger than that between MD and NMR ensembles. In conclusion, CABS-flex is useful and complementary to MD in predicting of protein regions that undergo conformational changes and the extent of such changes

    Aggrescan3D (A3D) 2.0 : prediction and engineering of protein solubility

    Get PDF
    Protein aggregation is a hallmark of a growing number of human disorders and constitutes a major bottleneck in the manufacturing of therapeutic proteins. Therefore, there is a strong need of in-silico methods that can anticipate the aggregative properties of protein variants linked to disease and assist the engineering of soluble protein-based drugs. A few years ago, we developed a method for structure-based prediction of aggregation properties that takes into account the dynamic fluctuations of proteins. The method has been made available as the Aggrescan3D (A3D) web server and applied in numerous studies of protein structure-aggregation relationship. Here, we present a major update of the A3D web server to version 2.0. The new features include: extension of dynamic calculations to significantly larger and multimeric proteins, simultaneous prediction of changes in protein solubility and stability upon mutation, rapid screening for functional protein variants with improved solubility, a REST-ful service to incorporate A3D calculations in automatic pipelines, and a new, enhanced web server interface. A3D 2.0 is freely available at: http://biocomp.chem.uw.edu.pl/A3D2

    AGGRESCAN3D (A3D) : server for prediction of aggregation properties of protein structures

    Get PDF
    Altres ajuts: ICREA Academia 2009 to S.VProtein aggregation underlies an increasing number of disorders and constitutes a major bottleneck in the development of therapeutic proteins. Our present understanding on the molecular determinants of protein aggregation has crystalized in a series of predictive algorithms to identify aggregation-prone sites. A majority of these methods rely only on sequence. Therefore, they find difficulties to predict the aggregation properties of folded globular proteins, where aggregation-prone sites are often not contiguous in sequence or buried inside the native structure. The AGGRESCAN3D (A3D) server overcomes these limitations by taking into account the protein structure and the experimental aggregation propensity scale from the well-established AGGRESCAN method. Using the A3D server, the identified aggregation-prone residues can be virtually mutated to design variants with increased solubility, or to test the impact of pathogenic mutations. Additionally, A3D server enables to take into account the dynamic fluctuations of protein structure in solution, which may influence aggregation propensity. This is possible in A3D Dynamic Mode that exploits the CABS-flex approach for the fast simulations of flexibility of globular proteins. The A3D server can be accessed at http://biocomp.chem.uw.edu.pl/A3D/

    Ensembles of Hydrophobicity Scales as Potent Classifiers for Chimeric Virus-Like Particle Solubility – An Amino Acid Sequence-Based Machine Learning Approach

    Get PDF
    Virus-like particles (VLPs) are protein-based nanoscale structures that show high potential as immunotherapeutics or cargo delivery vehicles. Chimeric VLPs are decorated with foreign peptides resulting in structures that confer immune responses against the displayed epitope. However, insertion of foreign sequences often results in insoluble proteins, calling for methods capable of assessing a VLP candidate’s solubility in silico. The prediction of VLP solubility requires a model that can identify critical hydrophobicity-related parameters, distinguishing between VLP-forming aggregation and aggregation leading to insoluble virus protein clusters. Therefore, we developed and implemented a soft ensemble vote classifier (sEVC) framework based on chimeric hepatitis B core antigen (HBcAg) amino acid sequences and 91 publicly available hydrophobicity scales. Based on each hydrophobicity scale, an individual decision tree was induced as classifier in the sEVC. An embedded feature selection algorithm and stratified sampling proved beneficial for model construction. With a learning experiment, model performance in the space of model training set size and number of included classifiers in the sEVC was explored. Additionally, seven models were created from training data of 24–384 chimeric HBcAg constructs, which were validated by 100-fold Monte Carlo cross-validation. The models predicted external test sets of 184–544 chimeric HBcAg constructs. Best models showed a Matthew’s correlation coefficient of >0.6 on the validation and the external test set. Feature selection was evaluated for classifiers with best and worst performance in the chimeric HBcAg VLP solubility scenario. Analysis of the associated hydrophobicity scales allowed for retrieval of biological information related to the mechanistic backgrounds of VLP solubility, suggesting a special role of arginine for VLP assembly and solubility. In the future, the developed sEVC could further be applied to hydrophobicity-related problems in other domains, such as monoclonal antibodies

    Predictions of Backbone Dynamics in Intrinsically Disordered Proteins Using De Novo Fragment-Based Protein Structure Predictions

    Get PDF
    Intrinsically disordaered proteins (IDPs) are a prevalent phenomenon with over 30% of human proteins estimated to have long disordered regions. Computational methods are widely used to study IDPs, however, nearly all treat disorder in a binary fashion, not accounting for the structural heterogeneity present in disordered regions. Here, we present a new de novo method, FRAGFOLD-IDP, which addresses this problem. Using 200 protein structural ensembles derived from NMR, we show that FRAGFOLD-IDP achieves superior results compared to methods which can predict related data (NMR order parameter, or crystallographic B-factor). FRAGFOLD-IDP produces very good predictions for 33.5% of cases and helps to get a better insight into the dynamics of the disordered ensembles. The results also show it is not necessary to predict the correct fold of the protein to reliably predict per-residue fluctuations. It implies that disorder is a local property and it does not depend on the fold. Our results are orthogonal to DynaMine, the only other method significantly better than the naïve prediction. We therefore combine these two using a neural network. FRAGFOLD-IDP enables better insight into backbone dynamics in IDPs and opens exciting possibilities for the design of disordered ensembles, disorder-to-order transitions, or design for protein dynamics

    Data-Driven Process Development for Virus-Like Particles - Implementation of Process Analytical Technology, Molecular Modeling, and Machine Learning

    Get PDF
    Im Laufe des 20. Jahrhunderts stieg die Lebenserwartung deutlich an. Aus medizinischer Sicht trugen vor allem die umfassende Verbesserung der Hygiene und die Einführung von Impfprogrammen zu diesem Erfolg bei. Impfstoffe waren die ersten biologischen Produkte, die systematisch als medizinische Präparate eingesetzt wurden, und ebneten damit den Weg zur modernen pharmazeutischen Biotechnologie. Nach Insulin und menschlichem Wachstumshormon war eines der frühesten biotechnologisch hergestellten pharmazeutischen Produkte ein rekombinanter Impfstoff, im Speziellen ein virusähnliches Partikel (virus-like particle, VLP) auf Basis von rekombinantem Hepatitis-B-Oberflächenantigen. VLPs beinhalten keine infektiösen viralen Nukleinsäuren und sie ähneln dem Virus, von dem sie abgeleitet sind, wodurch sie eine Immunantwort induzieren können. Obwohl dieser Hepatitis-B-Impfstoff gegenwärtig noch verwendet wird, ist die heutige Anwendung von VLPs sehr unterschiedlich, wie aus zahlreichen präklinischen und klinischen Studien hervorgeht. VLPs werden als mögliche Impfstoffe gegen Infektionskrankheiten, immunologische Erkrankungen oder Krebs untersucht. Ihre starke Immunogenität wird für die Präsentierung von fremdantigenen Epitopen auf den VLPs genutzt, was sie zu chimären VLPs (chimeric virus-like particles, cVLPs) macht. Als solche induzieren sie nachweislich Immunantworten gegen Krebszellen und überwinden die natürliche immunologische Selbsttoleranz gegenüber Krebsantigenen. Allerdings ist ihr hohes Potenzial mit Herausforderungen verbunden, beispielsweise im Zusammenhang mit ihrem molekularen Design und dem Produktionsprozess. Das Ziel des molekularen Designs ist die Entwicklung immunogener und stabiler VLP-Kandidaten. Der Prozess, um geeignete VLP-Kandidaten zu finden, ist jedoch typischerweise empirisch und bringt Herausforderungen wie eine geringe Löslichkeit nach der Expression in rekombinanten Wirten oder unzureichende VLP-Immunogenität mit sich. Dem VLP-Produktionsprozess mangelt es an maßgeschneiderten Aufreinigungsmethoden, was im Vergleich zu etablierten biopharmazeutischen Produkten, wie z.B. monoklonalen Antikörpern, zu einer geringeren Produktivität führt. Hinzu kommt, dass bei der VLP-Prozessierung VLP-spezifische Prozessschritte, wie z.B. die Zerlegung und Reassemblierung der Partikel, entworfen werden müssen. Die Bewältigung dieser Herausforderungen würde von datengestützten Ansätzen wie der prozessanalytischen Technologie (process analytical technology, PAT), der molekularen Modellierung und dem maschinellen Lernen profitieren. Diese würden das Prozess- und Produktverständnis verbessern, den experimentellen Aufwand reduzieren und eine effiziente Überwachung und Steuerung der Prozesse ermöglichen. Daher war es Ziel dieser Arbeit, Antworten auf mehrere dieser Herausforderungen zu finden, indem datengestützte Ansätze implementiert wurden, um die Entwicklung maßgeschneiderter Prozessschritte zu begleiten. Im ersten Teil dieser Arbeit werden VLPs und ihre Produktionsprozesse besprochen, die Vorteile der Implementierung von PAT beschreiben, die Herausforderungen im Zusammenhang mit ihrem molekularen Design beleuchtet und die Möglichkeiten der Anwendung des maschinellen Lernens bei der VLP-Entwicklung und -Prozessierung aufgezeigt. Der zweite Teil dieser Arbeit beschreibt fünf Studien, die darauf abzielen, Antworten auf einige der mit dem VLP-Design und der biotechnologischen Verfahrenstechnik verbundenen Herausforderungen zu finden. Die erste Studie (Kapitel 3) befasst sich mit einem besonderen VLP-spezifischen Prozessschritt. Für eine verbesserte Stabilität, Homogenität und Immunogenität müssen VLPs zerlegt und wieder reassembliert werden. Ausgehend von einer Hoch-pH-Lösung, die zerlegte VLPs enthält, wird die Reassemblierung durch die Erhöhung der Ionenstärke und die Senkung des pH-Wertes erreicht. Die meisten Prozesse im Labormaßstab nutzen die Dialyse für diesen Pufferaustausch, während die Querstromfiltration (cross-flow filtration, CFF) für den Pufferaustausch besser skalierbar ist, den Pufferverbrauch reduziert und die Ausbeute verbessert. Im Vergleich zur Dialyse erfordert die CFF mehr technisches Wissen und Kenntnisse über den VLP-Reassemblierungssfortschritt während des Prozesses. Eine umfassende Überwachungsstrategie wäre daher sehr vorteilhaft, um eine (Beinahe-) Echtzeit-Kontrolle des VLP-Reassemblierungsprozesses durch CFF zu implementieren. In dieser ersten Studie wird ein Aufbau zur Überwachung der VLP-Reassemblierung durch CFF mittels einer Online-Messschleife mit zwei verschiedenen spektroskopischen Sensoren beschrieben. Eine mögliche Kontrollstrategie für den VLP-Assemblierungsprozess wurde in der Überwachung der statischen und dynamischen Lichtstreuung gesehen. Das Maximum des statischen Streulichtsignals fiel mit der maximalen VLP-Konzentration zusammen. Diese Information ist sehr wertvoll, da nach diesem VLP-Konzentrationsmaximum eine Degradationsphase beobachtet wurde, die vermieden werden sollte, um Ausbeute und Reinheit der VLPs zu optimieren. Die Analyse der zweiten Ableitung der ultravioletten und sichtbaren (ultraviolet and visible, UV/Vis) Spektren erwies sich als praktikable orthogonale Methode zur Überwachung der VLP-Assemblierung, insbesondere mit dem sogenannten a/b-Verhältnis. Das a/b-Verhältnis, welches sich im Zeitverlauf der Prozesse änderte, beschreibt die Solvatisierung von Tyrosin. Die Beobachtung der Veränderung des a/b-Verhältnisses deckt sich mit der Tatsache, dass Tyrosin 132 nach der Assemblierung in einer hydrophoben Tasche eingebettet wird. Zusätzlich konnte ein Modell der Regression der partiellen kleinsten Quadrate (partial least squares), das auf den aufgezeichneten UV/Vis-Spektren basiert, die VLP-Konzentrationen abschätzen mit dem Potential, als (Beinahe-) Echtzeitmodell angewendet zu werden. Die etablierte Überwachungsstragie wurde genutzt um optimale Prozessbedingungen für drei chimäre hepatitis B core antigen (HBcAg)- Konstrukte zu ermitteln. Dies resultierte in unterschiedlichen Prozesszeiten, um die maximale VLP-Konzentration zu erreichen. Das cVLP mit dem stärksten negativen Zetapotential assemblierte am spätesten, wahrscheinlich aufgrund abstoßender elektrostatischer Kräfte. Es erfordert daher Puffer mit höheren Ionenstärken für die Reassemblierung. Die Bedeutung des Zetapotenzials für die VLP-Prozessierung war Teil der Motivation für die zweite Studie (Kapitel 4). Das Zetapotential und andere biophysikalische Parameter können nur gemessen werden, wenn Material experimentell in ausreichenden Mengen produziert wurde. Es wäre daher wünschenswert, diese Parameter vorherzusagen, um Ressourcen zu sparen. Es wurde bereits gezeigt, dass Oberflächeneigenschaften aus dreidimensionalen (3-D) Strukturen abgeleitet werden können. 3-D-Strukturen neuartiger Moleküle sind jedoch nicht verfügbar und ihre experimentelle Erzeugung ist langwierig und mühsam. Eine Alternative ist die rechnergestützte 3-D-Strukturerzeugung mit Template-Modellierung und Molekulardynamik-Simulationen (MD). Dieser in silico Arbeitsablauf erfordert üblicherweise signifikante Benutzerinteraktion, Expertenwissen, um die Simulationen zu designen und zu steuern, und viel Rechenleistung. Um diese Limitationen zu überwinden, wurde in dieser Studie ein robuster und automatisierter Arbeitsablauf zur Erzeugung von 3-D Strukturen etabliert. Der Arbeitsablauf ist datenabhängig, minimiert Benutzerinteraktion und reduziert die benötigte Rechenleistung. Die Eingabe in den entwickelten Arbeitsablauf war eine Aminosäuresequenz und eine Strukturvorlage. Die Vorlage wurde automatisch von einer Proteinstrukturdatenbank heruntergeladen, bereinigt und die Struktur wurde Homologie-modelliert, gefolgt von einer Energieminimierung. Eine datenabhängige dreistufige MD-Simulation verfeinerte die Struktur, wobei ein kontinuierlich zunehmender Bereich des Moleküls simuliert wurde, bis schließlich das gesamte Molekül frei simuliert wurde. Der dreistufige MD-Simulationsansatz lieferte hierbei einen großen Beitrag zur Reduktion der benötigten Rechenleistung, in dem strukturell besonders unsichere Bereiche des Moleküls zunächst gesondert simuliert wurden. Oft werden MD-Simulationen nach einer bestimmten Simulationszeit beendet. In dieser Studie beendete die entwickelte datenabhängige Simulationskontrolle die Simulationen, wenn ein Stabilitätsfenster (Window of Stability, WoS) von 2 ns erreicht wurde, definiert durch die Wurzel der mittleren quadratischen Abweichung (root mean square deviation, RMSD) der Atomkoordinaten. Dies stellte sicher, dass die Fluktuationen der MD-Simulation zwischen allen simulierten Konstrukten innerhalb des genannten WoS am Ende der Simulation vergleichbar waren. Der Arbeitsablauf führte zu angemessenen Simulationszeiten (6,6-37,5 h) und einer hohen Gesamtstrukturqualität für die drei chimären HBcAg-Dimere. Um die Anwendbarkeit der Methode zu demonstrieren, wurde eine Fallstudie durchgeführt, in der die in silico Oberflächenladung von HBcAg-Dimeren mit dem experimentellen Zeta-Potential ganzer Kapside korreliert wurde, was eine hohe lineare Korrelation zeigte. Die Extraktion der Oberflächenladung aus dem WoS war robuster als aus einem einzelnen Simulationsschnappschuss, was die Nützlichkeit des entwickelten Ansatzes unterstreicht. Die dritte Studie (Kapitel 5) befasst sich mit dem Problem, dass VLPs häufig mit Technologien prozessiert werden, die ursprünglich für kleinere Produkte entwickelt wurden. Dies führt oft zu Prozesslimitationen wie geringe Bindekapazitäten von Chromatographieharzen, die im downstream process verwendet werden. Daher wurde eine neue Aufreinigungsstrategie entwickelt, die drei verschiedene größenselektive Methoden integriert, da sie für die selektive Abtrennung von VLPs von Verunreinigungen vielversprechend erschienen. Die Methoden waren Fällung/Rücklösung, CFF und Größenausschlusschromatographie (size exclusion chromatography, SEC). Es wurden drei Verfahrensvarianten entwickelt und untersucht, wobei die beste aus Fällung, Waschen und Rücklösung auf einer CFF-Einheit, gefolgt von einer Reinigung durch eine multimodale SEC-Säule bestand. Dieses Verfahren zeigte die höchste Reinheit sowie eine hohe Ausbeute und Produktivität. Die entwickelten Verfahren waren den in der Literatur beschriebenen Verfahren vergleichbar oder überlegen. Die Überwachung und Fraktionierung des Permeatstroms ermöglichte es zudem, produkthaltige Fraktionen für das selektive Vereinigen zu identifizieren. Auf diese Weise können Produktkonzentration- und Reinheit eingestellt werden. Eines der Hauptprobleme beim Molekulardesign von cVLPs ist, dass die Kandidaten bei der Expression oft unlöslich sind. Der Prozess zur Identifizierung unlöslicher VLP-Konstrukte ist typischerweise empirisch und deshalb Zeit- und Ressourcenintensiv. Diese Herausforderung kann mit einem Modell bewältigt werden, welches die Löslichkeit von cVLPs vorhersagt. In Kapitel 6 wurde ein Soft Ensemble Vote Classifier (sEVC) als Werkzeug auf Basis von maschinellem Lernen zur Vorhersage der cVLP-Löslichkeit entwickelt, basierend auf 568 verschiedenen Aminosäuresequenzen und 91 verschiedenen Hydrophobizitäts-Skalen. Das Ensemble-Modell aggregiert die Vorhersage der einzelnen Klassifikatoren, bei denen es sich um einstufige Entscheidungsbäume handelt. Diese wurden jeweils mit einem Hydrophobizitäts-Merkmal auf der Grundlage einer Hydrophobizitäts-Skala trainiert. Stratifizierte Trainingssatzprobenahme und Merkmalsauswahl kamen der Modellbildung zugute. Die besten Modelle wiesen einen Matthew-Korrelationskoeffizienten (Matthew’s correlation coefficient, MCC) von >0,6 auf, der mit den statistischen Größen von Löslichkeitsmodellen aus der Literatur vergleichbar oder diesen überlegen ist. Zusätzlich ermöglichte die Merkmalsauswahl (feature selection) die Identifizierung charakteristischer Eigenschaften (features) des untersuchten cVLP-Löslichkeitsproblems, wobei die Bedeutung verschiedener Aminosäuren für die cVLP-Löslichkeit hervorgehoben wurde. Die Analyse legte nahe, dass Arginin eine wichtige Rolle bei der Rekrutierung von VLP-Untereinheiten während der Kapsidassemblierung spielen könnte. Die letzte Studie baute auf dem Modell und den Ergebnissen von Kapitel 6 auf, mit dem Ziel, die Vorhersageergebnisse zu optimieren und mehr versteckte Informationen aus den Daten zu extrahieren. In der vorherigen Studie wurde eine systematische Fehlklassifikation beobachtet. Dies wurde mit einem Optimierungsalgorithmus angegangen, der die Vorhersage des Modells anpasste, wenn diese systematischen Fehlklassifikationen im Trainingsdatensatz beobachtet wurden. Eine zweite Optimierungsstrategie synthetisierte und optimierte Hydrophobizitäts-Skalen spezifisch für das vorgestellte cVLP-Löslichkeitsproblem. Dabei wurde die Bedeutung von Tryptophan als möglicher Disruptor der Proteinfaltung anhand der Daten vorgeschlagen. Das beste Modell, das mit den entwickelten Optimierungsworkflows erstellt wurde, zeigte einen MCC von 0,77 (Korrektklassifikationsrate von 0,88) in Bezug auf das externe Test-Set. Schließlich wurde das sEVC-Framework in einer Fallstudie evaluiert, um Ammoniumsulfatkonzentrationen vorherzusagen, wie sie für die VLP-Fällung erforderlich sind (wie auch in Kapitel 5 angewandt). Daher wurde das Modell so umgestaltet, dass es als Regressionswerkzeug fungiert. Es wurde mit Daten der Ammoniumsulfat-induzierten Fällung von zehn cVLPs bewertet. Die lineare Regression zeigte eine vielversprechende Korrelation mit einem R² von 0,69. Zusammenfassend lässt sich sagen, dass sowohl von dem Standpunkt der Prozessentwicklung als auch von der computergestützen Entwicklung aus eine Reihe von Methoden entwickelt wurde, die den Weg zu einem VLP-Plattformprozess ebnen könnten. Die Integration von datengesteuerten Ansätzen wie PAT, 3-D-Strukturmodellierung und maschinelles Lernen kann sowohl der Effizienz als auch dem Verständnis der VLP-Prozessierung in der biopharmazeutischen Industrie zugutekommen
    corecore