thesis

Stochastic and statistical analyses for investigating protein folding kinetics

Abstract

Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Biología Molecular. Fecha de lectura: 12-01-2015Understanding how proteins are able to perform the multiple roles and activities they normally do is very important for our understanding of life. How or Why proteins adopt particular conformational states that facilitate their functionality is still an open-­‐ended question. We have made enormous strides of progress towards figuring out the physico-­‐chemical basis of this process and in general with our understanding of proteins. Continuous efforts in experimental, computational and theoretical approaches have enabled us to decipher the properties and behavior of this class of biomolecules considered to be the hardest nut to crack in the puzzle that is life. Now, we are in a firm footing with a solid theoretical framework in the form of the Energy Landscape Theory that offers the foundation on which to build scaffolds for the excavation of the mysteries of proteins. Computer Simulations have reached sufficient speeds and resolutions enabling us to come at this problem from a totally different side. Experimental approaches to study protein folding has arrived to the arenas of capturing single molecules in action as well as characterizing the crucial processes with ultrafast time resolution techniques. Convergence of these different approaches is at the forefront now with efforts toward iterative verification of computational results with experiments and replication of experimental results with simulations and a resultant net mutual learning. Towards this convergence, new methods and approaches of analysis are being developed that enables quantitative understanding of the data be it experimental or simulated, offering and incorporating simple yet fundamental views of the underlying physical processes. In this thesis, I present two such efforts that connect theory, simulations and experimental results. Proteins being inherently subjected to stochastic forces and motions, I combine stochastic kinetic simulations with very simple models to elucidate and unravel their behavior and dynamics as tuned by their energetics and kinetic barriers. How the presence or absence of a barrier (even ~ 1RT) marks a fundamental difference in the properties of proteins are clearly elucidated by analyzing the stochastic trajectories of single molecules. Firstly, I apply these simulations to study elementary helix-­‐coil kinetics followed by the studies of barrier effects on protein folding. Simple stochastic kinetic simulations open a window to peer into the dynamics and behaviors of protein molecules and serves as a bridge between simple theoretical models and experiments and simulations. Later, I build a rigorous procedure based on maximum likelihood analysis to extract conformation dynamics from single molecule experiments on proteins. The method offers a quantitative way to analyze the measurements from time-­‐ resolved single molecule FRET experiments that are a leading tool in our arsenal to understand protein folding. By enabling to distinguish protein thermodynamics as well as simultaneously characterizing the dynamics of the underlying process, the method offers a robust and powerful approach to interpret time-­‐stamped photon trajectory data and identify the right protein folding scenario that results in such data. ii The second effort is a statistical approach to making connections between thermodynamics and protein structure. By utilizing the treasure trove of structural data from numerous X-­‐ray crystallographic and NMR experiments available in the Protein Data Bank, we develop a method for extracting entropic costs of protein folding. We first develop a novel clustering methodology for partitioning the torsional angle space of protein backbones that is based on the statistics of backbone dihedral angles and reflects the natural preferences of individual amino acids to populate these particular regions. We introduce the side chain contributions based on rotameric distributions. Using a simple approach based on statistical thermodynamics, we then calculate the entropy cost of protein folding while calibrating and benchmarking it extensively with experimental data. We obtain a high correlation (R = 0.98) for the predicted and experimentally measured total entropic costs of folding. Comparisons of per residue entropy costs obtained after eliminating the well-­‐known size scaling effects in protein folding establishes the high level of signal in our predictions. Using this approach, we make connections between a protein structure and its thermodynamics of folding. The structure based protein entropies are then introduced into a model of protein folding to improve its predictive capabilities. These efforts combined, advance the recent attempts to build a convergence in the application of computational and experimental methods in expanding our understanding of protein folding.La comprensión de cómo las proteínas son capaces de abarcar los múltiples roles y actividades que desarrollan es muy importante para conocer el funcionamiento a nivel molecular de la vida. El cómo o el por qué las proteínas adoptan los estados conformacionales específicos que permiten su funcionalidad es una cuestión aún abierta. Se han logrado enormes avances para la resolución de las bases físico-­‐químicas del proceso y hacia el entendimiento general de las proteínas. Los constantes esfuerzos experimentales, computacionales y teóricos han permitido descifrar las propiedades y el comportamiento de este tipo de biomoléculas, consideradas como la pieza más complicada de resolver en el puzle de la vida. Hoy en día, se han conseguido establecer bases sólidas en el marco teórico a través de la Teoría de los Paisajes Energéticos que ofrece un punto de partida sobre la cual construir andamiajes para alcanzar el conocimiento de los misterios de las proteínas. Las Simulaciones Computacionales han conseguido suficiente velocidad y resolución para permitirnos abordar el tema desde un punto de vista totalmente diferente. Los abordajes experimentales para estudiar el plegamiento de proteínas han logrado avanzar hasta alcanzar el seguimiento de moléculas únicas en acción, así como caracterizar procesos cruciales mediante técnicas con tiempos de resolución ultrarrápidos. Actualmente, la convergencia de estos diferentes abordajes constituye la vanguardia de este área investigadora, con esfuerzos dirigidos hacia la verificación iterativa de resultados computacionales con experimentos y replicación de los resultados experimentales con simulaciones, con la consiguiente red mutua de aprendizaje. Hacia esta convergencia están siendo enfocados los nuevos métodos y abordajes de análisis en desarrollo. Estos permiten la comprensión cuantitativa de los datos experimentales o simulados, ofreciendo e incorporando visiones fundamentales de los procesos físicos subyacentes. En esta tesis, presentaré dos de tales esfuerzos que conectan la teoría, las simulaciones y los resultados experimentales. Estando las proteínas sometidas de forma inherente a fuerzas y movimientos estocásticos, he combinado simulaciones de cinética estocástica con modelos muy simples para elucidar y resolver, mediante el análisis de su energética y de sus barreras energéticas, el comportamiento y la dinámica que presentan. La presencia o ausencia de una barrera energética (incluso del orden de 1 kT) marca una diferencia fundamental en las propiedades de las proteínas, hecho que es claramente elucidado mediante el análisis de trayectorias estocásticas de moléculas únicas. Primero, he aplicado estas simulaciones al estudio cinético de la transición elemental hélice-­‐ovillo, seguido por la aplicación al estudio del efecto de cambios de la barrera energética en el plegamiento de proteínas. Las simulaciones de cinética estocástica simples abren la posibilidad de mirar de cerca la dinámica y el comportamiento de moléculas proteicas y sirven de puente entre modelos teóricos simples y datos procedentes de experimentos o de simulaciones. Posteriormente, he creado un procedimiento riguroso basado en un análisis de máxima probabilidad para extraer información de la dinámica conformacional a partir de experimentos de molécula única de proteínas. El método ofrece un medio cuantitativo de analizar las medidas de experimentos de FRET de molécula única, técnica que se ha convertido en una herramienta puntera en nuestro arsenal para entender el plegamiento de las proteínas. Gracias a la posibilidad de caracterizar la termodinámica de las proteínas así como la dinámica del proceso subyacente, el método ofrece una aproximación robusta y poderosa para interpretar los datos de trayectorias de fotones con precisión temporal generadas por una molécula proteica única e identificar el correcto escenario de plegamiento proteico que produce esos datos. El segundo esfuerzo engloba la realización de una aproximación estadística para hacer conexiones entre la termodinámica y la estructura de una proteína. Mediante el uso de la inapreciable colección de datos estructurales procedentes de numerosos experimentos de cristalografía de rayos X y de RMN disponibles en el banco de datos de proteínas (PDB), hemos desarrollado un método para extraer el coste entrópico que supone el plegamiento de una proteína. En un primer paso, hemos desarrollado una nueva metodología de agrupamiento para dividir el rango de valores de ángulos de torsión de la cadena principal que está basada en estadísticas de los ángulos diedros de la cadena principal de proteínas con estructura conocida y que refleja las preferencias naturales de aminoácidos individuales para ocupar dichas divisiones. Hemos añadido la contribución de las cadenas laterales de los aminoácidos basándonos en la distribución de rotámeros. Mediante el uso de aproximaciones simples, basadas en termodinámica estadística, hemos calculado el coste entrópico del plegamiento de proteínas, para posteriormente calibrar y evaluar estos valores con datos experimentales. Hemos obtenido una correlación alta (R = 0.98) para los costes entrópicos totales del plegamiento predichos y medidos experimentalmente. La comparación con datos previamente publicados del coste entrópico por residuo obtenido tras eliminar los efectos bien conocidos de escalado por tamaño en el plegamiento de proteínas establece el alto nivel de señal en nuestras predicciones. Utilizando esta aproximación, hemos realizado conexiones entre la estructura de una proteína y su termodinámica de plegamiento. La entropía de una proteína basada en su estructura ha sido posteriormente introducida en un modelo de plegamiento para mejorar su capacidad de predicción. Estos esfuerzos combinados suponen un avance dentro de los recientes intentos de construir una convergencia entre métodos computacionales y experimentales para expandir nuestro conocimiento sobre el plegamiento de proteínas

    Similar works

    Full text

    thumbnail-image

    Available Versions