84 research outputs found
Evolving Cellular Automata Schemes for Protein Folding Modeling Using the Rosetta Atomic Representation
Financiado para publicación en acceso aberto: Universidade da Coruña/CISUG [Abstract] Protein folding is the dynamic process by which a protein folds into its final native structure. This is different to the traditional problem of the prediction of the final protein structure, since it requires a modeling of how protein components interact over time to obtain the final folded structure. In this study we test whether a model of the folding process can be obtained exclusively through machine learning. To this end, protein folding is considered as an emergent process and the cellular automata tool is used to model the folding process. A neural cellular automaton is defined, using a connectionist model that acts as a cellular automaton through the protein chain to define the dynamic folding. Differential evolution is used to automatically obtain the optimized neural cellular automata that provide protein folding. We tested the methods with the Rosetta coarse-grained atomic model of protein representation, using different proteins to analyze the modeling of folding and the structure refinement that the modeling can provide, showing the potential advantages that such methods offer, but also difficulties that arise.This study was funded by the Xunta de Galicia and the European Union (European Regional Development Fund - Galicia 2014-2020 Program), with grants CITIC (ED431G 2019/01), GPC ED431B 2019/03 and IN845D-02 (funded by the “Agencia Gallega de Innovación”, co-financed by Feder funds), and by the Spanish Ministry of Science and Innovation (project PID2020-116201GB-I00). Open Access funding provided thanks to the CRUE-CSIC agreement with Springer NatureXunta de Galicia; ED431G 2019/01Xunta de Galicia; ED431B 2019/03Xunta de Galicia; IN845D-0
Optimización de algoritmos bioinspirados en sistemas heterogéneos CPU-GPU.
Los retos científicos del siglo XXI precisan del tratamiento y análisis de una ingente cantidad de información en la conocida como la era del Big Data. Los futuros avances en distintos sectores de la sociedad como la medicina, la ingeniería o la producción eficiente de energía, por mencionar sólo unos ejemplos, están supeditados al crecimiento continuo en la potencia computacional de los computadores modernos. Sin embargo, la estela de este crecimiento computacional, guiado tradicionalmente por la conocida “Ley de Moore”, se ha visto comprometido en las últimas décadas debido, principalmente, a las limitaciones físicas del silicio. Los arquitectos de computadores han desarrollado numerosas contribuciones multicore, manycore, heterogeneidad, dark silicon, etc, para tratar de paliar esta ralentización computacional, dejando en segundo plano otros factores fundamentales en la resolución de problemas como la programabilidad, la fiabilidad, la precisión, etc.
El desarrollo de software, sin embargo, ha seguido un camino totalmente opuesto, donde la facilidad de programación a través de modelos de abstracción, la depuración automática de código para evitar efectos no deseados y la puesta en producción son claves para una viabilidad económica y eficiencia del sector empresarial digital. Esta vía compromete, en muchas ocasiones, el rendimiento de las propias aplicaciones; consecuencia totalmente inadmisible en el contexto científico.
En esta tesis doctoral tiene como hipótesis de partida reducir las distancias entre los campos hardware y software para contribuir a solucionar los retos científicos del siglo XXI. El desarrollo de hardware está marcado por la consolidación de los procesadores orientados al paralelismo masivo de datos, principalmente GPUs Graphic Processing Unit y procesadores vectoriales, que se combinan entre sí para construir procesadores o computadores heterogéneos HSA.
En concreto, nos centramos en la utilización de GPUs para acelerar aplicaciones científicas. Las GPUs se han situado como una de las plataformas con mayor proyección para la implementación de algoritmos que simulan problemas científicos complejos. Desde su nacimiento, la trayectoria y la historia de las tarjetas gráficas ha estado marcada por el mundo de los videojuegos, alcanzando altísimas cotas de popularidad según se conseguía más realismo en este área. Un hito importante ocurrió en 2006, cuando NVIDIA (empresa líder en la fabricación de tarjetas gráficas) lograba hacerse con un hueco en el mundo de la computación de altas prestaciones y en el mundo de la investigación con el desarrollo de CUDA “Compute Unified Device Arquitecture. Esta arquitectura posibilita el uso de la GPU para el desarrollo de aplicaciones científicas de manera versátil. A pesar de la importancia de la GPU, es interesante la mejora que se puede producir mediante su utilización conjunta con la CPU, lo que nos lleva a introducir los sistemas heterogéneos tal y como detalla el título de este trabajo. Es en entornos heterogéneos CPU-GPU donde estos rendimientos alcanzan sus cotas máximas, ya que no sólo las GPUs soportan el cómputo científico de los investigadores, sino que es en un sistema heterogéneo combinando diferentes tipos de procesadores donde podemos alcanzar mayor rendimiento. En este entorno no se pretende competir entre procesadores, sino al contrario, cada arquitectura se especializa en aquella parte donde puede explotar mejor sus capacidades.
Donde mayor rendimiento se alcanza es en estos clústeres heterogéneos, donde múltiples nodos son interconectados entre sí, pudiendo dichos nodos diferenciarse no sólo entre arquitecturas CPU-GPU, sino también en las capacidades computacionales dentro de estas arquitecturas. Con este tipo de escenarios en mente, se presentan nuevos retos en los que lograr que el software que hemos elegido como candidato se ejecuten de la manera más eficiente y obteniendo los mejores resultados posibles.
Estas nuevas plataformas hacen necesario un rediseño del software para aprovechar al máximo los recursos computacionales disponibles. Se debe por tanto rediseñar y optimizar los algoritmos existentes para conseguir que las aportaciones en este campo sean relevantes, y encontrar algoritmos que, por su propia naturaleza sean candidatos para que su ejecución en dichas plataformas de alto rendimiento sea óptima. Encontramos en este punto una familia de algoritmos denominados bioinspirados, que utilizan la inteligencia colectiva como núcleo para la resolución de problemas. Precisamente esta inteligencia colectiva es la que les hace candidatos perfectos para su implementación en estas plataformas bajo el nuevo paradigma de computación paralela, puesto que las soluciones pueden ser construidas en base a individuos que mediante alguna forma de comunicación son capaces de construir conjuntamente una solución común.
Esta tesis se centrará especialmente en uno de estos algoritmos bioinspirados que se engloba dentro del término metaheurísticas bajo el paradigma del Soft Computing, el Ant Colony Optimization “ACO”. Se realizará una contextualización, estudio y análisis del algoritmo. Se detectarán las partes más críticas y serán rediseñadas buscando su optimización y paralelización, manteniendo o mejorando la calidad de sus soluciones. Posteriormente se pasará a implementar y testear las posibles alternativas sobre diversas plataformas de alto rendimiento. Se utilizará el conocimiento adquirido en el estudio teórico-práctico anterior para su aplicación a casos reales, más en concreto se mostrará su aplicación sobre el plegado de proteínas.
Todo este análisis es trasladado a su aplicación a un caso concreto. En este trabajo, aunamos las nuevas plataformas hardware de alto rendimiento junto al rediseño e implementación software de un algoritmo bioinspirado aplicado a un problema científico de gran complejidad como es el caso del plegado de proteínas. Es necesario cuando se implementa una solución a un problema real, realizar un estudio previo que permita la comprensión del problema en profundidad, ya que se encontrará nueva terminología y problemática para cualquier neófito en la materia, en este caso, se hablará de aminoácidos, moléculas o modelos de simulación que son desconocidos para los individuos que no sean de un perfil biomédico.Ingeniería, Industria y Construcció
Computational compound screening of biomolecules and soft materials by molecular simulations
Decades of hardware, methodological, and algorithmic development have
propelled molecular dynamics (MD) simulations to the forefront of
materials-modeling techniques, bridging the gap between electronic-structure
theory and continuum methods. The physics-based approach makes MD appropriate
to study emergent phenomena, but simultaneously incurs significant
computational investment. This topical review explores the use of MD outside
the scope of individual systems, but rather considering many compounds. Such an
in silico screening approach makes MD amenable to establishing coveted
structure--property relationships. We specifically focus on biomolecules and
soft materials, characterized by the significant role of entropic contributions
and heterogeneous systems and scales. An account of the state of the art for
the implementation of an MD-based screening paradigm is described, including
automated force-field parametrization, system preparation, and efficient
sampling across both conformation and composition. Emphasis is placed on
machine-learning methods to enable MD-based screening. The resulting framework
enables the generation of compound--property databases and the use of advanced
statistical modeling to gather insight. The review further summarizes a number
of relevant applications.Comment: 48 pages, 3 figure
Protein structure and function relationships: application of computational approaches to biological and biomedical problems
In this work we have studied several cases by means of different computational approaches for the analysis of the
structure and function relationships.
In chapter 2 we describe a method, based on multiple neural networks, that we developed for evaluate the accuracy
of predicted threedimensional
protein structures. This tool has been used in different studies described in this work,
in which the prediction of the 3D structure of the protein under study, has been necessary.
In chapter 3, the interaction among a new class of natural sweeteners (steviol glycosides) and the human sweet taste
receptor, has been analyzed by means of an insilico
docking study, which allowed to identify the preferential
binding site for the steviol glycosides.
In chapter 4 the relationship between the dynamical properties and the function of some psychrophilic enzyme has
been studied. A comparative study (psychrophile vs mesophile) of the thermodynamic properties of two different
enzymes belonging to the elastases and the uracilDNAglycosylases
families has been done. This study, carried out
with molecular dynamic simulations, revealed that the low temperature adaptation is related to the different
flexibility of the psychrophilic compared to the mesophilic enzyme.
In chapter 5, we have studied the structural and functional impact of point mutations on three different proteins
which are involved in serious rare diseases which cause grave metabolic disorders
In Silico Design and Selection of CD44 Antagonists:implementation of computational methodologies in drug discovery and design
Drug discovery (DD) is a process that aims to identify drug candidates through a thorough evaluation of the biological activity of small molecules or biomolecules. Computational strategies (CS) are now necessary tools for speeding up DD. Chapter 1 describes the use of CS throughout the DD process, from the early stages of drug design to the use of artificial intelligence for the de novo design of therapeutic molecules. Chapter 2 describes an in-silico workflow for identifying potential high-affinity CD44 antagonists, ranging from structural analysis of the target to the analysis of ligand-protein interactions and molecular dynamics (MD). In Chapter 3, we tested the shape-guided algorithm on a dataset of macrocycles, identifying the characteristics that need to be improved for the development of new tools for macrocycle sampling and design. In Chapter 4, we describe a detailed reverse docking protocol for identifying potential 4-hydroxycoumarin (4-HC) targets. The strategy described in this chapter is easily transferable to other compounds and protein datasets for overcoming bottlenecks in molecular docking protocols, particularly reverse docking approaches. Finally, Chapter 5 shows how computational methods and experimental results can be used to repurpose compounds as potential COVID-19 treatments. According to our findings, the HCV drug boceprevir could be clinically tested or used as a lead molecule to develop compounds that target COVID-19 or other coronaviral infections. These chapters, in summary, demonstrate the importance, application, limitations, and future of computational methods in the state-of-the-art drug design process
Recommended from our members
Neurobiological mechanisms of hallucinations in schizophrenia
All perception is a construct of the brain. Yet occasionally, sensory constructions emerge without origin in the physical world and are experienced as hallucinations. Hallucinations occur transdiagnostically, cross-culturally, and in all sensory modalities. They are common in people with schizophrenia, presenting in 60-80% of patients. Despite over 20 years of active neuroimaging research on hallucinations, the neural systems supporting these anomalous perceptual experiences remain disputed. This dissertation investigates the neurobiology of hallucinations, integrating research across structural and functional magnetic resonance imaging (MRI) to elucidate how hallucinations, chiefly in the context of schizophrenia, are supported by the brain, drawing on MRI indices of neurodevelopment. I introduce the phenomenon of hallucinations and motivate the utility of MRI for studying hallucinations. Considering their prevalence in other medical conditions, I conduct a meta-analysis and systematic review of the structural brain basis of hallucinations across diagnoses, primarily schizophrenia spectrum disorders and Parkinson’s disease. This illustrated distinct neuroanatomical organizations of grey matter associated with hallucinations that occur in neurodevelopmental compared to neurodegenerative disorders, which I hypothesise constitute at least two distinct mechanisms. Focussing on the neurodevelopmental mechanism characterized by fronto-temporal and insular grey matter reductions, I turn to the contribution of cortical sulcation, a product of second and third trimester neurodevelopmental processes, which has been robustly implicated in schizophrenia pathology, and, more recently, in hallucinations. Sulcal patterns derived from structural MRI provide a proxy in adulthood for early brain development. I studied two independent datasets of patients with schizophrenia who underwent clinical assessment and 3T MRI from the United Kingdom and Shanghai, China, stratified into those with and without hallucinations, and healthy controls from Shanghai. I first replicate the finding that left hemisphere paracingulate sulcus (PCS) length is reduced in patients who experience hallucinations, then demonstrate similar associations for superior temporal sulcus depth. Length and depth alterations occurred with focal deviations in sulcal geometry. The interindividual and interhemispheric variability of the PCS necessitated the development of semi-automated methods to characterize its morphology and validation to a manual protocol. I used structural covariance networks of the local gyrification index to investigate how specific sulcal deviations relate to global neurodevelopmental coordination, demonstrating that hallucinations correspond to increased covariance within and between salience and auditory networks. Hypothesizing structure-function relationships, I analyse resting-state functional MRI data from the same datasets described, finding significant interactions between PCS length and hallucinations status, but no main effects. There were no effects of hallucination status on salience and auditory network connectivity or in graph theoretical measures of connectivity, suggesting that resting-state connectivity is not a trait marker for hallucinations. Together, the discovery of neurodevelopmental alterations contributing to hallucinations provides mechanistic insight into the pathological consequences of prenatal origins. The interaction of sulcal alterations and hallucination status are associated with connectivity, which may have a role in the pathophysiology of hallucinations. I provide clear predictions and recommendations for future research.Gates Cambridge Scholarshi
- …