391 research outputs found
Is protein folding problem really a NP-complete one ? First investigations
To determine the 3D conformation of proteins is a necessity to understand
their functions or interactions with other molecules. It is commonly admitted
that, when proteins fold from their primary linear structures to their final 3D
conformations, they tend to choose the ones that minimize their free energy. To
find the 3D conformation of a protein knowing its amino acid sequence,
bioinformaticians use various models of different resolutions and artificial
intelligence tools, as the protein folding prediction problem is a NP complete
one. More precisely, to determine the backbone structure of the protein using
the low resolution models (2D HP square and 3D HP cubic), by finding the
conformation that minimize free energy, is intractable exactly. Both the proof
of NP-completeness and the 2D prediction consider that acceptable conformations
have to satisfy a self-avoiding walk (SAW) requirement, as two different amino
acids cannot occupy a same position in the lattice. It is shown in this
document that the SAW requirement considered when proving NP-completeness is
different from the SAW requirement used in various prediction programs, and
that they are different from the real biological requirement. Indeed, the proof
of NP completeness and the predictions in silico consider conformations that
are not possible in practice. Consequences of this fact are investigated in
this research work.Comment: Submitted to Journal of Bioinformatics and Computational Biology,
under revie
Soft Computing Techiniques for the Protein Folding Problem on High Performance Computing Architectures
The protein-folding problem has been extensively studied during the last
fifty years. The understanding of the dynamics of global shape of a protein and the influence
on its biological function can help us to discover new and more effective
drugs to deal with diseases of pharmacological relevance. Different computational approaches
have been developed by different researchers in order to foresee the threedimensional
arrangement of atoms of proteins from their sequences. However, the
computational complexity of this problem makes mandatory the search for new models,
novel algorithmic strategies and hardware platforms that provide solutions in a
reasonable time frame. We present in this revision work the past and last tendencies
regarding protein folding simulations from both perspectives; hardware and software.
Of particular interest to us are both the use of inexact solutions to this computationally hard problem as
well as which hardware platforms have been used for running this kind of Soft Computing techniques.This work is jointly supported by the FundaciónSéneca (Agencia Regional de Ciencia y Tecnología, Región de Murcia) under grants 15290/PI/2010 and 18946/JLI/13, by the Spanish MEC and European Commission FEDER under grant with reference TEC2012-37945-C02-02 and TIN2012-31345, by the Nils Coordinated Mobility under grant 012-ABEL-CM-2014A, in part financed by the European Regional Development Fund (ERDF). We also thank NVIDIA for hardware donation within UCAM GPU educational and research centers.Ingeniería, Industria y Construcció
Sphere packings revisited
AbstractIn this paper we survey most of the recent and often surprising results on packings of congruent spheres in d-dimensional spaces of constant curvature. The topics discussed are as follows:–Hadwiger numbers of convex bodies and kissing numbers of spheres;–touching numbers of convex bodies;–Newton numbers of convex bodies;–one-sided Hadwiger and kissing numbers;–contact graphs of finite packings and the combinatorial Kepler problem;–isoperimetric problems for Voronoi cells, the strong dodecahedral conjecture and the truncated octahedral conjecture;–the strong Kepler conjecture;–bounds on the density of sphere packings in higher dimensions;–solidity and uniform stability.Each topic is discussed in details along with some of the “most wanted” research problems
Recommended from our members
Predicting multibody assembly of proteins
textThis thesis addresses the multi-body assembly (MBA) problem in the context of protein assemblies. [...] In this thesis, we chose the protein assembly domain because accurate and reliable computational modeling, simulation and prediction of such assemblies would clearly accelerate discoveries in understanding of the complexities of metabolic pathways, identifying the molecular basis for normal health and diseases, and in the designing of new drugs and other therapeutics. [...] [We developed] F²Dock (Fast Fourier Docking) which includes a multi-term function which includes both a statistical thermodynamic approximation of molecular free energy as well as several of knowledge-based terms. Parameters of the scoring model were learned based on a large set of positive/negative examples, and when tested on 176 protein complexes of various types, showed excellent accuracy in ranking correct configurations higher (F² Dock ranks the correcti solution as the top ranked one in 22/176 cases, which is better than other unsupervised prediction software on the same benchmark). Most of the protein-protein interaction scoring terms can be expressed as integrals over the occupied volume, boundary, or a set of discrete points (atom locations), of distance dependent decaying kernels. We developed a dynamic adaptive grid (DAG) data structure which computes smooth surface and volumetric representations of a protein complex in O(m log m) time, where m is the number of atoms assuming that the smallest feature size h is [theta](r[subscript max]) where r[subscript max] is the radius of the largest atom; updates in O(log m) time; and uses O(m)memory. We also developed the dynamic packing grids (DPG) data structure which supports quasi-constant time updates (O(log w)) and spherical neighborhood queries (O(log log w)), where w is the word-size in the RAM. DPG and DAG together results in O(k) time approximation of scoring terms where k << m is the size of the contact region between proteins. [...] [W]e consider the symmetric spherical shell assembly case, where multiple copies of identical proteins tile the surface of a sphere. Though this is a restricted subclass of MBA, it is an important one since it would accelerate development of drugs and antibodies to prevent viruses from forming capsids, which have such spherical symmetry in nature. We proved that it is possible to characterize the space of possible symmetric spherical layouts using a small number of representative local arrangements (called tiles), and their global configurations (tiling). We further show that the tilings, and the mapping of proteins to tilings on arbitrary sized shells is parameterized by 3 discrete parameters and 6 continuous degrees of freedom; and the 3 discrete DOF can be restricted to a constant number of cases if the size of the shell is known (in terms of the number of protein n). We also consider the case where a coarse model of the whole complex of proteins are available. We show that even when such coarse models do not show atomic positions, they can be sufficient to identify a general location for each protein and its neighbors, and thereby restricts the configurational space. We developed an iterative refinement search protocol that leverages such multi-resolution structural data to predict accurate high resolution model of protein complexes, and successfully applied the protocol to model gp120, a protein on the spike of HIV and currently the most feasible target for anti-HIV drug design.Computer Science
Structure of the two-component S-layer of the archaeon Sulfolobus acidocaldarius
This is the author accepted manuscript. The final version is available from eLife Sciences Publications via the DOI in this recordData availability:
The atomic coordinates of SlaA were deposited in the Protein Data Bank (https://www.rcsb.org/) with accession numbers PDB-7ZCX, PDDB-8AN3, and PDB-8AN3 for pH 4, 7 and 10, respectively. The electron density maps were deposited in the EM DataResource (https://www.emdataresource.org/) with accession numbers EMD-14635, EMD-15531 and EMD-15531 for pH 4, 7 and 10, respectively. Sub-tomogram averaging map of the S-layer has been deposited in the EMDB (EMD-18127) and models of the hexameric and trimeric pores in the Protein Databank under accession codes PDB-8QP0 and PDB-8QOX, respectivelyOther structural data used in this study are: H. volcanii csg (PDB ID: 7PTR, http://dx.doi.org/10.2210/pdb7ptr/pdb), and C. crescentus RsaA ((N-terminus PDB ID: 6T72, http://dx.doi.org/10.2210/pdb6t72/pdb, C-terminus PDB ID: 5N8P, http://dx.doi.org/10.2210/pdb5n8p/pdb).Surface layers (S-layers) are resilient two-dimensional protein lattices that encapsulate many bacteria and most archaea. In archaea, S-layers usually form the only structural component of the cell wall and thus act as the final frontier between the cell and its environment. Therefore, S-layers are crucial for supporting microbial life. Notwithstanding their importance, little is known about archaeal S-layers at the atomic level. Here, we combined single particle cryo electron microscopy (cryoEM), cryo electron tomography (cryoET) and Alphafold2 predictions to generate an atomic model of the two-component S-layer of Sulfolobus acidocaldarius. The outer component of this S-layer (SlaA) is a flexible, highly glycosylated, and stable protein. Together with the inner and membrane-bound component (SlaB), they assemble into a porous and interwoven lattice. We hypothesise that jackknife-like conformational changes, changes play important roles in S-layer assembly.European Research CouncilWellcome TrustWellcome TrustAgence Nationale de la RechercheAgence Nationale de la RechercheLeverhulme TrustBiotechnology and Biological Sciences Research Council (BBSRC
Optimización de algoritmos bioinspirados en sistemas heterogéneos CPU-GPU.
Los retos científicos del siglo XXI precisan del tratamiento y análisis de una ingente cantidad de información en la conocida como la era del Big Data. Los futuros avances en distintos sectores de la sociedad como la medicina, la ingeniería o la producción eficiente de energía, por mencionar sólo unos ejemplos, están supeditados al crecimiento continuo en la potencia computacional de los computadores modernos. Sin embargo, la estela de este crecimiento computacional, guiado tradicionalmente por la conocida “Ley de Moore”, se ha visto comprometido en las últimas décadas debido, principalmente, a las limitaciones físicas del silicio. Los arquitectos de computadores han desarrollado numerosas contribuciones multicore, manycore, heterogeneidad, dark silicon, etc, para tratar de paliar esta ralentización computacional, dejando en segundo plano otros factores fundamentales en la resolución de problemas como la programabilidad, la fiabilidad, la precisión, etc.
El desarrollo de software, sin embargo, ha seguido un camino totalmente opuesto, donde la facilidad de programación a través de modelos de abstracción, la depuración automática de código para evitar efectos no deseados y la puesta en producción son claves para una viabilidad económica y eficiencia del sector empresarial digital. Esta vía compromete, en muchas ocasiones, el rendimiento de las propias aplicaciones; consecuencia totalmente inadmisible en el contexto científico.
En esta tesis doctoral tiene como hipótesis de partida reducir las distancias entre los campos hardware y software para contribuir a solucionar los retos científicos del siglo XXI. El desarrollo de hardware está marcado por la consolidación de los procesadores orientados al paralelismo masivo de datos, principalmente GPUs Graphic Processing Unit y procesadores vectoriales, que se combinan entre sí para construir procesadores o computadores heterogéneos HSA.
En concreto, nos centramos en la utilización de GPUs para acelerar aplicaciones científicas. Las GPUs se han situado como una de las plataformas con mayor proyección para la implementación de algoritmos que simulan problemas científicos complejos. Desde su nacimiento, la trayectoria y la historia de las tarjetas gráficas ha estado marcada por el mundo de los videojuegos, alcanzando altísimas cotas de popularidad según se conseguía más realismo en este área. Un hito importante ocurrió en 2006, cuando NVIDIA (empresa líder en la fabricación de tarjetas gráficas) lograba hacerse con un hueco en el mundo de la computación de altas prestaciones y en el mundo de la investigación con el desarrollo de CUDA “Compute Unified Device Arquitecture. Esta arquitectura posibilita el uso de la GPU para el desarrollo de aplicaciones científicas de manera versátil. A pesar de la importancia de la GPU, es interesante la mejora que se puede producir mediante su utilización conjunta con la CPU, lo que nos lleva a introducir los sistemas heterogéneos tal y como detalla el título de este trabajo. Es en entornos heterogéneos CPU-GPU donde estos rendimientos alcanzan sus cotas máximas, ya que no sólo las GPUs soportan el cómputo científico de los investigadores, sino que es en un sistema heterogéneo combinando diferentes tipos de procesadores donde podemos alcanzar mayor rendimiento. En este entorno no se pretende competir entre procesadores, sino al contrario, cada arquitectura se especializa en aquella parte donde puede explotar mejor sus capacidades.
Donde mayor rendimiento se alcanza es en estos clústeres heterogéneos, donde múltiples nodos son interconectados entre sí, pudiendo dichos nodos diferenciarse no sólo entre arquitecturas CPU-GPU, sino también en las capacidades computacionales dentro de estas arquitecturas. Con este tipo de escenarios en mente, se presentan nuevos retos en los que lograr que el software que hemos elegido como candidato se ejecuten de la manera más eficiente y obteniendo los mejores resultados posibles.
Estas nuevas plataformas hacen necesario un rediseño del software para aprovechar al máximo los recursos computacionales disponibles. Se debe por tanto rediseñar y optimizar los algoritmos existentes para conseguir que las aportaciones en este campo sean relevantes, y encontrar algoritmos que, por su propia naturaleza sean candidatos para que su ejecución en dichas plataformas de alto rendimiento sea óptima. Encontramos en este punto una familia de algoritmos denominados bioinspirados, que utilizan la inteligencia colectiva como núcleo para la resolución de problemas. Precisamente esta inteligencia colectiva es la que les hace candidatos perfectos para su implementación en estas plataformas bajo el nuevo paradigma de computación paralela, puesto que las soluciones pueden ser construidas en base a individuos que mediante alguna forma de comunicación son capaces de construir conjuntamente una solución común.
Esta tesis se centrará especialmente en uno de estos algoritmos bioinspirados que se engloba dentro del término metaheurísticas bajo el paradigma del Soft Computing, el Ant Colony Optimization “ACO”. Se realizará una contextualización, estudio y análisis del algoritmo. Se detectarán las partes más críticas y serán rediseñadas buscando su optimización y paralelización, manteniendo o mejorando la calidad de sus soluciones. Posteriormente se pasará a implementar y testear las posibles alternativas sobre diversas plataformas de alto rendimiento. Se utilizará el conocimiento adquirido en el estudio teórico-práctico anterior para su aplicación a casos reales, más en concreto se mostrará su aplicación sobre el plegado de proteínas.
Todo este análisis es trasladado a su aplicación a un caso concreto. En este trabajo, aunamos las nuevas plataformas hardware de alto rendimiento junto al rediseño e implementación software de un algoritmo bioinspirado aplicado a un problema científico de gran complejidad como es el caso del plegado de proteínas. Es necesario cuando se implementa una solución a un problema real, realizar un estudio previo que permita la comprensión del problema en profundidad, ya que se encontrará nueva terminología y problemática para cualquier neófito en la materia, en este caso, se hablará de aminoácidos, moléculas o modelos de simulación que son desconocidos para los individuos que no sean de un perfil biomédico.Ingeniería, Industria y Construcció
- …