3 research outputs found

    Efficient and automated large-scale detection of structural relationships in proteins with a flexible aligner

    No full text
    [Background]: The total number of known three-dimensional protein structures is rapidly increasing. Consequently, the need for fast structural search against complete databases without a significant loss of accuracy is increasingly demanding. Recently, TopSearch, an ultra-fast method for finding rigid structural relationships between a query structure and the complete Protein Data Bank (PDB), at the multi-chain level, has been released. However, comparable accurate flexible structural aligners to perform efficient whole database searches of multi-domain proteins are not yet available. The availability of such a tool is critical for a sustainable boosting of biological discovery. [Results]: Here we report on the development of a new method for the fast and flexible comparison of protein structure chains. The method relies on the calculation of 2D matrices containing a description of the three-dimensional arrangement of secondary structure elements (angles and distances). The comparison involves the matching of an ensemble of substructures through a nested-two-steps dynamic programming algorithm. The unique features of this new approach are the integration and trade-off balancing of the following: 1) speed, 2) accuracy and 3) global and semiglobal flexible structure alignment by integration of local substructure matching. The comparison, and matching with competitive accuracy, of one medium sized (250-aa) query structure against the complete PDB database (216,322 protein chains) takes about 8 min using an average desktop computer. The method is at least 2-3 orders of magnitude faster than other tested tools with similar accuracy. We validate the performance of the method for fold and superfamily assignment in a large benchmark set of protein structures. We finally provide a series of examples to illustrate the usefulness of this method and its application in biological discovery. [Conclusions]: The method is able to detect partial structure matching, rigid body shifts, conformational changes and tolerates substantial structural variation arising from insertions, deletions and sequence divergence, as well as structural convergence of unrelated proteins.This work was supported by FONDECYT Chile research [grant 1141172, to F.I.G., F.R-V., I.L.I. and F.M.], and by Heidelberg University Frontier [grant 28577, project #D.801000/12.074, to D.P.D and F.I.G., respectively]. I.L.I was funded by the Marie Curie Initial Training Network PERFUME (PERoxisome Formation, Function, Metabolism) grant (grant agreement number 316723).>Peer Reviewe

    Integrative cell biology

    Get PDF
    Programa de Doctorado en Biotecnología, Ingeniería y Tecnología QuímicaLínea de Investigación: Bioinformatica en Biotecnología y BiomedicinaClave Programa: DBICódigo Línea: 7Las proteínas son la clave para entender la biología celular. La determinación de su rol y función nos ayuda a descubrir las características de los procesos moleculares en la base de la vida. Las técnicas de alto rendimiento han permitido a los científicos acumular una gran cantidad de datos sobre secuencias de ADN de miles de organismos diferentes. La función de las proteínas codificadas en estas porciones de ADN se determina por métodos de anotación manuales o automáticos, utilizando experimentos computacionales y biológicos para obtener una descripción coherente. Aunque la revisión manual de estas predicciones finalmente produce las anotaciones más fiables, este enfoque no es factible con la tasa actual de secuencias depositadas en las bases de datos biológicas. Esto afecta el conocimiento de la biología de varios organismos. Los esfuerzos de revisión manual se centran principalmente en la caracterización de organismos modelo En consecuencia, las bases de datos donde se reúne la información abarcan grandes cantidades de datos para un subconjunto específico de organismos. Actualmente, solo los grandes consorcios pueden generar estos recursos web, mientras que otros grupos que investigan organismos recientemente secuenciados carecen de los medios y recursos para lograr una anotación de proteoma más completa. Además, la gran mayoría del software para anotación de proteínas se enfoca solo en algunos aspectos de la función de una proteína; por lo tanto, falta información complementaria que podría derivarse de otras fuentes, tanto in silico como in vivo. El objetivo de esta tesis es desarrollar un nuevo enfoque para la anotación de funciones de proteínas que aborde los problemas mencionados anteriormente, incluidas nuevas herramientas y recursos para mejorar el estado actual en el ámbito de la predicción de la función, para así aplicarlo a organismos no modelos. Lo llamamos ¿Integrative Cell Biology¿ (ICB) o Biología Celular Integrativa. ICB se basa en la integración de varias fuentes de datos, incluyendo características de secuencia y estructura. De esta forma podemos obtener una anotación más amplia que proporciona al usuario una descripción más completa de una proteína. ICB también es capaz de visualizar múltiples proteínas de una manera fácil y rápida a través de un navegador web. Probamos el enfoque Integrative Cell Biology con una ¿pipeline¿ computacional resultante para caracterizar 39 proteomas del superfilo bacteriano Planctomycetes-Verrucomicrobia-Chlamydia (PVC). Además de su relevancia en varios campos, sus proteomas tienen un bajo porcentaje de proteínas anotadas, y solo unas pocas se han caracterizado experimentalmente. Sus propiedades fueron determinadas por observaciones experimentales, mientras que las secuencias que las codifican son en su mayoría desconocidas. Al aplicar el pipeline ICB, aumentamos drásticamente la cantidad de anotaciones de sus proteomas, abordando cuestiones biológicas sobre su comportamiento. Con el fin de hacer que nuestros hallazgos estén disponibles para la comunidad de investigación de PVC, creamos PVCbase, una plataforma única para examinar los resultados de ICB a través de DataTables, realizar búsquedas de secuencia basadas en homología y visualizar las características de la estructura secundaria de las proteínas. Para demostrar aún más las capacidades de ICB, analizamos tres Planctomicetos recientemente secuenciados asociados al entorno de macroalgas. Los genomas de Rubripirellula obstinata LF1, Roseimaritima ulvae UC8 y Mariniblastus fucicola FC18 se ensamblaron, se anotaron utilizando ICB, y se caracterizaron adicionalmente comparándolo con Planctomyces de otros ambientes. Posteriormente se complementaron sus rutas metabólicas y se evaluó su identidad a través de la filogenia. Tras los análisis pudo verse que algunas proteínas están involucradas en la interacción con los hospedadores de algas, incluidas algunas de tamaño extraordinario que merecen un análisis posterior. Se creó una versión de contenedor Docker de ICB que agiliza la instalación y el uso de pipelines, permitiendo que los grupos de investigación con intereses compartidos creen una plataforma similar a PVCbase. La salida de DataTables y la diversidad de herramientas incluidas permiten una transición fluida de secuencias a anotaciones de proteínas fácilmente navegables. Estos recursos crean entornos compartidos para analizar grandes conjuntos de proteínas, con poco o ningún conocimiento de codificación requerido. El concepto de Biología Celular Integrativa y sus recursos derivados contribuyen al campo de la predicción de la función de la proteína y proporcionan una solución en el caso de organismos mal anotados o recién secuenciados. PVCbase ha sido utilizado por varios grupos de investigación en microbiología de PVC (16 universidades de 14 países hasta agosto de 2018) y su base de usuarios se beneficiará de la adición de proteomas y de los análisis. Integrar varias fuentes de información para evaluar la función de la proteína es una posible solución a la inconsistencia y falta de fiabilidad de las herramientas de predicción. Al utilizar ICB, podemos responder preguntas que no podrían abordarse por otros medios. En el futuro, nuevas fuentes de información implementadas en ICB ampliarán nuestro conocimiento de varias características desconocidas de varios organismos.Universidad Pablo de Olavide de Sevilla. Escuela de DoctoradoPostprin
    corecore