8 research outputs found

    Predicting Protein Residue-Residue Contacts Using Random Forests and Deep Networks

    Get PDF
    Background: The ability to predict which pairs of amino acid residues in a protein are in contact with each other offers many advantages for various areas of research that focus on proteins. For example, contact prediction can be used to reduce the computational complexity of predicting the structure of proteins and even to help identify functionally important regions of proteins. These predictions are becoming especially important given the relatively low number of experimentally determined protein structures compared to the amount of available protein sequence data. Results: Here we have developed and benchmarked a set of machine learning methods for performing residue-residue contact prediction, including random forests, direct-coupling analysis, support vector machines, and deep networks (stacked denoising autoencoders). These methods are able to predict contacting residue pairs given only the amino acid sequence of a protein. According to our own evaluations performed at a resolution of +/− two residues, the predictors we trained with the random forest algorithm were our top performing methods with average top 10 prediction accuracy scores of 85.13% (short range), 74.49% (medium range), and 54.49% (long range). Our ensemble models (stacked denoising autoencoders combined with support vector machines) were our best performing deep network predictors and achieved top 10 prediction accuracy scores of 75.51% (short range), 60.26% (medium range), and 43.85% (long range) using the same evaluation. These tests were blindly performed on targets from the CASP11 dataset; and the results suggested that our models achieved comparable performance to contact predictors developed by groups that participated in CASP11. Conclusions: Due to the challenging nature of contact prediction, it is beneficial to develop and benchmark a variety of different prediction methods. Our work has produced useful tools with a simple interface that can provide contact predictions to users without requiring a lengthy installation process. In addition to this, we have released our C++ implementation of the direct-coupling analysis method as a standalone software package. Both this tool and our RFcon web server are freely available to the public at http://dna.cs.miami.edu/RFcon/

    Bayesian statistical approach for protein residue-residue contact prediction

    Get PDF
    Despite continuous efforts in automating experimental structure determination and systematic target selection in structural genomics projects, the gap between the number of known amino acid sequences and solved 3D structures for proteins is constantly widening. While DNA sequencing technologies are advancing at an extraordinary pace, thereby constantly increasing throughput while at the same time reducing costs, protein structure determination is still labour intensive, time-consuming and expensive. This trend illustrates the essential importance of complementary computational approaches in order to bridge the so-called sequence-structure gap. About half of the protein families lack structural annotation and therefore are not amenable to techniques that infer protein structure from homologs. These protein families can be addressed by de novo structure prediction approaches that in practice are often limited by the immense computational costs required to search the conformational space for the lowest-energy conformation. Improved predictions of contacts between amino acid residues have been demonstrated to sufficiently constrain the overall protein fold and thereby extend the applicability of de novo methods to larger proteins. Residue-residue contact prediction is based on the idea that selection pressure on protein structure and function can lead to compensatory mutations between spatially close residues. This leaves an echo of correlation signatures that can be traced down from the evolutionary record. Despite the success of contact prediction methods, there are several challenges. The most evident limitation lies in the requirement of deep alignments, which excludes the majority of protein families without associated structural information that are the focus for contact guided de novo structure prediction. The heuristics applied by current contact prediction methods pose another challenge, since they omit available coevolutionary information. This work presents two different approaches for addressing the limitations of contact prediction methods. Instead of inferring evolutionary couplings by maximizing the pseudo-likelihood, I maximize the full likelihood of the statistical model for protein sequence families. This approach performed with comparable precision up to minor improvements over the pseudo-likelihood methods for protein families with few homologous sequences. A Bayesian statistical approach has been developed that provides posterior probability estimates for residue-residue contacts and eradicates the use of heuristics. The full information of coevolutionary signatures is exploited by explicitly modelling the distribution of statistical couplings that reflects the nature of residue-residue interactions. Surprisingly, the posterior probabilities do not directly translate into more precise predictions than obtained by pseudo-likelihood methods combined with prior knowledge. However, the Bayesian framework offers a statistically clean and theoretically solid treatment for the contact prediction problem. This flexible and transparent framework provides a convenient starting point for further developments, such as integrating more complex prior knowledge. The model can also easily be extended towards the Derivation of probability estimates for residue-residue distances to enhance the precision of predicted structures

    Predicción de estructuras de proteínas basada en vecinos más cercanos

    Get PDF
    Programa de Doctorado en Biotecnología y Tecnología QuímicaLas proteínas son las biomoléculas que tienen mayor diversidad estructural y desempeñan multitud de importantes funciones en todos los organismos vivos. Sin embargo, en la formación de las proteínas se producen anomalías que provocan o facilitan el desarrollo de importantes enfermedades como el cáncer o el Alzheimer, siendo de vital importancia el diseño de fármacos que permitan evitar sus desastrosas consecuencias. En dicho diseño de fármacos se precisa disponer de modelos estructurales de proteínas que, pese a que su secuencia es conocida, en la mayoría de los casos su estructura aún se ignora. Es por ello que la predicción de la estructura de una proteína a partir de su secuencia de aminoácidos resulta clave para la cura de este tipo de enfermedades. En la presente Tesis se ha analizado profundamente el estado del arte del problema de la predicción de la estructura terciaria y cuaternaria de una proteína, aportando diversos aspectos y puntos de vista de los métodos más actuales y relevantes presentes en la literatura. Por otra parte, se propone un método nuevo para la predicción de mapas de distancias que representan estructuras proteínicas mediante un esquema de vecinos más cercanos empleando propiedades físico-químicas de aminoácidos como entrada. Se ha realizado una exhaustiva experimentación y se han analizado los resultados desde varios puntos de vista y destacando diversos aspectos de interés. Finalmente, se ha aplicado la propuesta metodológica a dos grupos de proteínas de interés biológico: las proteínas de virus y de mitocondrias, obteniéndose resultados muy prometedores en ambos casos.Universidad Pablo de Olavide. Centro de Estudios de Postgrad

    PENSAMIENTO CRÍTICO EN LA INVESTIGACIÓN CIENTÍFICA Y ACADÉMICA COLECCIÓN CIENTÍFICA EDUCACIÓN, EMPRESA Y SOCIEDAD

    Get PDF
    PENSAMIENTO CRÍTICO EN LA INVESTIGACIÓN CIENTÍFICA Y ACADÉMICA COLECCIÓN CIENTÍFICA EDUCACIÓN, EMPRESA Y SOCIEDAD Primera Edición 2023 Vol. 21 Editorial EIDEC Sello Editorial EIDEC (978-958-53018) NIT 900583173-1 ISBN: 978-628-95884-1-5 Formato: Digital PDF (Portable Document Format) DOI: https://doi.org/10.34893/e1150-3660-8721-s Publicación: Colombia Fecha Publicación: 13/09/2023 Coordinación Editorial Escuela Internacional de Negocios y Desarrollo Empresarial de Colombia – EIDEC Centro de Investigación Científica, Empresarial y Tecnológica de Colombia – CEINCET Red de Investigación en Educación, Empresa y Sociedad – REDIEES Revisión y pares evaluadores Centro de Investigación Científica, Empresarial y Tecnológica de Colombia – CEINCET Red de Investigación en Educación, Empresa y Sociedad – REDIEE

    La coevolución en regiones de interacción entre proteínas: estudio y desarrollo de métodos computacionales

    Full text link
    Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Biología Molecular. Fecha de lectura: 14-02-2020El funcionamiento celular se sustenta en intrincadas redes de interacciones moleculares. Una de las más comunes e importantes de estas interacciones moleculares son las interacciones físicas entre proteínas. La correcta asociación de proteínas impone fuertes restricciones a la evolución de las correspondientes secuencias. En este contexto, el término coevolución engloba a las interdependencias evolutivas entre proteínas que interaccionan generadas por restricciones estructurales, entre otros factores. Se han desarrollado varios métodos para predecir contactos físicos entre proteínas a partir de covariaciones en alineamientos de secuencias. En la última década, el desarrollo de nuevas metodológicas computacionales y el crecimiento de los datos de secuencias han permitido su mejora. Los objetivos principales de esta tesis son una mayor comprensión del fenómeno de la coevolución en regiones de interacción entre proteínas y la mejora de este tipo de métodos, atendiendo a dos de los problemas que más limitan su ámbito de aplicación: la imposibilidad de predecir contactos sistemáticamente entre proteínas en especies eucariotas y la falta de suficiente información de secuencias en muchas familias. La primera parte de la tesis se concentra en el desarrollo de métodos computacionales para estudiar la relación existente entre coevolución y conservación estructural de las interfaces a largas distancias evolutivas. La comparación de la señal coevolutiva detectada en alineamientos en procariotas con las divergencias estructurales entre complejos homólogos en procariotas y eucariotas nos ha llevado a descubrir que la señal de coevolución está asociada a un alto grado de conservación estructural. Esto permite proyectar con acierto los contactos predichos en procariotas, donde existen abundantes datos de secuencias, a complejos en eucariotas distantes pero relacionados evolutivamente. De esta forma resulta posible extender el ámbito de aplicación de metodologías basadas en coevolución a complejos de proteínas eucariotas. En una segunda parte, investigamos el efecto que tienen los factores limitantes de la predicción de contactos: la insuficiente cantidad de secuencias disponibles, los sesgos derivados de la conservación de las posiciones y la falta de independencia entre las secuencias debidas a la filogenia subyacente. Nuestros resultados muestran que existen predicciones de interacciones correctas en casos con pocas secuencias que son difícilmente recuperables sin una metodología adecuada. Proponemos una metodología que, gracias al uso de distribuciones empíricas nulas obtenidas mediante la aleatorización de los alineamientos de partida, nos permite obtener un umbral específico para cada caso haciendo más comparable la señal entre casos. Este procedimiento mejora la calidad de las predicciones de forma notable, a la vez que permite rescatar predicciones correctas a partir de alineamientos con pocas secuencias. Nuestro trabajo realza el papel de la coevolución en la evolución de las proteínas, en procesos como la divergencia en secuencia y la conservación de la estructura, así como su potencial para la construcción de modelos tridimensionales de un considerable número de interacciones entre proteínas. Temas en los que queda aún un importante margen de progreso, especialmente en lo que respecta a un mejor tratamiento de las relaciones filogenéticas entre las secuencias.Cellular functions are based on convoluted networks of molecular interactions. Protein-protein interactions are one of the most important and prevalent of these interactions. The correct association of proteins im-poses strong constraints on the evolution of proteins. In this context, the term coevolution encompasses the evolutive interdependence between interacting proteins due to existing structural constraints, among other factors. Several methods have been developed to predict contacts between proteins from sequence covari-ation in multiple sequence alignments. In the last decade, the development of new computational methods and the increase of available sequences have improved the contact prediction performance remarkably. The main objectives of this thesis are a better understanding of sequence coevolution at protein interfaces and the improvement of contact prediction between proteins, with a focus on two of the main challenges in this field: the impossibility of predicting contacts in eukaryotes and the insufficient number of sequences for many protein families. In the first part of this thesis, we present the development of a computational approach to study the relation between coevolution and structural conservation at protein interfaces over a large evolutionary scale. The comparison of the coevolutionary signal detected in prokaryotic alignments to the structural divergence be-tween prokaryotic and eukaryotic homologs shows that the coevolutionary signal is associated with high structural conservation. This finding enables the correct projection of contact predictions from prokaryotes, where there is abundant sequence data, to distant but evolutionary related eukaryotic complexes. Thus, it is possible to extend the scope of application of coevolutionary methods to eukaryotic complexes. In the second part, we study the limiting factors of contact prediction between proteins: the reduced number of sequences available, the biases induced by sequence conservation and the lack of independence between sequences due to the underlying phylogeny. Our results show that correct predictions in cases with few se-quences are hard to recover using current methodologies. Here we propose a method that uses empirical null distributions obtained through randomizations of the input alignments to estimate a specific threshold for each case that makes the signal more comparable between cases. This method significantly improves the quality of the predictions and recovers correct predictions even for alignments with few sequences. This work underlines the crucial role of coevolution in protein evolution, in processes such as sequence di-vergence and structural conservation, as well as its potential to build three-dimensional models for a consid-erable number of protein-protein interactions. These are areas in which there is still room for improvement, especially in handling the phylogenetic relations among sequences
    corecore