5 research outputs found

    Protein Repeats from First Principles

    Get PDF
    Some natural proteins display recurrent structural patterns. Despite being highly similar at the tertiary structure level, repeating patterns within a single repeat protein can be extremely variable at the sequence level. We use a mathematical definition of a repetition and investigate the occurrences of these in sequences of different protein families. We found that long stretches of perfect repetitions are infrequent in individual natural proteins, even for those which are known to fold into structures of recurrent structural motifs. We found that natural repeat proteins are indeed repetitive in their families, exhibiting abundant stretches of 6 amino acids or longer that are perfect repetitions in the reference family. We provide a systematic quantification for this repetitiveness. We show that this form of repetitiveness is not exclusive of repeat proteins, but also occurs in globular domains. A by-product of this work is a fast quantification of the likelihood of a protein to belong to a family.Fil: Turjanski, Pablo Guillermo. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; ArgentinaFil: Parra, Rodrigo Gonzalo. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; ArgentinaFil: Espada, Rocío. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; ArgentinaFil: Becher, Veronica Andrea. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; ArgentinaFil: Ferreiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentin

    Size and structure of the sequence space of repeat proteins

    Get PDF
    The coding space of protein sequences is shaped by evolutionary constraints set by requirements of function and stability. We show that the coding space of a given protein family-the total number of sequences in that family-can be estimated using models of maximum entropy trained on multiple sequence alignments of naturally occuring amino acid sequences. We analyzed and calculated the size of three abundant repeat proteins families, whose members are large proteins made of many repetitions of conserved portions of *30 amino acids. While amino acid conservation at each position of the alignment explains most of the reduction of diversity relative to completely random sequences, we found that correlations between amino acid usage at different positions significantly impact that diversity. We quantified the impact of different types of correlations, functional and evolutionary, on sequence diversity. Analysis of the detailed structure of the coding space of the families revealed a rugged landscape, with many local energy minima of varying sizes with a hierarchical structure, reminiscent of fustrated energy landscapes of spin glass in physics. This clustered structure indicates a multiplicity of subtypes within each family, and suggests new strategies for protein design.Fil: Marchi, Jacopo. Ecole Normale Supérieure; FranciaFil: Galpern, Ezequiel Alejandro. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; ArgentinaFil: Espada, Rocio. PSL University; FranciaFil: Ferreiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; ArgentinaFil: Walczak, Aleksandra M.. Ecole Normale Supérieure; FranciaFil: Mora, Thierry. Ecole Normale Supérieure; Franci

    Motivos lineales en proteıínas de virus humanos involucradas en el ciclo celular

    Get PDF
    Los motivos lineales son elementos de secuencia que comúnmente se encuentran en dominios intrínsecamente desordenados. Consisten, en promedio, de cinco residuos que determinan la función y participan en interacciones proteína-proteína. Los virus se enfrentan a una presión de selección constante debido a ambientes cambiantes y a la respuesta inmune del hospedador. Es común que usen motivos para secuestrar la maquinaria celular mimetizando proteínas del hospedador. Se postula que estos motivos, al ser elementos de secuencia cortos, juegan un rol en la evolución adaptativa ya que adquieren o modifican su función con pocas mutaciones. Sin embargo, existen pocas evidencias que apoyen esta hipótesis.Este trabajo se enfoca en el estudio de motivos lineales en dos proteínas virales, E7 de Papilomavirus y E1A de Adenovirus. El objetivo es investigar las relaciones genotipo-fenotipo en virus causantes de infecciones persistentes en humanos, utilizando para esto más de 100 secuencias para cada proteína. La amplia distribución de hospedadores, que involucra amniotas en el caso de E7 y mamíferos en el caso de E1A, y el número de motivos que presentan estas proteínas - ocho y doce respectivamente - permiten estudiar la relación entre motivos y fenotipos y el rol adaptativo de los motivos en la historia evolutiva viral.Este estudio se realizó principalmente mediante tres tipos de análisis. Primero, se realizaron análisis de secuencia incluyendo co-evolución entre pares de residuos. Luego, se realizaron estudios de co-especiación globales y basados en eventos evolutivos - considerando co-especiación, duplicación, cambio de hospedador y extinción parcial. Por último, se realizaron pruebas estadísticas de asociación. Los análisis de secuencia permitieron determinar que la falta de una estructura globular no implica un menor grado de conservación de secuencia. El combinar este tipo de análisis con la filogenia viral permitió afirmar que los motivos en las proteínas estudiadas presentan numerosos eventos de aparición y desaparición. Los estudios de co-evolución en secuencia y las pruebas de asociación revelaron que los distintos motivos y regiones de las proteínas estudiadas no evolucionan de manera independiente. Por último, las pruebas de asociación aplicadas a estudios de filogenia revelaron que dos eventos evolutivos - cambio de hospedador y extinción parcial - y la aparición/desaparición de motivos tampoco son procesos independientes. En conjunto, los resultados obtenidos en este trabajo sugieren que los motivos lineales presentan una alta plasticidad evolutiva, independiente del contexto estructural, y establecen las bases de la contribución de los motivos lineales en la evolución adaptativa viral.Fil: Glavina, Juliana. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Química Biológica de la Facultad de Ciencias Exactas y Naturales; Argentin
    corecore