21 research outputs found

    Development and application of bioinformatic tools for the representation and analysis of genetic diversity

    Get PDF
    La variació genètica és la pedra angular de l'evolució biològica. La descripció i explicació de les forces que controlen la variació genètica dins i entre poblacions és el principal objectiu de la genètica de poblacions. L'obtenció d'un número explosiu de seqüències nucleotídiques a diferents gens i espècies ha canviat radicalment les perspectives de la genètica de poblacions, transformant-la des d'una ciència empírica insuficient fins a un esforç interdisciplinari de gran abast, on els aparells de generació de noves seqüències a gran escala s'integren amb eines bioinformàtiques per a l'extracció i gestió de dades, juntament amb avançats models teòrics i estadístics per a la seva interpretació. Aquesta tesi és un projecte de bioinformàtica i genètica de poblacions complet, l'objectiu principal del qual és l'estudi de la diversitat genètica a les poblacions. S'ha dut a terme en tres passos seqüencials: (i) el desenvolupament d'eines per a l'extracció, processat, filtrat i control de qualitat de seqüències nucleotídiques, (ii) la generació de bases de dades de coneixement a partir de les dades obtingudes a la primera part i (iii) la prova d'hipòtesis que requereixen de dades de varies espècies i loci. A la primera part de la tesi hem desenvolupat PDA (Pipeline Diversity Analysis), una aplicació Web de codi obert que permet l'exploració del polimorfisme a grans conjunts de seqüències de DNA heterogènies. Aquesta eina es nodreix dels milions de seqüències haplotípiques d'estudis individuals que hi ha emmagatzemades a les principals bases de dades moleculars i genera dades de genètica de poblacions que poden ser utilitzades per a descriure patrons de variació nucleotídica a qualsevol espècie o gen. Totes les dades extretes i analitzades a la primera part de la tesi són utilitzades a la segona part per a crear un recurs via Web complet que proporciona col·leccions de seqüències polimòrfiques amb les seves mesures de diversitat associades en el gènere Drosophila (DPDB, Drosophila Polymorphism Database). Aquest recurs ha significat un repte ambiciós que ha permès posar a prova l'eficiència del sistema creat a la primera part. Finalment, s'inclouen dos estudis que utilitzen els mòduls d'extracció i anàlisi de dades desenvolupats a la primera part. En el primer, hem estudiat patrons de variació genètica per a inferir selecció negativa i positiva a seqüències conservades no codificadores a Drosophila. Per a aquest estudi hem utilitzat dades de re-seqüenciació a D. melanogaster junt amb dades genòmiques comparatives a d'altres espècies de Drosophila per a demostrar que les regions fredes de mutació no poden explicar aquests blocs conservats. Els resultats mostren que les seqüències conservades no codificadores són mantingudes per l'acció de la selecció purificadora. El segon estudi es centra en l'evolució codificant dels gens Hox, una classe de factors de transcripció essencials en el desenvolupament primerenc que estan involucrats en l'especificació de les regions al llarg de l'eix anteroposterior del cos. Hem mesurat les taxes de divergència nucleotídica i de fixació d'insercions i delecions a tres gens Hox, i les hem comparat amb les de tres gens derivats de Hox i un conjunt de gens no Hox per a provar la hipòtesi que els gens Hox evolucionen lentament. Els resultats mostren que tant el número de substitucions no sinònimes com el grau de constrenyiment funcional no són significativament diferents entre els gens Hox i els no Hox, i que els gens Hox i els derivats de Hox contenen significativament més insercions i delecions que els gens no Hox a les seves seqüències codificants. Per tant, els gens Hox evolucionen més ràpidament que altres gens essencials expressats al desenvolupament primerenc, amb patrons d'expressió complexos o amb introns llargs rics en elements cis-reguladors. Resumint, els treballs presentats a aquesta tesi tanquen un cicle complet de projecte bioinformàtic, incloent tots els passos necessaris des de l'extracció de dades fins a la generació de nou coneixement científic. És més, el resultat de cada pas és la llavor per a múltiples possibles estudis en el següent pas, i per tant aquesta tesi té moltes aplicacions per a la comunitat científica.La variación genética es la piedra angular de la evolución biológica. La descripción y explicación de las fuerzas que controlan la variación genética dentro y entre poblaciones es el principal objetivo de la genética de poblaciones. La obtención de un número explosivo de secuencias nucleotídicas en distintos genes y especies ha cambiado radicalmente las perspectivas de la genética de poblaciones, transformándola desde una ciencia empírica insuficiente a un esfuerzo interdisciplinario de un gran alcance, donde los aparatos de generación de nuevas secuencias a gran escala se integran con herramientas bioinformáticas para la extracción y gestión de datos, junto a avanzados modelos teóricos y estadísticos para su interpretación. Esta tesis es un proyecto de bioinformática y genética de poblaciones completo, cuyo objetivo es el estudio de la diversidad genética en las poblaciones, que se ha llevado a cabo en tres pasos secuenciales: (i) el desarrollo de herramientas para la extracción, procesado, filtrado y control de calidad de secuencias nucleotídicas, (ii) la generación de bases de datos de conocimiento a partir de los datos obtenidos en la primera parte y (iii) la puesta a prueba de hipótesis que requieren de datos de varias especies y loci. En la primera parte de la tesis hemos desarrollado PDA (Pipeline Diversity Analysis), una aplicación Web de código abierto que permite la exploración del polimorfismo en grandes conjuntos de secuencias de DNA heterogéneas. Esta herramienta se alimenta de los millones de secuencias haplotípicas de estudios individuales que hay almacenados en las principales bases de datos moleculares y genera datos de genética de poblaciones que pueden ser utilizados para describir patrones de variación nucleotídica en cualquier especie o gen. Todos los datos extraídos y analizados en la primera parte de la tesis son utilizados en la segunda parte para crear un recurso vía Web completo que proporciona colecciones de secuencias polimórficas con sus medidas de diversidad asociadas en el género Drosophila (DPDB, Drosophila Polymorphism Database). Este recurso ha significado un reto ambicioso que ha permitido poner a prueba la eficiencia del sistema creado en la primera parte. Finalmente, se incluyen dos estudios que utilizan los módulos de extracción y análisis de datos desarrollados en la primera parte. En el primero, hemos estudiado los patrones de variación genética en secuencias conservadas no codificadoras para inferir selección negativa y positiva en Drosophila. En este estudio hemos utilizado datos de re-secuenciación en D. melanogaster junto con datos genómicos comparativos en otras especies de Drosophila para demostrar que las regiones frías de mutación no pueden explicar estos bloques conservados. Los resultados muestran que las secuencias conservadas no codificadoras se mantienen por la acción de la selección purificadora. El segundo estudio se centra en la evolución codificadora de los genes Hox, una clase de factores de transcripción esenciales en el desarrollo temprano que están involucrados en la especificación de las regiones a lo largo del eje anteroposterior del cuerpo. Hemos medido las tasas de divergencia nucleotídica y de fijación de inserciones y deleciones en tres genes Hox, y las hemos comparado con las de tres genes derivados de Hox y un conjunto de genes no Hox para probar la hipótesis que los genes Hox evolucionan lentamente. Los resultados muestran que tanto el número de sustituciones no sinónimas como el grado de constreñimiento funcional no son significativamente distintos entre los genes Hox y los no Hox, y que los genes Hox y los derivados de Hox contienen significativamente más inserciones y deleciones que los genes no Hox en sus secuencias codificadoras. Así, los genes Hox evolucionan más rápidamente que otros genes esenciales expresados en el desarrollo temprano, con patrones de expresión complejos o con intrones largos ricos en elementos cis-reguladores. En síntesis, los trabajos presentados en esta tesis cierran un ciclo completo de proyecto bioinformático, incluyendo todos los pasos necesarios desde la extracción de datos hasta la generación de nuevo conocimiento científico. Es más, el resultado de cada paso es la semilla para múltiples posibles estudios en el siguiente paso, y por lo tanto esta tesis tiene muchas aplicaciones para la comunidad científica.Genetic variation is the cornerstone of biological evolution. The description and explanation of the forces controlling genetic variation within and between populations is the main goal of population genetics. The deciphering of an explosive number of nucleotide sequences in different genes and species has changed radically the scope of population genetics, transforming it from an empirically insufficient science into a powerfully explanatory interdisciplinary endeavor, where high-throughput instruments generating new sequence data are integrated with bioinformatic tools for data mining and management, and advanced theoretical and statistical models for data interpretation. This thesis is an integrative and comprehensive bioinformatics and population genetics project whose central topic is the genetic diversity of populations. It is accomplished in three sequential steps: (i) the development of tools for data mining, processing, filtering and quality checking of raw data, (ii) the generation of databases of knowledge from refined data obtained in the first step, and (iii) the testing of hypotheses that require multi-species and/or multi-locus data. In the first part of the thesis, we have developed PDA -Pipeline Diversity Analysis-, an open-source, web-based tool that allows the exploration of polymorphism in large datasets of heterogeneous DNA sequences. This tool feeds from the millions of haplotypic sequences from individual studies that are stored in the main molecular biology databases, and generates high-quality, population genetics data that can be used to describe patterns of nucleotide variation in any species or gene. All the extracted and analyzed data resulting from the first part of this thesis is used in the second step to create a comprehensive on-line resource that provides searchable collections of polymorphic sequences with their associated diversity measures in the genus Drosophila (DPDB -Drosophila Polymorphism Database-). This resource means an ambitious pledge to test the efficiency of the system created in the first part. Finally, two different studies that make use of the modules of data mining and analysis developed are shown. First, we study patterns of sequence variation to infer constraint and adaptation in Drosophila conserved noncoding sequences (CNSs). For this study we have used population genetics re-sequencing data from D. melanogaster together with comparative genomic data from other Drosophila species. We show that patterns of nucleotide sequence evolution in Drosophila CNSs are incompatible with the notion that mutational cold-spots explain these conserved blocks. Rather, the results support the hypothesis that CNSs are maintained by the action of purifying selection. The second study focuses on the coding evolution of Hox genes, a class of essential transcription factors expressed early in development that are involved in the specification of regional identities along the anteroposterior body axis. We have measured the rates of nucleotide divergence and fixation of insertions and deletions of three Hox genes, and compared them with those of three Hox-derived genes and a set non-Hox genes to test the hypothesis that Hox genes evolve slowly. Our results show that both the number of nonsynonymous substitutions and the degree of functional constraint are not significantly different between Hox and non-Hox genes, and that Hox and Hox-derived genes contain significantly more insertions and deletions than non-Hox genes in their coding sequences. Thus, Hox genes evolve faster than other essential genes expressed early in development, with complex expression patterns or with long introns rich in cis-regulatory elements. As a whole, the works presented in this thesis round a complete bioinformatics project off, including all the necessary steps from mining the data to generating new scientific knowledge. More interestingly, the outcome of each step is the seed of multiple possible studies in the next step, and thus this thesis has many applications for the scientific community

    Human inversions and their functional consequences

    Get PDF
    Polymorphic inversions are a type of structural variants that are difficult to analyze owing to their balanced nature and the location of breakpoints within complex repeated regions. So far, only a handful of inversions have been studied in detail in humans and current knowledge about their possible functional effects is still limited. However, inversions have been related to phenotypic changes and adaptation in multiple species. In this review, we summarize the evidences of the functional impact of inversions in the human genome. First, given that inversions have been shown to inhibit recombination in heterokaryotes, chromosomes displaying different orientation are expected to evolve independently and this may lead to distinct gene-expression patterns. Second, inversions have a role as disease-causing mutations both by directly affecting gene structure or regulation in different ways, and by predisposing to other secondary arrangements in the offspring of inversion carriers. Finally, several inversions show signals of being selected during human evolution. These findings illustrate the potential of inversions to have phenotypic consequences also in humans and emphasize the importance of their inclusion in genome-wide association studie

    IMKT : the integrative McDonald and Kreitman test

    Get PDF
    The McDonald and Kreitman test (MKT) is one of the most powerful and widely used methods to detect and quantify recurrent natural selection using DNA sequence data. Here we present iMKT (acronym for integrative McDonald and Kreitman test), a novel web-based service performing four distinct MKT types. It allows the detection and estimation of four different selection regimes -adaptive, neutral, strongly deleterious and weakly deleterious- acting on any genomic sequence. iMKT can analyze both user's own population genomic data and pre-loaded Drosophila melanogaster and human sequences of protein-coding genes obtained from the largest population genomic datasets to date. Advanced options in the website allow testing complex hypotheses such as the application example showed here: do genes located in high recombination regions undergo higher rates of adaptation? We aim that iMKT will become a reference site tool for the study of evolutionary adaptation in massive population genomics datasets, especially in Drosophila and humans. iMKT is a free resource online at https://imkt.uab.cat

    PopHumanScan : the online catalog of human genome adaptation

    Get PDF
    Since the migrations that led humans to colonize Earth, our species has faced frequent adaptive challenges that have left signatures in the landscape of genetic variation and that we can identify in our today-s genomes. Here, we (i) perform an outlier approach on eight different population genetic statistics for 22 non-admixed human populations of the Phase III of the 1000 Genomes Project to detect selective sweeps at different historical ages, as well as events of recurrent positive selection in the human lineage; and (ii) create PopHumanScan, an online catalog that compiles and annotates all candidate regions under selection to facilitate their validation and thoroughly analysis. Well-known examples of human genetic adaptation published elsewhere are included in the catalog, as well as hundreds of other attractive candidates that will require further investigation. Designed as a collaborative database, PopHumanScan aims to become a central repository to share information, guide future studies and help advance our understanding of how selection has modeled our genomes as a response to changes in the environment or lifestyle of human populations. PopHumanScan is open and freely available at https://pophumanscan.uab.cat

    The Drosophila melanogaster Genetic Reference Panel

    Get PDF
    A major challenge of biology is understanding the relationship between molecular genetic variation and variation in quantitative traits, including fitness. This relationship determines our ability to predict phenotypes from genotypes and to understand how evolutionary forces shape variation within and between species. Previous efforts to dissect the genotype-phenotype map were based on incomplete genotypic information. Here, we describe the Drosophila melanogaster Genetic Reference Panel (DGRP), a community resource for analysis of population genomics and quantitative traits. The DGRP consists of fully sequenced inbred lines derived from a natural population. Population genomic analyses reveal reduced polymorphism in centromeric autosomal regions and the X chromosome, evidence for positive and negative selection, and rapid evolution of the X chromosome. Many variants in novel genes, most at low frequency, are associated with quantitative traits and explain a large fraction of the phenotypic variance. The DGRP facilitates genotype-phenotype mapping using the power of Drosophila genetics

    La bioinformàtica en l'estudi de la diversitat genètica

    No full text
    La variació genètica és clau per entendre la gran diversitat d'éssers vius que poblen la Terra, així com també les diferències que existeixen entre els individus d'una mateixa espècie. Aquesta tesi estudia aquest fenomen, mitjançant el desenvolupament d'eines bioinformàtiques per a l'extracció i l'anàlisi de seqüències de DNA, la generació de bases de dades de diversitat genètica i la prova d'hipòtesis a partir de seqüències de diferents espècies i regions del genoma.La variación genética es clave para entender la diversidad de seres vivos, así como las diferencias entre los individuos de una misma especie. Esta tesis estudia este fenómeno mediante el desarrollo de herramientas bioinformáticas para la extracción y análisis de secuencias de ADN, la generación de bases de datos de diversidad genética, y la comprobación de hipótesis a partir de secuencias de diferentes especies y regiones del genoma

    Human inversions and their functional consequences

    No full text
    Polymorphic inversions are a type of structural variants that are difficult to analyze owing to their balanced nature and the location of breakpoints within complex repeated regions. So far, only a handful of inversions have been studied in detail in humans and current knowledge about their possible functional effects is still limited. However, inversions have been related to phenotypic changes and adaptation in multiple species. In this review, we summarize the evidences of the functional impact of inversions in the human genome. First, given that inversions have been shown to inhibit recombination in heterokaryotes, chromosomes displaying different orientation are expected to evolve independently and this may lead to distinct gene-expression patterns. Second, inversions have a role as disease-causing mutations both by directly affecting gene structure or regulation in different ways, and by predisposing to other secondary arrangements in the offspring of inversion carriers. Finally, several inversions show signals of being selected during human evolution. These findings illustrate the potential of inversions to have phenotypic consequences also in humans and emphasize the importance of their inclusion in genome-wide association studie

    Fast sequence evolution of Hox and Hox-derived genes in the genus Drosophila

    No full text
    Background: It is expected that genes that are expressed early in development and have a complex expression pattern are under strong purifying selection and thus evolve slowly. Hox genes fulfill these criteria and thus, should have a low evolutionary rate. However, some observations point to a completely different scenario. Hox genes are usually highly conserved inside the homeobox, but very variable outside it. Results: We have measured the rates of nucleotide divergence and indel fixation of three Hox genes, labial (lab), proboscipedia (pb) and abdominal-A (abd-A), and compared them with those of three genes derived by duplication from Hox3, bicoid (bcd), zerknüllt (zen) and zerknüllt-related (zen2), and 15 non-Hox genes in sets of orthologous sequences of three species of the genus Drosophila. These rates were compared to test the hypothesis that Hox genes evolve slowly. Our results show that the evolutionary rate of Hox genes is higher than that of non-Hox genes when both amino acid differences and indels are taken into account: 43.39% of the amino acid sequence is altered in Hox genes, versus 30.97% in non-Hox genes and 64.73% in Hox-derived genes. Microsatellites scattered along the coding sequence of Hox genes explain partially, but not fully, their fast sequence evolution. Conclusion: These results show that Hox genes have a higher evolutionary dynamics than other developmental genes, and emphasize the need to take into account indels in addition to nucleotide substitutions in order to accurately estimate evolutionary rates
    corecore