914 research outputs found

    SEESAW: detecting isoform-level allelic imbalance accounting for inferential uncertainty.

    Get PDF
    Detecting allelic imbalance at the isoform level requires accounting for inferential uncertainty, caused by multi-mapping of RNA-seq reads. Our proposed method, SEESAW, uses Salmon and Swish to offer analysis at various levels of resolution, including gene, isoform, and aggregating isoforms to groups by transcription start site. The aggregation strategies strengthen the signal for transcripts with high uncertainty. The SEESAW suite of methods is shown to have higher power than other allelic imbalance methods when there is isoform-level allelic imbalance. We also introduce a new test for detecting imbalance that varies across a covariate, such as time

    Testcrosses are an efficient strategy for identifying cis-regulatory variation: Bayesian analysis of allele-specific expression (BayesASE)

    Get PDF
    Allelic imbalance (AI) occurs when alleles in a diploid individual are differentially expressed and indicates cis acting regulatory variation. What is the distribution of allelic effects in a natural population? Are all alleles the same? Are all alleles distinct? The approach described applies to any technology generating allele-specific sequence counts, for example for chromatin accessibility and can be applied generally including to comparisons between tissues or environments for the same genotype. Tests of allelic effect are generally performed by crossing individuals and comparing expression between alleles directly in the F1. However, a crossing scheme that compares alleles pairwise is a prohibitive cost for more than a handful of alleles as the number of crosses is at least (n2-n)/2 where n is the number of alleles. We show here that a testcross design followed by a hypothesis test of AI between testcrosses can be used to infer differences between nontester alleles, allowing n alleles to be compared with n crosses. Using a mouse data set where both testcrosses and direct comparisons have been performed, we show that the predicted differences between nontester alleles are validated at levels of over 90% when a parent-of-origin effect is present and of 60%-80% overall. Power considerations for a testcross, are similar to those in a reciprocal cross. In all applications, the testing for AI involves several complex bioinformatics steps. BayesASE is a complete bioinformatics pipeline that incorporates state-of-the-art error reduction techniques and a flexible Bayesian approach to estimating AI and formally comparing levels of AI between conditions. The modular structure of BayesASE has been packaged in Galaxy, made available in Nextflow and as a collection of scripts for the SLURM workload manager on github (https://github.com/McIntyre-Lab/BayesASE)

    Genome annotation, comparative genomics and evolution of the model grass genus Brachypodium (Poaceae)

    Get PDF
    INTRODUCCIÓNEn esta Tesis Doctoral se han llevado a cabo estudios evolutivos, biogeográficos, genómicos, transcriptómicos y de expresión génica en los taxones que integran el género Brachypodium (Poaceae) con el objetivo de descifrar los eventos de especiación que han dado lugar a las especies de dicho género. La tesis está constituida por cuatro capítulos con sus respectivos cuatro apéndices. DESARROLLO TEÓRICOCapítulo 1. Reconstrucción de los orígenes y la biogeografía de los genomas de las especies del género modelo de gramíneas Brachypodium, altamente reticulado y rico en especies alopoliploides, mediante métodos de evolución mínima, coalescencia y máxima verosimilitud (Reconstructing the origins and the biogeography of species’ genomes in the highly reticulate allopolyploid-rich model grass genus Brachypodium using minimum evolution, coalescence and maximum likelihood approaches).Se ha reconstruido la filogenia y la historia biogeográfica de las especies reconocidas de Brachypodium mediante el análisis evolutivo del gen nuclear copia simple GIGANTEA (GI), y de otros genes tanto nucleares (ITS, ETS) como plastídicos (ndhF, trnL-F). Para ello se han desarrollado análisis de redes haplotípicas, de mapeo de los alelos poliploides en el árbol de especies diploides por evolución mínima y de construcción del árbol de especies (de genomas y subgenomas), así como la reconstrucción biogeográfica y el cálculo de los tiempos de divergencia de los subgenomas homeólogos por métodos máximo verosímiles y bayesianos, respectivamente, y la estimación por coalescencia de los posibles tiempos en los que se produjeron los eventos de hibridación que dieron lugar a las especies alopoliploides.Nuestros resultados apoyan la naturaleza alopoliploide de las especies poliploides del género, así como un escenario espacio-temporal de diversas divergencias y fusiones de los genomas en las diferentes áreas ancestrales, mostrando un claro predominio de la dispersión de los genomas diploides frente a los alopoliploides. También han sido inferidos los tiempos de divergencia de todas los linajes estudiados, desde el más ancestral, B. stacei (6,8 Ma) hasta los más recientes del “core perennial” (0,7-0,3 Ma).Capítulo 2. Mapeos sinténicos contra genomas de referencia y estudios filogenómicos basados en análisis multigénicos revelan los ancestros de los subgenomas homeologos de especies alopoliploides del género Brachypodium. (Reference-genome syntenic mapping and multigene-based phylogenomics reveal the ancestry of homeologous subgenomes in grass Brachypodium allopolyploids).Se llevaron a cabo mapeos sinténicos de datos transcriptómicos y de genotipado genómico (GBS) contra los genomas de referencia de Brachypodium desarrollando nuestros propios algoritmos y herramientas bioinformáticas. Con esos datos se ha reconstruido la filogenia y se han datado los orígenes de los genomas y subgenomas presentes en especies diploides y alopoliploides de Brachypodium empleando métodos bayesianos y de máxima verosimilitud. Adicionalmente, se ha obtenido y analizado el pan-transcriptoma de las especies estudiadas, identificando genes potencialmente exclusivos de determinados grupos de especies.Los análisis filogenéticos basados en datos transcriptómicos junto con la obtención de tamaños genómicos nos ha permitido elucidar complejos escenarios de hibridación para los subgenomas homeologos de las seis especies alopoliploides de Brachypodium estudiadas, mostrando distintos eventos de hibridación que implican únicamente a genomas ancestrales, a genomas ancestrales y recientes, y únicamente a genomas recientes. Nuestros resultados apoyan el origen ancestral de B. mexicanum, el intermedio de B. boissieri y B. retusum, y la rápida radiación de las especies del “core perennial”.Los capítulos 1 y 2 suponen un completo análisis del género Brachypodium, en especial de las especies alopoliploides, cuyos resultados apoyan y datan los eventos evolutivos que han dado lugar a la compleja y reticulada historia evolutiva que presenta dicho género así como los posibles linajes progenitores de las especies alopoliploides. Capítulo 3. Genómica comparada del plastoma y filogenómica de Brachypodium: improntas de los tiempos de floración, introgresión y recombinación en los ecotipos recientemente evolucionados. (Comparative plastome genomics and phylogenomics of Brachypodium: flowering time signatures, introgression and recombination in recently diverged ecotypes).Se han ensamblado, anotado y analizado los genomas organulares (plastomas) de un amplio número de ecotipos de las especies anuales de Brachypodium, y se ha reconstruido su filogenia, comparándola con la de sus genomas nucleares. Se ha dilucidado la diversificación de los ecotipos y su relación con factores de tiempos de floración y geográficos. El estudio comparativo de los 57 genomas cloroplásticos ensamblados y anotados, 53 B. distachyon, 3 B. hybridum y 1 B. stacei, ha revelado reordenamientos genómicos, como la inserción de 1161 pb y la deleción de una de las copias del gen rps19, característicos de las especies B. stacei y B. hybridum (plastoma tipo stacei), respecto de las líneas de B. distachyon. Se han estimado sus orígenes mediante datación anidada dentro del marco evolutivo de las gramíneas y, para las líneas de B. distachyon, se ha comparado la filogenia plastómica con la nuclear, detectándose una divergencia clara de dos linajes intra-específicos, relacionada con sus tiempos de floración, y una subestructuración más reciente relacionada con su geografía, así como la evidencia de capturas cloroplásticas e introgresión entre clados distantes. Estos datos apoyan que la tendencia a la microespeciación se ve frenada por procesos de introgresión recurrente.Capítulo 4. Características de las redes de co-expresión y los genes diferencialmente expresados explican los patrones de respuesta a sequía en la gramínea modelo Brachypodium distachyon. (Co-expression network features and differentially expressed genes explain drought-response patterns in the model grass Brachypodium distachyon).Se han identificado y analizado genes funcionales implicados en la respuesta ambiental a estrés hídrico mediante el análisis de redes de co-expresión génica y de genes diferencialmente expresados en diversos ecotipos de la planta modelo Brachypodium distachyon.Se han analizado tanto la topología de dichas redes como los genes e isoformas más interconectadas, detectando 38 módulos en la red de co-expresión bajo condiciones de sequía, con 628 genes altamente interconectados (820 transcritos), y 30 módulos en la red de co-expresión en condiciones de riego con 839 genes altamente interconectados (1072 transcritos). Además se han identificado los procesos biológicos en los que están implicados los genes co-expresados, encontrando cinco módulos exclusivos de la red bajo condiciones de sequía de los cuales tres están directamente relacionados con procesos de respuesta a estrés hídrico. Estos resultados han sido correlacionados con datos pan-genómicos observando que la mayoría de los genes co-expresados son genes “core”, conservados en todos la líneas estudiadas, o “soft-core”, conservados en más del 90% de las líneas estudiadas.CONCLUSIONES1-Los análisis evolutivos y biogeográficos de los 20 taxones reconocidos del género Brachypodium empleando cinco genes (tres nucleares y dos plastídicos) indican que aproximadamente la mitad de las especies son diploides y la otra mitad alopoliploides. El análisis de evolución mínima de “injerto” de alelos alopoliploides en las ramas del árbol diploide recobra los linajes homeólogos (subgenomas) de los alopoliploides. Las sucesivas divergencias de los linajes de las diploides anuales (B. stacei, B. distachyon) tuvieron lugar durante el Mioceno tardío-Plioceno en la cuenca Mediterránea, mientras que las de los linajes de las diploides perennes (B. arbuscula, B. genuense, B. sylvaticum, B. glaucovirens, B. pinnatum-2x y B. rupestre-2x) ocurrieron durante el Cuaternario en las regiones Mediterránea y Euroasiática, con colonizaciones esporádicas de otros continentes. Las respectivas divergencias de los linajes homeólogos de los alopoliploides tuvieron lugar en distintos tiempos evolutivos. Nuestro escenario biogeográfico apoya la existencia de dispersiones a larga distancia únicamente en los linajes diploides, mientras que todos los eventos de hibridación y duplicación genómica ocurrieron dentro de las áreas ancestrales progenitoras más recientes, sin posteriores expansiones de área.2- Los análisis filogenómicos mediante datos de RNA-seq y GBS han identificado a B. mexicanum como la especie alopoliploide más antigua mostrando subgenomas de tipo ancestral (A) y materno de tipo stacei (B) (Mioceno medio-tardío). Los alopoliploides de elevado nivel de ploidía, B. boissieri y B. retusum, muestran tres y cuatro subgenomas respectivamente. Ambas especies presentan subgenomas A y B así como el subgenoma intermedio tipo distachyon (C) (Mioceno-Plioceno) (heredado maternalmente en B. boissieri). B. retusum también presenta un subgenoma materno tipo core perennial recientemente evolucionado (D) (Cuaternario). Los alotetraploides del clado core perennial B. rupestre y B. phoenicoides muestran únicamente subgenomas recientemente evolucionados tipo C y D (Cuaternario), siendo los diploides perennes B. pinnatum y B. sylvaticum sus respectivos progenitores maternos. El reciente alopoliploide B. hybridum se formó repetidamente y mediante cruzamientos bidireccionales durante el Cuaternario y es el único alopoliploide del que se conocen ambos progenitores diploides actuales, B. distachyon y B. stacei.3- Los análisis pan-transcriptómicos de 5202 conjuntos de tránscritos del género Brachypodium muestran genes expresados exclusivamente en los grupos de especies perennes (30), anuales (49), poliploides (14), alopoliploides más antiguos (143), especies ancestrales (14) y especies recientemente evolucionadas (52). Los tránscritos exclusivos de los alopoliploides antiguos podrían estar asociados con su genoma ancestral tipo A. Los tránscritos anotados como subunidad ARN polimerasa, encontrados únicamente en todas las especies anuales de Brachypodium, podrían indicar la existencia de diferencias en los niveles de expresión de las ARN polimerasas entre las especies anuales y perennes, o la pérdida de copias ancestrales en las especies perennes más recientemente evolucionadas.4- Los análisis pan-genómicos de los plastomas de 53 ecotipos de B. distachyon, 3 de B. hybridum y 1 de B. stacei han detectado una inserción (1161 pb) y una deleción en una de las copias del gen rps19 que diferencian a los plastomas de B. stacei y B. hybridum con respecto a los de B. distachyon, sin que se haya observado variación en el contenido génico entre los plastomas de B. distachyon.5- El árbol filogenómico de los plastomas de B. distachyon muestra la divergencia de dos linajes principales, correspondientes a los clados Extremely Delayed Flowering (EDF+) y Spanish (S+) – Turkish (T+), sugiriendo que el tiempo de floración es un factor decisivo en la divergencia intra-específica de B. distachyon. La comparación topológica entre las filogenias nucleares y plastídicas de esta especie revela nueve eventos de captura cloroplástica y dos de introgresión y micro-recombinación entre esos clados, apoyando la existencia de flujo génico entre linajes previamente aislados. Los intercambios de plastomas entre los tres grupos, EDF+, T+, S+, probablemente hayan sido el resultado de retro-cruzamientos aleatorios seguidos de estabilización por presión selectiva.6- Los análisis mediante redes ponderadas de co-expresión génica llevados a cabo en 33 ecotipos de B. distachyon bajo condiciones de sequía y riego identificaron cinco módulos exclusivos de la red de sequía, incluyendo 465 isoformas y 11 genes altamente interconectados (hubs). El análisis seleccionó genes candidatos y factores de transcripción (bHLH, ABF1, MADS box) potencialmente implicados en la regulación de la respuesta a sequía, tales como la síntesis de prolina y las respuestas a carencias de agua o fosfato, así como a estímulos por temperatura. Los análisis de expresión diferencial de genes en los ecotipos han detectado 4941 tránscritos, de los cuales dos terceras partes están sobre-expresados en las plantas en condiciones de sequía con respecto a las sometidas a condiciones de riego. Los análisis pan-transcriptómicos muestran que la mayoría de los genes expresados en ambas condiciones son genes del core, presentes en todos los ecotipos estudiados, mientras que una fracción de los genes hub corresponden a genes soft-core y shell, encontrados únicamente en algunos ecotipos. <br /

    A generalized linear model for decomposing cis-regulatory, parent-of-origin, and maternal effects on allele-specific gene expression

    Get PDF
    Joint quantification of genetic and epigenetic effects on gene expression is important for understanding the establishment of complex gene regulation systems in living organisms. In particular, genomic imprinting and maternal effects play important roles in the developmental process of mammals and flowering plants. However, the influence of these effects on gene expression are difficult to quantify because they act simultaneously with cis-regulatory mutations. Here we propose a simple method to decompose cis-regulatory (i.e., allelic genotype, AG), genomic imprinting (i.e., parent-of-origin, PO), and maternal (i.e., maternal genotype, MG) effects on allele-specific gene expression using RNA-seq data obtained from reciprocal crosses. We evaluated the efficiency of method using a simulated dataset and applied the method to whole-body Drosophila and mouse trophoblast stem cell (TSC) and liver RNA-seq data. Consistent with previous studies, we found little evidence of PO and MG effects in adult Drosophila samples. In contrast, we identified dozens and hundreds of mouse genes with significant PO and MG effects, respectively. Interestingly, a similar number of genes with significant PO effect were detect in mouse TSCs and livers, whereas more genes with significant MG effect were observed in livers. Further application of this method will clarify how these three effects influence gene expression levels in different tissues and developmental stages, and provide novel insight into the evolution of gene expression regulation.Comment: 27 pages, 3 figures, 2 tabl

    Evolutionary genomics of a cold-adapted diatom: Fragilariopsis cylindrus

    Get PDF
    The Southern Ocean houses a diverse and productive community of organisms1, 2. Unicellular eukaryotic diatoms are the main primary producers in this environment, where photosynthesis is limited by low concentrations of dissolved iron and large seasonal fluctuations in light, temperature and the extent of sea ice3, 4, 5, 6, 7. How diatoms have adapted to this extreme environment is largely unknown. Here we present insights into the genome evolution of a cold-adapted diatom from the Southern Ocean, Fragilariopsis cylindrus8, 9, based on a comparison with temperate diatoms. We find that approximately 24.7 per cent of the diploid F. cylindrus genome consists of genetic loci with alleles that are highly divergent (15.1 megabases of the total genome size of 61.1 megabases). These divergent alleles were differentially expressed across environmental conditions, including darkness, low iron, freezing, elevated temperature and increased CO2. Alleles with the largest ratio of non-synonymous to synonymous nucleotide substitutions also show the most pronounced condition-dependent expression, suggesting a correlation between diversifying selection and allelic differentiation. Divergent alleles may be involved in adaptation to environmental fluctuations in the Southern Ocean

    A Bayesian mixture model for the analysis of allelic expression in single cells.

    Get PDF
    Allele-specific expression (ASE) at single-cell resolution is a critical tool for understanding the stochastic and dynamic features of gene expression. However, low read coverage and high biological variability present challenges for analyzing ASE. We demonstrate that discarding multi-mapping reads leads to higher variability in estimates of allelic proportions, an increased frequency of sampling zeros, and can lead to spurious findings of dynamic and monoallelic gene expression. Here, we report a method for ASE analysis from single-cell RNA-Seq data that accurately classifies allelic expression states and improves estimation of allelic proportions by pooling information across cells. We further demonstrate that combining information across cells using a hierarchical mixture model reduces sampling variability without sacrificing cell-to-cell heterogeneity. We applied our approach to re-evaluate the statistical independence of allelic bursting and track changes in the allele-specific expression patterns of cells sampled over a developmental time course

    Statistical Methods For Genomic And Transcriptomic Sequencing

    Get PDF
    Part 1: High-throughput sequencing of DNA coding regions has become a common way of assaying genomic variation in the study of human diseases. Copy number variation (CNV) is an important type of genomic variation, but CNV profiling from whole-exome sequencing (WES) is challenging due to the high level of biases and artifacts. We propose CODEX, a normalization and CNV calling procedure for WES data. CODEX includes a Poisson latent factor model, which includes terms that specifically remove biases due to GC content, exon capture and amplification efficiency, and latent systemic artifacts. CODEX also includes a Poisson likelihood-based segmentation procedure that explicitly models the count-based WES data. CODEX is compared to existing methods on germline CNV detection in HapMap samples using microarray-based gold standard and is further evaluated on 222 neuroblastoma samples with matched normal, with focus on somatic CNVs within the ATRX gene. Part 2: Cancer is a disease driven by evolutionary selection on somatic genetic and epigenetic alterations. We propose Canopy, a method for inferring the evolutionary phylogeny of a tumor using both somatic copy number alterations and single nucleotide alterations from one or more samples derived from a single patient. Canopy is applied to bulk sequencing datasets of both longitudinal and spatial experimental designs and to a transplantable metastasis model derived from human cancer cell line MDA-MB-231. Canopy successfully identifies cell populations and infers phylogenies that are in concordance with existing knowledge and ground truth. Through simulations, we explore the effects of key parameters on deconvolution accuracy, and compare against existing methods. Part 3: Allele-specific expression is traditionally studied by bulk RNA sequencing, which measures average expression across cells. Single-cell RNA sequencing (scRNA-seq) allows the comparison of expression distribution between the two alleles of a diploid organism and thus the characterization of allele-specific bursting. We propose SCALE to analyze genome-wide allele-specific bursting, with adjustment of technical variability. SCALE detects genes exhibiting allelic differences in bursting parameters, and genes whose alleles burst non-independently. We apply SCALE to mouse blastocyst and human fibroblast cells and find that, globally, cis control in gene expression overwhelmingly manifests as differences in burst frequency
    corecore