205 research outputs found

    Longest Common Prefixes with kk-Errors and Applications

    Full text link
    Although real-world text datasets, such as DNA sequences, are far from being uniformly random, average-case string searching algorithms perform significantly better than worst-case ones in most applications of interest. In this paper, we study the problem of computing the longest prefix of each suffix of a given string of length nn over a constant-sized alphabet that occurs elsewhere in the string with kk-errors. This problem has already been studied under the Hamming distance model. Our first result is an improvement upon the state-of-the-art average-case time complexity for non-constant kk and using only linear space under the Hamming distance model. Notably, we show that our technique can be extended to the edit distance model with the same time and space complexities. Specifically, our algorithms run in O(nlogknloglogn)\mathcal{O}(n \log^k n \log \log n) time on average using O(n)\mathcal{O}(n) space. We show that our technique is applicable to several algorithmic problems in computational biology and elsewhere

    MUSIC: identification of enriched regions in ChIP-Seq experiments using a mappability-corrected multiscale signal processing framework

    Get PDF
    We present MUSIC, a signal processing approach for identification of enriched regions in ChIP-Seq data, available at music.gersteinlab.org. MUSIC first filters the ChIP-Seq read-depth signal for systematic noise from non-uniform mappability, which fragments enriched regions. Then it performs a multiscale decomposition, using median filtering, identifying enriched regions at multiple length scales. This is useful given the wide range of scales probed in ChIP-Seq assays. MUSIC performs favorably in terms of accuracy and reproducibility compared with other methods. In particular, analysis of RNA polymerase II data reveals a clear distinction between the stalled and elongating forms of the polymerase. ELECTRONIC SUPPLEMENTARY MATERIAL: The online version of this article (doi:10.1186/s13059-014-0474-3) contains supplementary material, which is available to authorized users

    Sources of bias in measures of allele-specific expression derived from RNA-seq data aligned to a single reference genome

    Full text link
    Abstract Background RNA-seq can be used to measure allele-specific expression (ASE) by assigning sequence reads to individual alleles; however, relative ASE is systematically biased when sequence reads are aligned to a single reference genome. Aligning sequence reads to both parental genomes can eliminate this bias, but this approach is not always practical, especially for non-model organisms. To improve accuracy of ASE measured using a single reference genome, we identified properties of differentiating sites responsible for biased measures of relative ASE. Results We found that clusters of differentiating sites prevented sequence reads from an alternate allele from aligning to the reference genome, causing a bias in relative ASE favoring the reference allele. This bias increased with greater sequence divergence between alleles. Increasing the number of mismatches allowed when aligning sequence reads to the reference genome and restricting analysis to genomic regions with fewer differentiating sites than the number of mismatches allowed almost completely eliminated this systematic bias. Accuracy of allelic abundance was increased further by excluding differentiating sites within sequence reads that could not be aligned uniquely within the genome (imperfect mappability) and reads that overlapped one or more insertions or deletions (indels) between alleles. Conclusions After aligning sequence reads to a single reference genome, excluding differentiating sites with at least as many neighboring differentiating sites as the number of mismatches allowed, imperfect mappability, and/or an indel(s) nearby resulted in measures of allelic abundance comparable to those derived from aligning sequence reads to both parental genomes.http://deepblue.lib.umich.edu/bitstream/2027.42/112895/1/12864_2013_Article_5263.pd

    Depicting epigenetic mechanisms involved in the regulation of pseudogene expression

    Get PDF
    Tese de mestrado em Biologia Molecular e Genética, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2017A epigenética dedica-se ao estudo de modificações que ocorrem, principalmente, sobre a dupla cadeia de DNA, sem que exista a edição da sequência nela contida (Waddington 1942b, 1942a). Graças às descobertas feitas nesta área nos últimos anos, existem vários tipos de modificações epigenéticas já descritas, entre as quais se destaca as modificações de histonas e a metilação do DNA (Li et al. 2007). Assim, avaliando a presença ou ausência destas modificações, poderemos inferir relativamente à activação ou silenciamento de uma determinada região do genoma. Vários estudos têm sido realizados para caracterizar a forma como estas modificações afectam a transcrição de genes codificadores de proteína (Kouzarides 2007), no entanto, pouco se sabe como estas modificações podem condicionar outras classes de genes, nomeadamente, os pseudogenes. Neste sentido, o objectivo deste trabalho consiste na determinação de modificações epigenéticas que possam estar envolvidas na expressão dos pseudogenes, potencialmente exercendo um papel crucial na sua regulação. Os pseudogenes são cópias ancestrais de sequências codificantes que, possivelmente devido à perda de pressão selectiva, degeneraram em novas unidades genéticas (Jacq et al. 1977). Actualmente, os pseudogenes são classificados em três grandes grupos que são definidos com base no seu processo de formação: processados, a classe de pseudogenes mais representada e cuja formação envolve um processo de transcrição reversa e integração de um RNA mensageiro novamente no DNA, num processo conhecido por retrotransposição; não processados, no caso do processo de formação do pseudogene acontecer através da duplicação de um gene completo; e unitários, quando a própria estrutura física do gene sofre modificações que levam à perda da capacidade de codificar uma proteína (Pink et al. 2011). O processo de formação dos pseudogenes que resulta na incapacidade do novo pseudogene codificar uma proteína denomina-se “pseudogenização” (Gregório 2016). Graças ao recente desenvolvimento de plataformas de sequenciação em larga escala, revelou-se que os pseudogenes são transcritos e que a sua transcrição pode estar envolvida na condução de importantes processos celulares nos quais os pseudogenes podem desempenhar funções celulares específicas. Presentemente, sabe-se que os pseudogenes conseguem também actuar através de diferentes mecanismos para modular a regulação dos seus genes parentais, nomeadamente através da competição para esponjas de microRNAs (Thomson and Dinger 2016), transcritos antisense ou lncRNAs com a capacidade de conduzir complexos proteicos remodeladores de cromatina (Groen et al. 2014). Para além desta actuação mediada por RNA através dos potenciais transcritos dos pseudogenes, pensa-se também que os pseudogenes podem ter mecanismos de acção ao nível do DNA que podem condicionar a actividade do gene parental, por exemplo através de um evento de recombinação homóloga entre o pseudogene e o gene parental que pode resultar na deleção do gene parental (Poliseno 2012). Dada esta possível contribuição em vários processos celulares, os pseudogenes definem um novo paradigma de como o genoma não codificante pode ter importantes contribuições em diversas funções biológicas, nomeadamente no desenvolvimento e no cancro. Um exemplo destas contribuições é o pseudogene Oct4p4, que tem a capacidade de regular a transcrição do seu gene parental, o regulador de pluripotência Oct4. Quando expresso, este pseudogene conduz a célula a iniciar o processo de diferenciação neural, através da imposição da modificação repressiva da histona H3 (H3K9me3) na região promotora do gene Oct4 (Liedtke et al. 2007). Um outro exemplo de um pseudogene com uma função importante, neste caso em cancro, é o PTENP1, um pseudogene do gene supressor tumoral PTEN. O PTENP1 é o exemplo de um pseudogene com diversificados mecanismos de acção através de um único pseudogene conseguindo actuar como uma esponja de microRNAs, um catalisador do recrutamento de remodeladores da cromatina para o promotor do gene PTEN e um transcrito antisense que consegue regular a estabilidade e a função de esponja de microRNAs do próprio transcrito sense do PTENP1 (Johnsson et al. 2013). Contudo, os mecanismos pelos quais a expressão dos pseudogenes é regulada e qual o seu papel biológico estão ainda por explorar. Grande porção dos pseudogenes não aparentam ter sequências regulatórias a montante do corpo do pseudogene, o que pode sugerir que outros mecanismos poderão estar envolvidos neste processo, em resultado da observação de modificações nas histonas de pseudogenes que são transcritos e que não são características nos seus genes parentais ou nos restantes genes codificadores de proteínas (Pei et al. 2012). Um destes exemplos é a presença de H3K9me3 na região do promotor de pseudogenes expressos (Guo et al. 2014). Tendo em consideração estas observações, propomos a hipótese que os pseudogenes possuem mecanismos epigenéticos próprios a regular a sua transcrição. Para testar esta hipótese, estudámos o transcriptoma e epigenoma dos pseudogenes durante a diferenciação neural de células estaminais embrionárias, através da combinação de análises de dados em larga de escala do transcriptoma (RNAseq e GRO-seq), metilação de DNA (BS-seq), regiões de cromatina aberta (hipersensibilidade à DNase) e modificações de histona (ChIP-seq). Os dados usados foram obtidos através da plataforma NIH Roadmap Epigenomics Consortium (Bernstein et al. 2010), consistindo em 72 amostras e um total de 194 replicados. Devido à elevada expressão de pseudogenes no cérebro (Pei et al. 2012), este projecto incidiu essencialmente na diferenciação neural, durante a qual células estaminais embrionárias (H1) foram diferenciadas in vitro em células progenitoras neuronais (H1N). As nossas análises referentes ao transcriptoma revelaram um número mais elevado de pseudogenes a serem expressos durante a diferenciação neural quando comparado com a diferenciação mesenquimal. No entanto, observámos que a detecção da transcrição dos pseudogenes pode ser incorrectamente determinada usando dados de RNA-seq, pois os perfis obtidos por esta tecnologia são influenciados pela estabilidade dos transcritos. Em concordância, os resultados obtidos usando dados de GRO-seq suportam esta hipótese, dado que permitem identificar um maior número de pseudogenes a serem transcritos. Após a identificação dos pseudogenes transcritos e silenciados, analisámos o seu enriquecimento em modificações de histonas. De todas as alterações observadas, destacamos três importantes observações associadas com a transcrição de pseudogenes, nomeadamente a presença de: H3K36me3 no corpo do pseudogenes transcritos, associada a episódios de continuação da transcrição do gene na região a montante (“read-through”); H3K9me3, uma marca epigenética usualmente associada a regiões não transcritas; e, por fim, domínios bivalentes (H3K4me3 e H3K27me3) na região promotora de alguns pseudogenes. Estas observações parecem sustentar a hipótese que sugere que a transcrição dos pseudogenes é regulada. Estudos mais profundos são necessários para perceber a extensão destas modificações na expressão dos pseudogenes, apesar da presença de H3K36me3 e H3K9me3 terem sido já observadas previamente em pseudogenes transcritos (Pei et al. 2012; Guo et al. 2014). No entanto, são ainda muitas as limitações associadas ao estudo dos pseudogenes e que precisam de um melhoramento no futuro. Primeiramente, a semelhança existente entre pseudogenes e os genes parentais dificulta o mapeamento destas regiões usando dados de sequenciação de transcriptoma. Adicionalmente, a expressão de pseudogenes por “read-through” do gene a montante pode sugerir a existência de erros na anotação de bases de dados e pressiona para a crescente necessidade de melhoramento na caracterização de genomas. Concluindo, os resultados aqui observados e discutidos confirmam que os pseudogenes são transcritos e que a sua transcrição parece ser regulada, sugerindo que o seu papel não será assim tão “pseudo” como previamente se pensava. Contudo, mais esforços são necessários para caracterizar a extensão destas alterações, bem como para aferir a contribuição da metilação do DNA na regulação da expressão dos pseudogenes.Pseudogenes are genetic elements that derive from normal protein-coding genes which, through the accumulation of deteriorating mutations, have lost coding potential in a process which is known as “pseudogenization”. However, recent high throughput sequencing technology has shown that pseudogenes are transcribed and that their transcription is tissue-specific, which suggests that pseudogenes might have an important role in biological processes. Many pseudogenes have been described to regulate important processes in development or cancer. Yet, not much is known about how pseudogene expression is regulated. Most pseudogenes seem to have lost their upstream regulatory sequences, indicating that trans-acting mechanisms might be responsible for this regulation. Studies evidence that pseudogenes have different histone modifications compared to their parental genes, suggesting that they might have specific transcriptional mechanisms. In this project, we aimed at identifying the epigenetic pattern responsible for the regulation of pseudogene transcription through a genome-wide analysis. For this analysis, we used transcriptomic data (RNA-seq and GRO-seq) to detect pseudogene transcription and epigenomic data (ChIP-seq, DNase Hypersensitivity and WGBS-seq) to assess epigenomic changes in silent and expressed pseudogenes. Since pseudogene expression has been shown to be higher in the brain, we choose to address our research questions using in vitro neural differentiation of embryonic stem cells (ESCs) as a cell differentiation model system. Our analysis confirmed that there are more pseudogenes being expressed during neural differentiation when compared to mesenchymal differentiation. Regarding their epigenetic modifications, our results show that some pseudogenes, in which the histone modification H3K36me3 is present, might be transcribed as a consequence of transcription read-through from the upstream gene. Expressed pseudogenes also seem to be enriched with the histone modification H3K9me3, a modification that is known to be associated with inactive transcription. As well as in protein-coding genes and lncRNAs, pseudogenes are enriched with bivalent promoters features, such as the colocalized presence of H3K4me3 and H3K27me3 in both undifferentiated and neural differentiated cell lines. To conclude, although the regulation of pseudogene transcription still requires further work to truly apprehend the epigenetic mechanisms that contribute to pseudogene expression, our work has confirmed that mainly histone modification such as H3K36me3 and H3K9me3 may indeed play a role, either direct or indirect, that can help modulate the expression of these very particular genes

    RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>RNA-Seq is revolutionizing the way transcript abundances are measured. A key challenge in transcript quantification from RNA-Seq data is the handling of reads that map to multiple genes or isoforms. This issue is particularly important for quantification with de novo transcriptome assemblies in the absence of sequenced genomes, as it is difficult to determine which transcripts are isoforms of the same gene. A second significant issue is the design of RNA-Seq experiments, in terms of the number of reads, read length, and whether reads come from one or both ends of cDNA fragments.</p> <p>Results</p> <p>We present RSEM, an user-friendly software package for quantifying gene and isoform abundances from single-end or paired-end RNA-Seq data. RSEM outputs abundance estimates, 95% credibility intervals, and visualization files and can also simulate RNA-Seq data. In contrast to other existing tools, the software does not require a reference genome. Thus, in combination with a de novo transcriptome assembler, RSEM enables accurate transcript quantification for species without sequenced genomes. On simulated and real data sets, RSEM has superior or comparable performance to quantification methods that rely on a reference genome. Taking advantage of RSEM's ability to effectively use ambiguously-mapping reads, we show that accurate gene-level abundance estimates are best obtained with large numbers of short single-end reads. On the other hand, estimates of the relative frequencies of isoforms within single genes may be improved through the use of paired-end reads, depending on the number of possible splice forms for each gene.</p> <p>Conclusions</p> <p>RSEM is an accurate and user-friendly software tool for quantifying transcript abundances from RNA-Seq data. As it does not rely on the existence of a reference genome, it is particularly useful for quantification with de novo transcriptome assemblies. In addition, RSEM has enabled valuable guidance for cost-efficient design of quantification experiments with RNA-Seq, which is currently relatively expensive.</p
    corecore