1,525 research outputs found

    Genome-Wide Survey for Biologically Functional Pseudogenes

    Get PDF
    According to current estimates there exist about 20,000 pseudogenes in a mammalian genome. The vast majority of these are disabled and nonfunctional copies of protein-coding genes which, therefore, evolve neutrally. Recent findings that a Makorin1 pseudogene, residing on mouse Chromosome 5, is, indeed, in vivo vital and also evolutionarily preserved, encouraged us to conduct a genome-wide survey for other functional pseudogenes in human, mouse, and chimpanzee. We identify to our knowledge the first examples of conserved pseudogenes common to human and mouse, originating from one duplication predating the human–mouse species split and having evolved as pseudogenes since the species split. Functionality is one possible way to explain the apparently contradictory properties of such pseudogene pairs, i.e., high conservation and ancient origin. The hypothesis of functionality is tested by comparing expression evidence and synteny of the candidates with proper test sets. The tests suggest potential biological function. Our candidate set includes a small set of long-lived pseudogenes whose unknown potential function is retained since before the human–mouse species split, and also a larger group of primate-specific ones found from human–chimpanzee searches. Two processed sequences are notable, their conservation since the human–mouse split being as high as most protein-coding genes; one is derived from the protein Ataxin 7-like 3 (ATX7NL3), and one from the Spinocerebellar ataxia type 1 protein (ATX1). Our approach is comparative and can be applied to any pair of species. It is implemented by a semi-automated pipeline based on cross-species BLAST comparisons and maximum-likelihood phylogeny estimations. To separate pseudogenes from protein-coding genes, we use standard methods, utilizing in-frame disablements, as well as a probabilistic filter based on Ka/Ks ratios

    Assessing the genomic evidence for conserved transcribed pseudogenes under selection

    Get PDF
    <p>Abstract</p> <p>Background</p> <p><it>Transcribed pseudogenes </it>are copies of protein-coding genes that have accumulated indicators of coding-sequence decay (such as frameshifts and premature stop codons), but nonetheless remain transcribed. Recent experimental evidence indicates that transcribed pseudogenes may regulate the expression of homologous genes, through antisense interference, or generation of small interfering RNAs (siRNAs). Here, we assessed the genomic evidence for such transcribed pseudogenes of potential functional importance, in the human genome. The most obvious indicators of such functional importance are significant evidence of conservation and selection pressure.</p> <p>Results</p> <p>A variety of pseudogene annotations from multiple sources were pooled and filtered to obtain a subset of sequences that have significant mid-sequence disablements (frameshifts and premature stop codons), and that have clear evidence of full-length mRNA transcription. We found 1750 such transcribed pseudogene annotations (TPAs) in the human genome (corresponding to ~11.5% of human pseudogene annotations). We checked for syntenic conservation of TPAs in other mammals (rhesus monkey, mouse, rat, dog and cow). About half of the human TPAs are conserved in rhesus monkey, but strikingly, very few in mouse (~3%). The TPAs conserved in rhesus monkey show evidence of selection pressure (relative to surrounding intergenic DNA) on: <it>(i) </it>their GC content, and <it>(ii) </it>their rate of nucleotide substitution. This is in spite of distributions of Ka/Ks (ratios of non-synonymous to synonymous substitution rates), congruent with a lack of protein-coding ability. Furthermore, we have identified 68 human TPAs that are syntenically conserved in at least two other mammals. Interestingly, we observe three TPA sequences conserved in dog that have intermediate character (<it>i.e.</it>, evidence of both protein-coding ability and pseudogenicity), and discuss the implications of this.</p> <p>Conclusion</p> <p>Through evolutionary analysis, we have identified candidate sequences for functional human transcribed pseudogenes, and have pinpointed 68 strong candidates for further investigation as potentially functional transcribed pseudogenes across multiple mammal species.</p

    Origin of phenotypes: Genes and transcripts

    Get PDF

    Comparative analysis of processed ribosomal protein pseudogenes in four mammalian genomes

    Get PDF
    An analysis of ribosomal protein pseudogenes in the four mammalian genomes reveals no correlation between number of pseudogenes and mRNA abundance

    Depicting epigenetic mechanisms involved in the regulation of pseudogene expression

    Get PDF
    Tese de mestrado em Biologia Molecular e Genética, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2017A epigenética dedica-se ao estudo de modificações que ocorrem, principalmente, sobre a dupla cadeia de DNA, sem que exista a edição da sequência nela contida (Waddington 1942b, 1942a). Graças às descobertas feitas nesta área nos últimos anos, existem vários tipos de modificações epigenéticas já descritas, entre as quais se destaca as modificações de histonas e a metilação do DNA (Li et al. 2007). Assim, avaliando a presença ou ausência destas modificações, poderemos inferir relativamente à activação ou silenciamento de uma determinada região do genoma. Vários estudos têm sido realizados para caracterizar a forma como estas modificações afectam a transcrição de genes codificadores de proteína (Kouzarides 2007), no entanto, pouco se sabe como estas modificações podem condicionar outras classes de genes, nomeadamente, os pseudogenes. Neste sentido, o objectivo deste trabalho consiste na determinação de modificações epigenéticas que possam estar envolvidas na expressão dos pseudogenes, potencialmente exercendo um papel crucial na sua regulação. Os pseudogenes são cópias ancestrais de sequências codificantes que, possivelmente devido à perda de pressão selectiva, degeneraram em novas unidades genéticas (Jacq et al. 1977). Actualmente, os pseudogenes são classificados em três grandes grupos que são definidos com base no seu processo de formação: processados, a classe de pseudogenes mais representada e cuja formação envolve um processo de transcrição reversa e integração de um RNA mensageiro novamente no DNA, num processo conhecido por retrotransposição; não processados, no caso do processo de formação do pseudogene acontecer através da duplicação de um gene completo; e unitários, quando a própria estrutura física do gene sofre modificações que levam à perda da capacidade de codificar uma proteína (Pink et al. 2011). O processo de formação dos pseudogenes que resulta na incapacidade do novo pseudogene codificar uma proteína denomina-se “pseudogenização” (Gregório 2016). Graças ao recente desenvolvimento de plataformas de sequenciação em larga escala, revelou-se que os pseudogenes são transcritos e que a sua transcrição pode estar envolvida na condução de importantes processos celulares nos quais os pseudogenes podem desempenhar funções celulares específicas. Presentemente, sabe-se que os pseudogenes conseguem também actuar através de diferentes mecanismos para modular a regulação dos seus genes parentais, nomeadamente através da competição para esponjas de microRNAs (Thomson and Dinger 2016), transcritos antisense ou lncRNAs com a capacidade de conduzir complexos proteicos remodeladores de cromatina (Groen et al. 2014). Para além desta actuação mediada por RNA através dos potenciais transcritos dos pseudogenes, pensa-se também que os pseudogenes podem ter mecanismos de acção ao nível do DNA que podem condicionar a actividade do gene parental, por exemplo através de um evento de recombinação homóloga entre o pseudogene e o gene parental que pode resultar na deleção do gene parental (Poliseno 2012). Dada esta possível contribuição em vários processos celulares, os pseudogenes definem um novo paradigma de como o genoma não codificante pode ter importantes contribuições em diversas funções biológicas, nomeadamente no desenvolvimento e no cancro. Um exemplo destas contribuições é o pseudogene Oct4p4, que tem a capacidade de regular a transcrição do seu gene parental, o regulador de pluripotência Oct4. Quando expresso, este pseudogene conduz a célula a iniciar o processo de diferenciação neural, através da imposição da modificação repressiva da histona H3 (H3K9me3) na região promotora do gene Oct4 (Liedtke et al. 2007). Um outro exemplo de um pseudogene com uma função importante, neste caso em cancro, é o PTENP1, um pseudogene do gene supressor tumoral PTEN. O PTENP1 é o exemplo de um pseudogene com diversificados mecanismos de acção através de um único pseudogene conseguindo actuar como uma esponja de microRNAs, um catalisador do recrutamento de remodeladores da cromatina para o promotor do gene PTEN e um transcrito antisense que consegue regular a estabilidade e a função de esponja de microRNAs do próprio transcrito sense do PTENP1 (Johnsson et al. 2013). Contudo, os mecanismos pelos quais a expressão dos pseudogenes é regulada e qual o seu papel biológico estão ainda por explorar. Grande porção dos pseudogenes não aparentam ter sequências regulatórias a montante do corpo do pseudogene, o que pode sugerir que outros mecanismos poderão estar envolvidos neste processo, em resultado da observação de modificações nas histonas de pseudogenes que são transcritos e que não são características nos seus genes parentais ou nos restantes genes codificadores de proteínas (Pei et al. 2012). Um destes exemplos é a presença de H3K9me3 na região do promotor de pseudogenes expressos (Guo et al. 2014). Tendo em consideração estas observações, propomos a hipótese que os pseudogenes possuem mecanismos epigenéticos próprios a regular a sua transcrição. Para testar esta hipótese, estudámos o transcriptoma e epigenoma dos pseudogenes durante a diferenciação neural de células estaminais embrionárias, através da combinação de análises de dados em larga de escala do transcriptoma (RNAseq e GRO-seq), metilação de DNA (BS-seq), regiões de cromatina aberta (hipersensibilidade à DNase) e modificações de histona (ChIP-seq). Os dados usados foram obtidos através da plataforma NIH Roadmap Epigenomics Consortium (Bernstein et al. 2010), consistindo em 72 amostras e um total de 194 replicados. Devido à elevada expressão de pseudogenes no cérebro (Pei et al. 2012), este projecto incidiu essencialmente na diferenciação neural, durante a qual células estaminais embrionárias (H1) foram diferenciadas in vitro em células progenitoras neuronais (H1N). As nossas análises referentes ao transcriptoma revelaram um número mais elevado de pseudogenes a serem expressos durante a diferenciação neural quando comparado com a diferenciação mesenquimal. No entanto, observámos que a detecção da transcrição dos pseudogenes pode ser incorrectamente determinada usando dados de RNA-seq, pois os perfis obtidos por esta tecnologia são influenciados pela estabilidade dos transcritos. Em concordância, os resultados obtidos usando dados de GRO-seq suportam esta hipótese, dado que permitem identificar um maior número de pseudogenes a serem transcritos. Após a identificação dos pseudogenes transcritos e silenciados, analisámos o seu enriquecimento em modificações de histonas. De todas as alterações observadas, destacamos três importantes observações associadas com a transcrição de pseudogenes, nomeadamente a presença de: H3K36me3 no corpo do pseudogenes transcritos, associada a episódios de continuação da transcrição do gene na região a montante (“read-through”); H3K9me3, uma marca epigenética usualmente associada a regiões não transcritas; e, por fim, domínios bivalentes (H3K4me3 e H3K27me3) na região promotora de alguns pseudogenes. Estas observações parecem sustentar a hipótese que sugere que a transcrição dos pseudogenes é regulada. Estudos mais profundos são necessários para perceber a extensão destas modificações na expressão dos pseudogenes, apesar da presença de H3K36me3 e H3K9me3 terem sido já observadas previamente em pseudogenes transcritos (Pei et al. 2012; Guo et al. 2014). No entanto, são ainda muitas as limitações associadas ao estudo dos pseudogenes e que precisam de um melhoramento no futuro. Primeiramente, a semelhança existente entre pseudogenes e os genes parentais dificulta o mapeamento destas regiões usando dados de sequenciação de transcriptoma. Adicionalmente, a expressão de pseudogenes por “read-through” do gene a montante pode sugerir a existência de erros na anotação de bases de dados e pressiona para a crescente necessidade de melhoramento na caracterização de genomas. Concluindo, os resultados aqui observados e discutidos confirmam que os pseudogenes são transcritos e que a sua transcrição parece ser regulada, sugerindo que o seu papel não será assim tão “pseudo” como previamente se pensava. Contudo, mais esforços são necessários para caracterizar a extensão destas alterações, bem como para aferir a contribuição da metilação do DNA na regulação da expressão dos pseudogenes.Pseudogenes are genetic elements that derive from normal protein-coding genes which, through the accumulation of deteriorating mutations, have lost coding potential in a process which is known as “pseudogenization”. However, recent high throughput sequencing technology has shown that pseudogenes are transcribed and that their transcription is tissue-specific, which suggests that pseudogenes might have an important role in biological processes. Many pseudogenes have been described to regulate important processes in development or cancer. Yet, not much is known about how pseudogene expression is regulated. Most pseudogenes seem to have lost their upstream regulatory sequences, indicating that trans-acting mechanisms might be responsible for this regulation. Studies evidence that pseudogenes have different histone modifications compared to their parental genes, suggesting that they might have specific transcriptional mechanisms. In this project, we aimed at identifying the epigenetic pattern responsible for the regulation of pseudogene transcription through a genome-wide analysis. For this analysis, we used transcriptomic data (RNA-seq and GRO-seq) to detect pseudogene transcription and epigenomic data (ChIP-seq, DNase Hypersensitivity and WGBS-seq) to assess epigenomic changes in silent and expressed pseudogenes. Since pseudogene expression has been shown to be higher in the brain, we choose to address our research questions using in vitro neural differentiation of embryonic stem cells (ESCs) as a cell differentiation model system. Our analysis confirmed that there are more pseudogenes being expressed during neural differentiation when compared to mesenchymal differentiation. Regarding their epigenetic modifications, our results show that some pseudogenes, in which the histone modification H3K36me3 is present, might be transcribed as a consequence of transcription read-through from the upstream gene. Expressed pseudogenes also seem to be enriched with the histone modification H3K9me3, a modification that is known to be associated with inactive transcription. As well as in protein-coding genes and lncRNAs, pseudogenes are enriched with bivalent promoters features, such as the colocalized presence of H3K4me3 and H3K27me3 in both undifferentiated and neural differentiated cell lines. To conclude, although the regulation of pseudogene transcription still requires further work to truly apprehend the epigenetic mechanisms that contribute to pseudogene expression, our work has confirmed that mainly histone modification such as H3K36me3 and H3K9me3 may indeed play a role, either direct or indirect, that can help modulate the expression of these very particular genes

    Unconventional Gene Behavior and its Relationship to Pseudogenes

    Get PDF
    Traditionally, pseudogenes have been regarded as “dead” gene copies as a result of features such as the absence of promoters and the existence of premature stop codons. However, the recognition of a truly disabled gene is not as straightforward as once believed. It is now known that promoters may be cryptic. Genomic recoding processes can allow for the synthesis of a peptide despite the present of premature stop codons. Alternative splicing can allow for the omission of exons that contain premature stop codons. Finally, negative evidence for pseudogene expression, for the relatively few pseudogenes for which it is available, must be interpreted with caution. This is in view of the fact that many genes express themselves only under very restricted conditions

    Pseudofam: the pseudogene families database

    Get PDF
    Pseudofam (http://pseudofam.pseudogene.org) is a database of pseudogene families based on the protein families from the Pfam database. It provides resources for analyzing the family structure of pseudogenes including query tools, statistical summaries and sequence alignments. The current version of Pseudofam contains more than 125 000 pseudogenes identified from 10 eukaryotic genomes and aligned within nearly 3000 families (approximately one-third of the total families in PfamA). Pseudofam uses a large-scale parallelized homology search algorithm (implemented as an extension of the PseudoPipe pipeline) to identify pseudogenes. Each identified pseudogene is assigned to its parent protein family and subsequently aligned to each other by transferring the parent domain alignments from the Pfam family. Pseudogenes are also given additional annotation based on an ontology, reflecting their mode of creation and subsequent history. In particular, our annotation highlights the association of pseudogene families with genomic features, such as segmental duplications. In addition, pseudogene families are associated with key statistics, which identify outlier families with an unusual degree of pseudogenization. The statistics also show how the number of genes and pseudogenes in families correlates across different species. Overall, they highlight the fact that housekeeping families tend to be enriched with a large number of pseudogenes

    A copy number variation in human NCF1 and its pseudogenes

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>Neutrophil cytosolic factor-1 (NCF1) is a component of NADPH oxidase. The NCF1 gene colocalizes with two pseudogenes (NCF1B and NCF1C). These two pseudogenes have a GT deletion in exon 2, resulting in a frameshift and an early stop codon. Here, we report a copy number variation (CNV) of the NCF1 pseudogenes and their alternative spliced expressions.</p> <p>Results</p> <p>We examined three normal populations (86 individuals). We observed the 2:2:2 pattern (NCF1B:NCF1:NCF1C) in only 26 individuals. On average, each African- American has 1.4 ± 0.8 (Mean ± SD) copies of NCF1B and 2.3 ± 0.6 copies of NCF1C; each Caucasian has 1.8 ± 0.7 copies of NCF1B and 1.9 ± 0.4 copies of NCF1C; and each Mexican has 1.6 ± 0.6 copies of NCF1B and 1.0 ± 0.4 copies of NCF1C. Mexicans have significantly less NCF1C copies than African-Americans (<it>p </it>= 6e-15) and Caucasians (<it>p </it>= 3e-11). Mendelian transmission of this CNV was observed in two CEPH pedigrees. Moreover, we cloned two alternative spliced transcripts generated from these two pseudogenes that adopt alternative exon-2 instead of their defective exon 2. The NCF1 pseudogene expression responded robustly to PMA induction during macrophage differentiation. NCF1B decreased from 32.9% to 8.3% in the cDNA pool transcribed from 3 gene copies. NCF1Ψs also displayed distinct expression patterns in different human tissues.</p> <p>Conclusions</p> <p>Our results suggest that these two pseudogenes may adopt an alternative exon-2 in different tissues and in response to external stimuli. The GT deletion is insufficient to define them as functionless pseudogenes; this CNV may have biological relevance.</p
    corecore