Genome-wide profiling of RNA polymerase II and associated co-transcriptional processes using advanced NET-seq data

Abstract

Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências, 2014A transcrição é o processo, presente em todos os seres vivos, em que a partir de uma cadeia molde de DNA se sintetiza uma cadeia complementar de RNA. A grande maioria dos genes em eucariotas é transcrita pela RNA polimerase II. A cadeia de RNA sintetizada não é, no entanto, o produto final, já que pode ser alvo de vários tipos de processamento, como splicing, poliadenilação ou edição de bases. Estes fenómenos foram já descritos como ocorrendo co ou pós-transcricionalmente. No entanto, não são ainda conhecidos todos os componentes, nem como são regulados estes processos ou qual a sua interação com a RNA polimerase II, em particular com o seu domínio carboxi-terminal (CTD). Para abordar estes problemas de uma forma não enviesada, optou-se por adaptar uma técnica anteriormente descrita, que abrange todo o genoma, de alto rendimento e precisão, a native elongating transcript sequencing (NET-seq); sendo ela modificada de modo a poder detetar qual o estado de fosforilação do domínio carboxi-terminal da polimerase isolada em cada ensaio. Ao novo protocolo chamou-se advanced NET-seq (ANET-seq). Para além dos dados gerados por este protocolo, foram também obtidos dados de RNA ligado à fração de cromatina (ChrRNA). Todos os dados foram obtidos de células HeLa, sendo esta a primeira instância em que um estudo de nível genómico com esta precisão de mapeamento foi aplicado em mamíferos. Análise inicial destes dados revelou uma distribuição das isoformas do CTD nos genes idêntica ao previamente descrito por outras técnicas. Adicionalmente, verificou-se também a captura de precursores do splicing, nomeadamente do 3’ do exão upstream, distintamente nos casos em que este é incluído no transcrito final. Estes exões aparecem principalmente associados a polimerase fosforilada na serina 5 do seu CTD. Outra observação curiosa foi a deteção de precursores do processamento de micro RNAs pelo complexo Drosha/DGCR8. Diferenças na deteção destes precursores permitiu postular diferentes dinâmicas para o processamento destes RNAs não codificantes. Também se obtiveram dados de ANET-seq (com anticorpo para fosforilação da serina 2) e ChrRNA de células HeLa transfetadas com siRNA contra fatores de terminação – Xrn2 – e processamento do terminal 3’ do pre-mRNA – CPSF73 e CstF64+CstF64τ. Análise destes dados permitiu concluir que os fatores de processamento, mas não o Xrn2, influenciam significativamente a dinâmica da polimerase na região 3’ do gene, no final da transcrição, promovendo a sua pausa e subsequente desassociação do DNA. Constatou-se também que estes fatores afetam a acumulação de polimerase junto ao promotor dos genes, afetando igualmente a produção de transcritos upstream do promotor (PROMPTs), podendo concluir-se que estes fatores participam na regulação da transcrição não-produtiva. Os resultados obtidos foram satisfatórios e também surpreendentes. Com este trabalho, é apresentada uma nova forma de estudar, ao nível do genoma, como ocorre a regulação da transcrição pelo CTD. Mostram-se também novas provas sobre processamento cotranscricional do RNA e a sua ligação à fosforilação do CTD. Foram igualmente elucidados os papéis de alguns fatores envolvidos na fase final da transcrição. Finalmente, ficou outra vez demonstrada a importância de estudos abrangentes na área da transcrição, em complemento dos trabalhos moleculares e bioquímicos já desenvolvidos há décadas. Esperase, de futuro, um aprofundamento das técnicas de alto rendimento, e uma consequente adequação das ferramentas bioinformáticas a estes estudos.Transcription is a process present in all living beings where, from a DNA template, a complementary RNA strand is synthesized. Most eukaryotic genes are transcribed by RNA polymerase II. The resulting RNA strand is not, however, the final product, since it’ll still be subject to various processing steps, such as splicing, polyadenylation or base editing. These modifications have been described as occurring co or post-transcriptionally. Yet, it is still not known how these processes are regulated, nor what all of their interveners are or how do they interact with RNA polymerase II, in particular with its C-terminal domain (CTD). To address these problems in an unbiased way, a previously described genome-wide and high-precision technique, native elongating transcript sequencing (NET-seq), was adapted so it could detect what was the phosphorylation isoform from the isolated polymerase’s CTD. The new protocol was called advanced NET-seq (ANET-seq). In addition to the data generated by this protocol, RNA associated with the chromatin fraction was also sequenced. All data was obtained from HeLa cells, applying this genome-wide high-resolution technique to a mammalian system. Initial analysis of ANET-seq data revealed that distribution of CTD isoforms in genes was similar to previously described profiles obtained by other protocols. Additionally, it was also verified the capture of splicing intermediates, in particular the 3’ end of the upstream exon, distinctively in cases where it was included in the final transcript. These exons are mainly associated with polymerase phosphorylated in the CTD’s Ser5. Another curious observation was the detection of micro RNA precursors, resulting from Drosha/DGCR8 processing. Differences in the detection of these precursors allowed the proposal of different processing dynamics for this type of non-coding RNAs. ANET-seq data (with a Ser2-directed antibody) and ChrRNA from HeLa cells transfected with siRNA for termination factor Xrn2 and 3’ processing factors CPSF73 and CstF64+CstF64τ were also obtained. The analysis of this data showed that 3’ processing factors, but not Xrn2, significantly influence Pol II dynamics in the gene’s 3’ region, at the end of transcription, promoting its pause and dissociation from the DNA template. It was also observed that these factors influence polymerase accumulation near gene’s promoters, and equally affect promoter upstream transcripts (PROMPTs), leading to the conclusion that these factors regulate termination of unproductive transcription. Obtained results were satisfactory and also sometimes surprising. This work presents a novel genome-wide way to study how transcription is regulated by the CTD. New evidence of cotranscriptional RNA processing arouse, as well as their connection with CTD isoforms. There were also new revelations about transcription termination factor’s functions. Finally, it was once again demonstrated the importance of genome-wide techniques in transcription study, which complete molecular and biochemical work in the same area that has been developed for decades. In the future, a greater development of high-throughput techniques, and a constant adaptation of bioinformatical tools to these studies is expected

    Similar works