Bioinformatics analysis of intron retention events associated with the minor spliceosome

Abstract

In the Eukaryotes, DNA sequences in genes are often interrupted by non-coding sequences called introns. These sequences are removed from the transcripts via a process known as splicing either while the genes are being transcribed (co-transcriptionally) or after transcription (posttranscriptionally). In higher eukaryotes two separate pre-mRNA splicing machineries have been described: the U12-dependent spliceosome which is responsible for splicing of approximately 700-800 unique introns (known as the U12-type introns), and the U2-dependent spliceosome responsible for splicing all other introns (known as the U2-type introns). The two intron types show divergent sequence elements in their 5' splice site and branch point sequences. In addition, earlier reports have indicated that U12-type introns are spliced with a slower rate comparing to the U2-type introns, suggesting that the splicing of U12-type introns is rate-limiting to the expression of the U12-type intron containing genes. This slower splicing is manifested as unspliced or retained U12-type introns in the otherwise fully processed mRNA products. In this work I developed a novel computational tool called the intron-exon retention estimator (IntEREst) which allows accurate detection, quantification and differential analysis of the intron retention levels from RNAseq data. Additional features of IntEREst include a tool for identification of U12-type introns, and a number of tools to compare the retention levels of userdefined subclasses of introns across several samples. An already published RNAseq dataset (available under accession GSE63816 in NCBI Gene expression Omnibus database) from patients and control subjects of myelodysplastic syndrome (MDS) was used to assess the functionality by benchmarking IntEREst. This dataset included RNAseq data from MDS patients featuring mutations in the ZRSRS2 gene that functions in the recognition of U12-type introns, and from control subjects that were either healthy or MDS patients without ZRSR2 mutations. Additionally, I used a Maize dataset consisting of samples with mutated and wild-type RGH3 gene, which is an ortholog of human ZRSR2. My results indicate that IntEREst is a reliable tool for analyzing intron retention events from RNAseq data producing comparable or better results than the other similar methods. I used IntEREst to globally compare the retention of the U12-type introns to that of U2-type introns. I found that U12-type introns show on average a 2-fold higher retention levels compared to that of U2-type introns both in human and plant cells. This result recapitulates the findings from earlier studies using a small set of selected genes and generalizes the increased intron retention of U12-type introns to a genome-wide scale. Furthermore, the results of this work provide evidence that transcripts containing unspliced U12-type introns are degraded in the nucleus by the nuclear exosome. Together, these results support the hypothesis that U12-type introns are globally spliced less efficiently than the U2-type introns and can thus regulate the rate of mature mRNA formation with the genes containing U12-type introns. Additionally, intron retention analysis of human/plant cells containing mutations in the U12-dependent spliceosome showed that such defects lead to a further increase in the levels of unspliced U12-type introns. In conclusion, this thesis extends current knowledge concerning the significance of the correct splicing of U12-type introns and the consequences of their abnormal splicing. Furthermore, it describes a combination of available tools together with a novel software tool (i.e. IntEREst) that can be used to measure and compare the efficiency and accuracy of RNA splicing across multiple samples. We show that these tools can reveal valuable information about the molecular mechanisms involved in various conditions, e.g. diseases caused by defective spliceosome.Aitotumallisilla geenien DNA-sekvenssit sisältävät usein introneiksi kutsuttuja ei-koodaavia jaksoja. Nämä sekvenssit poistetaan transkripteista silmukoinniksi kutsutun prosessin kautta, joka voi tapahtua joko transkription aikana (kotranskriptionaalisesti) tai transkription jälkeen (posttranskriptionaalisesti). Korkeammilla aitotumallisilla on kuvattu kaksi erillistä silmukointikoneistoa: U12-tyypin spliseosomi, joka vastaa noin 700–800:n intronin silmukoinnista (U12-tyypin intronit), sekä U2-tyypin spliseosomi, joka vastaa kaikkien muiden intronien silmukoinnista (U2-tyypin intronit). Näissä kahdessa intronityypissä on erilaiset 5’-silmukointikohdan ja intronin haarautumiskohdan sekvenssielementit. Tämän lisäksi aiemmat tutkimukset ovat viitanneet siihen, että U12-tyypin intronit silmukoidaan hitaammin U2-tyypin introneihin verrattuna, minkä seurauksena U12-tyypin intronien silmukointi saattaa rajoittaa näitä introneja sisältävien geenien ekspressiota. Hidas silmukointi ilmenee silmukoimattomina tai retentoituina U12-tyypin introneina muuten täysin prosessoiduissa lähetti-RNA:issa. Tässä työssä olen kehittänyt uuden ohjelmistotyökalun nimeltä Intron-Exon Retention Estimator (IntEREst), joka mahdollistaa intronien retention havaitsemisen, kvantifikaation sekä retentiotasojen vertailun RNAsekvensointidataa käyttäen. IntEREstin muihin ominaisuuksiin kuuluvat työkalu U12-tyypin intronien tunnistamiseen sekä useita eri työkaluja käyttäjän määrittelemien intronien alaluokkien retentiotasojen vertailuun useiden näytteiden välillä. IntEREstin vertailuanalyysiin hyödynnettiin jo julkaistua RNAsekvensointidataa myelodysplastista oireyhtymää (MDS) sairastavailta potilailta ja verrokkiyksilöiltä (saatavilla tunnuksella GSE63816 NCBI Gene Expression Omnibus -tietokannasta). Tämä datasetti sisälsi RNA-sekvensointidataa MDS-potilailta, joilla on mutaatioita U12-tyypin intronien tunnistuksessa toimivassa ZRSR2-geenissä, sekä verrokkiyksilöiltä jotka olivat joko terveitä yksilöitä tai MDS-potilaita, joilla ei ole ZRSR2-mutaatioita. Tämän lisäksi käytin maissista peräisin olevaa datasettiä, joka koostui maissin ZRSR2ortologin, RGH3-geenin, suhteen villityyppisistä tai mutanteista näytteistä. Tulokseni viittaavat siihen, että IntEREst on luotettava työkalu intronien retention analyysiin RNA-sekvensointidatasta, joka tuottaa muiden menetelmien kanssa vertailukelpoisia tai niitä parempia tuloksia. Hyödynsin IntEREstiä U12-tyypin ja U2-tyypin intronien retention vertailuun globaalilla tasolla. Osoitin, että U12-tyypin inronien retentiotaso on keskimäärin kaksi kertaa korkeampi U2-tyypin introneihin verrattuna sekä ihmis- että kasvisoluissa. Tämä tulos toistaa aiemmissa tutkimuksissa muutamilla valikoiduilla geeneillä tehdyt löydökset sekä yleistää U12-tyypin intronien korkeamman retention genominlaajuiselle tasolle. Tämän lisäksi työn tulokset osoittavat, että silmukoimattomia U12-tyypin introneja sisältävät transkriptit hajotetaan tumassa tumaeksosomin toimesta. Yhdessä nämä tulokset tukevat hypoteesia, jonka mukaan U12-tyypin intronit silmukoidaan heikommalla tehokkuudella kuin U2-tyypin intronit ja ne voivat näin ollen säädellä U12-tyypin introneja sisältävistä geeneistä tuotettavan lähetti-mRNA:n muodostumisnopeutta. Lisäksi U12-tyypin spliseosomin mutaatioita sisältävien ihmis- ja kasvisolujen introniretentioanalyysi osoitti, että viat silmukoinnissa kohottavat entisestään silmukoimattomien U12tyypin intronien tasoja. Tämä väitöskirja laajentaa nykyistä tietämystä U12-tyypin intronien oikean silmukoinnin merkityksestä ja virheellisen silmukoinnin seurauksista. Lisäksi työssä kuvataan olemassa olevia työkaluja sekä uusi ohjelmistotyökalu (IntEREst), joita voidaan käyttää RNA:n silmukoinnin tehokkuuden ja tarkkuuden mittaamiseen ja vertailuun useiden näytteiden välillä. Osoitamme, että nämä työkalut voivat tuottaa arvokasta tietoa molekyylitason mekanismeista eri olosuhteissa, muun muassa viallisesti toimivasta silmukointikoneistosta johtuvissa sairauksissa

    Similar works