Tracing the evolution of long non-coding RNAs: Principles of comparative transcriptomics for splice site conservation and biological applications

Abstract

Eukaryotic cells exhibit an extensive transcriptional diversity. Only about a quarter of the total RNA in the human cell can be accounted for by messenger RNA (mRNA), which convey genetic code for protein generation. The remaining part of the transcriptome consists of rather heterogenous molecules. While some classes are well defined and have been shown to carry out distinct functions, ranging from housekeeping to complex regulatory tasks, a big fraction of the transcriptional output is categorized solely based on the lack of protein-coding capacity and transcript length. Several studies have shown, that as a group, mRNA-like long non-coding RNAs (lncRNAs), are under stabilizing selection, however at much weaker levels than mRNAs. The conservation at the level of primary sequence is even lower, blurring the contrast between exonic and intronics parts, which impedes traditional methods of genome-wide homology search. As a consequence their evolutionary history is a fairly unexplored field and apart from a few experimentally studied cases, the vast majority of them is reported to be poorly conserved. However, the pervasive transcription and the highly spatio-temporal specific expression patterns of lncRNAs suggests their functional importance and makes their evolutionary age and conservation patterns a topic of interest. By employing diverse computational methods, recent studies shed light on the common conservation of lncRNA’s secondary and gene structures, highlighting the significance of structural features on functionality. Splice sites, in particular, are frequently retained over very large evolutionary time scales, as they maintain the intron-exon-structure of the transcript. Consequently, the conservation of splice sites can be utilized in a comparative genomics approach to establish homology and predict evolutionarily well-conserved transcripts, regardless of their coding capacity. Since splice site conservation cannot be directly inferred from experimental evidence, in the course of this thesis a computational pipeline was established to generate comparative maps of splice sites based on multiple sequence alignments together with transcriptomics data. Scoring schemes for splice site motifs are employed to assess the conservation of orthologs. This resource can then be used to systemically study the conservation patterns of RNAs and their gene structures. This thesis will demonstrate the versatility of this method by showcasing biological applications of three distinct studies. First, a comprehensive annotation of the human transcriptome, from RefSeq, ESTs and GENCODE, was used to trace the evolution of human lncRNAs. A large majority of human lncRNAs is found to be conserved across Eutheria, and many hundreds originated before the divergence of marsupials and placental mammals. However, they exhibit a rapid turnover of their transcript structures, indicating that they are actual ancient components of the vertebrate genome with outstanding evolutionary plasticity. Additionally, a public web server was setup, which allows the user to retrieve sets of orthologous splice sites from pre-computed comparative splice site maps and inspect visualizations of their conservation in the respective species. Second, a more specific data set of non-colinearly spliced latimerian RNAs is studied to fathom the origins of atypical transcripts. RNA-seq data from two coelacanth species are analyzed, yielding thousands of circular and trans-spliced products, with a surprising exclusivity of the majority of their splice junctions to atypically spliced forms, that is they are not used in linear isoforms. The conservation analysis with comparative splice site maps yielded high conservation levels for both cir- cularizing and trans-connecting splice sites. This fact in combination with their abundance strongly suggests that atypical RNAs are evolutionarily old and of functional importance. Lastly, comparative splice site maps are used to investigate the role of lncRNAs in the evolution of the Alzheimer’s disease (AD). The human specificity of AD clearly points out a phylogenetic aspect of the disease, which makes the evolutionary analysis a very promising field of research. Protein- coding and non-protein-coding regions, that have been identified to be differentially expressed in AD patients, are analyzed for conservation of their splice site and evolution of their exon-intron-structure. Both non-coding and protein-coding AD-associated genes are shown to have evolved more rapidly in their gene structure than the genome at large. This supports the view of AD as a consequence of the recent rapid adaptive evolution of the human brain. This phylogenetic trait might have far reaching consequences with respect to the appropriateness of animal models and the development of disease-modifying strategies.Eukaryotische Zellen legen eine umfangreiche transkriptionelle Vielfalt an den Tag. Nur etwa ein Viertel der in der menschlichen Zelle enthaltenen RNA ist messenger RNA (mRNA), welche den genetischen Code für die Proteingenerierung übermittelt. Der verbleibende Anteil des Transkriptoms besteht aus eher heterogenen Molekülen. Während einigen wohldefinierten Klassen spezifische Funktionen zugeordnet werden können, welche von Zellhaushalt bis zu komplexen regulatorischen Aufgaben reichen, wird ein großer Teil der transkriptionellen Produktion ausschließlich auf Grundlage der fehlenden Kodierungskapazität und der Transkriptlänge kategorisiert. Einige Studien zeigten, dass mRNA-ähnliche lange nicht-kodierende RNA (lncRNA) als Gruppe unter stabilisierender Selektion stehen, wenn auch in einem weitaus geringeren Ausmaß als mRNAs. Die Konservierung auf Ebene der primären Sequenz ist sogar noch niedriger, wodurch der Kontrast zwischen exonischen und intronischen Elementen verschwimmt und Methoden der traditionellen Homologiesuche erschwert werden. Infolgedessen ist die evolutionäre Geschichte der lncRNAs ein recht unerforschtes Gebiet und abgesehen von ein paar vereinzelten Fallstudien wird die große Mehrheit als schwach konserviert vermeldet. Die tiefgreifende Transkription und die in Raum und Zeit hochspezifischen Expressionsmuster von lncRNA deuten jedoch auf deren funktionelle Bedeutung hin und machen ihr evolutionäres Alter und ihre Konservierungsmuster zu einem Thema von Interesse. Durch die Verwendung von computergestützten Methoden konnten jüngste Studien die verbreitete Konservierung von Sekundär- und Genstruktur von lncRNAs aufzeigen, was die Signifikanz von strukturellen Merkmalen in Bezug auf deren Funktionalität unterstreicht. Spleißstellen im besonderen werden oft über lange evolutionäre Zeitspannen erhalten, da sie die Intron-Exon-Struktur des Transkripts bewahren. Folglich, kann die Konservierung von Spleißstellen durch einen Ansatz der vergleichenden Genomik benutzt werden, um Homologie herzuleiten und evolutionär gut konservierte Transkripte unabhängig von deren Kodierungskapazität zu prognostizieren. Da es nicht möglich ist die Spleißstellenkonservierung direkt anhand von experimentellen Indikatoren abzulesen, wurde im Zuge dieser These eine computergestützte Methode entwickelt, welche, basierend auf multiplen Sequenzalignments und Transkriptomikdaten, “Vergleichskarten” von Spleißstellen erstellt. Ein Punktebewertungssystem für Spleißstellenmotive wird benutzt um die Konservierung der Orthologen zu beurteilen. Diese Resource kann anschließend verwendet werden um systematisch die Konservierungsmuster von RNAs und deren Genstrukturen zu untersuchen. Diese Arbeit wird die Vielseitigkeit dieser Methode demonstrieren, indem die biologische Anwendung in drei verschiedenen Studien präsentiert wird. Zuerst wird eine umfassende Annotation des menschlichen Transkriptoms, basierend auf RefSeq, EST und GENCODE, benutzt, um die Evolution von humanen lncRNAs nachzuvollziehen. Es konnte festgestellt werden, dass eine große Mehrheit der menschlichen lncRNAs innerhalb der Eutheria konserviert ist und mehrere hundert bereits vor der Auseinanderentwicklung von Beuteltieren und höheren Säugetieren entstanden. Dennoch zeigen sie eine rasante Veränderung in ihren Transkriptstrukturen, welche darauf hindeutet, dass sie tatsächlich alte Bestandteile von Vertebratengenomen mit bemerkenswerter evolutionärer Formbarkeit sind. Zusätzlich wurde ein öffentlicher Webserver aufgesetzt, der dem Nutzer ermöglicht Datensätze orthologer Spleißstellen aus vorgenerierten Vergleichskarten zu extrahieren und Visualisierungen der Konservierung in den jeweiligen Spezies zu betrachten. Als zweites wird ein spezifischerer Datensatz von nicht-linear gespleißten Latimeria-RNA untersucht um die Ursprünge untypischer Transkripte zu ergründen. Die Analyse der RNA-seq Daten zweier Exemplare des Quastenflossers ergab tausende zirkulärer und Transspleiß-Produkte, wobei die Mehrheit der Spleißverbindungen eine überraschende Exklusivität für untypisch gespleißte Formen aufzeigt, d.h. diese werden nicht für lineare Isoformen genutzt. Die Konservierungsanalyse mit Spleißstellen-Vergleichskarten ergibt hohe Konservierungsniveaus sowohl für zirkulärisierende als auch für trans-verbindende Spleißstellen. Diese Tatsache in Kombination mit ihrem häufigen Vorkommen, deutet stark darauf hin, dass untypische RNAs evolutionär alt und von funktioneller Bedeutung sind. Zuletzt werden Spleißstellen-Vergleichskarten benutzt um die Rolle von lncRNAs in der Evolution der Alzheimer-Krankheit (AK) zu untersuchen. Die Spezifität der AK auf den Menschen weist klar auf einen phylogenetischen Aspekt der Krankheit hin, was deren evolutionäre Analyse zu einem vielversprechenden Forschungsgebiet macht. Proteinkodierende und nicht-proteinkodierende Regionen, bei denen eine differentielle Expression in AK-Patienten erkannt wurde, werden auf die Konservierung ihrer Spleißstellen und Evolution ihrer Exon-Intron-Strukturen hin analysiert. Es kann nachgewiesen werden, dass sich die Genstruktur von sowohl nicht-kodierenden als auch von proteinkodierenden AK-assoziierten Genen schneller entwickelt als das Genom im Allgemeinen. Das unterstützt die Auffassung, dass AK die Folge einer kürzlichen rasanten adaptiven Evolution des menschlichen Gehirns ist. Diese phylogenetische Eigenschaft könnte weitreichende Konsequenzen in Bezug auf die Angemessenheit von Tiermodellen und die Entwicklung von krankheitsmodifizierenden Strategien haben

    Similar works