21 research outputs found

    RNAcentral 2021: secondary structure integration, improved sequence search and new member databases

    Get PDF
    RNAcentral is a comprehensive database of non-coding RNA (ncRNA) sequences that provides a single access point to 44 RNA resources and >18 million ncRNA sequences from a wide range of organisms and RNA types. RNAcentral now also includes secondary (2D) structure information for >13 million sequences, making RNAcentral the world's largest RNA 2D structure database. The 2D diagrams are displayed using R2DT, a new 2D structure visualization method that uses consistent, reproducible and recognizable layouts for related RNAs. The sequence similarity search has been updated with a faster interface featuring facets for filtering search results by RNA type, organism, source database or any keyword. This sequence search tool is available as a reusable web component, and has been integrated into several RNAcentral member databases, including Rfam, miRBase and snoDB. To allow for a more fine-grained assignment of RNA types and subtypes, all RNAcentral sequences have been annotated with Sequence Ontology terms. The RNAcentral database continues to grow and provide a central data resource for the RNA community

    RNAcentral 2021: secondary structure integration, improved sequence search and new member databases.

    Get PDF
    RNAcentral is a comprehensive database of non-coding RNA (ncRNA) sequences that provides a single access point to 44 RNA resources and >18 million ncRNA sequences from a wide range of organisms and RNA types. RNAcentral now also includes secondary (2D) structure information for >13 million sequences, making RNAcentral the world's largest RNA 2D structure database. The 2D diagrams are displayed using R2DT, a new 2D structure visualization method that uses consistent, reproducible and recognizable layouts for related RNAs. The sequence similarity search has been updated with a faster interface featuring facets for filtering search results by RNA type, organism, source database or any keyword. This sequence search tool is available as a reusable web component, and has been integrated into several RNAcentral member databases, including Rfam, miRBase and snoDB. To allow for a more fine-grained assignment of RNA types and subtypes, all RNAcentral sequences have been annotated with Sequence Ontology terms. The RNAcentral database continues to grow and provide a central data resource for the RNA community. RNAcentral is freely available at https://rnacentral.org

    RNAcentral : a hub of information for non-coding RNA sequences

    Get PDF
    RNAcentral is a comprehensive database of non-coding RNA (ncRNA) sequences, collating information on ncRNA sequences of all types from a broad range of organisms. We have recently added a new genome mapping pipeline that identifies genomic locations for ncRNA sequences in 296 species. We have also added several new types of functional annotations, such as tRNA secondary structures, Gene Ontology annotations, and miRNA-target interactions. A new quality control mechanism based on Rfam family assignments identifies potential contamination, incomplete sequences, and more. The RNAcentral database has become a vital component of many workflows in the RNA community, serving as both the primary source of sequence data for academic and commercial groups, as well as a source of stable accessions for the annotation of genomic and functional features. These examples are facilitated by an improved RNAcentral web interface, which features an updated genome browser, a new sequence feature viewer, and improved text search functionality. RNAcentral is freely available at https://rnacentral.org

    The whole genome sequence of the Mediterranean fruit fly, Ceratitis capitata (Wiedemann), reveals insights into the biology and adaptive evolution of a highly invasive pest species

    Get PDF
    The Mediterranean fruit fly (medfly), Ceratitis capitata, is a major destructive insect pest due to its broad host range, which includes hundreds of fruits and vegetables. It exhibits a unique ability to invade and adapt to ecological niches throughout tropical and subtropical regions of the world, though medfly infestations have been prevented and controlled by the sterile insect technique (SIT) as part of integrated pest management programs (IPMs). The genetic analysis and manipulation of medfly has been subject to intensive study in an effort to improve SIT efficacy and other aspects of IPM control

    Computational analysis of non - coding RNA regulatory functions on a transcriptome - wide scale

    No full text
    The emerging technological developments during the past decade enable large scale analyses in the “regulatory RNA” field and have turned non-coding RNA (ncRNA), initially considered as junk, into a research goldmine. ncRNAs play a crucial role in a remarkable variety of physiological and pathological biological processes. The vast production of data has also been the most important factor underlying the accelerated growth of bioinformatics, a field dedicated to the analysis of data and the development of computational tools indispensable for handling, manipulating and interpreting the results. This thesis focuses on the thorough aggregation of high-throughput data and state-of-the-art Machine Learning techniques in order to develop algorithms for the functional characterization of non-coding transcripts.The current dissertation is specialized on a specific category of RNA transcripts, the microRNAs. microRNAs (miRNAs) are small single stranded non-coding RNA molecules, ~22 nucleotides long, that are loaded into Argonaute (AGO) to induce target cleavage, degradation or translational suppression. Accurate characterization of their targets is considered fundamental to elucidate their regulatory roles. Over the last 15 years, a multitude of in silico and experimental procedures have been developed aiming to determine the miRNA interactome. Currently, high-throughput techniques have enabled the identification of novel experimentally-supported miRNA-gene interactions in a transcriptome-wide scale. This wealth of information is dispersed in a great number of publications and raw datasets. During this thesis DIANA-TarBase v8.0, a reference database devoted to the indexing of experimentally-supported miRNA targets, was designed. Its 8th version is the first database to index more than 1 million entries, corresponding to ~700,000 unique miRNA target pairs, supported by more than 33 experimental methodologies, applied to 592 cell types/tissues under ~430 experimental conditions.AGO-CLIP-Seq experiments are the most widely used high-throughput methodologies. PAR-CLIP variant against AGO proteins methodology has been performed to map miRNA-gene interactions on a transcriptome-wide scale for healthy or disease cell types. Computational methods devoted to AGO-PAR-CLIP present reduced ability to distinguish a large portion of genuine miRNA-targets. To this end, one of the aims of this thesis was to revisit, identify and address current obstacles in AGO-CLIP-Seq analysis. An in silico framework for CLIP-guided identification of miRNA interactions, microCLIP model, was developed. microCLIP is the first relevant implementation to employ the innovative super learner ensemble framework and the only available A-to-Z computational approach for the analysis of AGO-PAR-CLIP datasets. It operates on every AGO-enriched cluster, providing previously neglected functional miRNA binding events with strong RNA accessibility.microCLIP deployment emboldened the development of a next generation de novo miRNA target prediction algorithm. Even the extensive production of relevant approaches observed during the past few years, leading implementations still achieve a far from perfect predictive accuracy followed by an increased number of false positives predictions. Therefore, microT Super Learning framework is presented that maintains and upgrades the pipeline adopted in microCLIP, by enhancing the training with even more high-throughput experiments under a tissue-specific scheme. The new model characterizes interactions with stronger functional efficacy and correctly detects 1.5-fold more experimentally validated target sites when juxtaposed against leading computational approaches. The increased performance of microCLIP and microT frameworks in the detection of miRNA interactions, uncovers previously elusive regulatory events and miRNA-controlled pathways.During this thesis, the candidate participated in 9 scientific studies, involving computational approaches for determining the activity of non-coding transcripts and in two of them is first author. The candidate’s main research activity and contribution in the publications incorporates the implementation of algorithms and automated pipelines for the analysis of Next Generation Sequencing data, data integration for the elucidation of non-coding RNA function and their involvement in mechanisms of post-transcriptional gene regulation. The studies are published in international journals of high impact factor and a total of 942 citations have been received so far, according to Google Scholar.Οι ραγδαίες τεχνολογικές εξελίξεις την τελευταία δεκαετία επέτρεψαν αναλύσεις μεγάλης κλίμακας στο πεδίο του «ρυθμιστικού RNA», μετατρέποντας τα μη-κωδικά μετάγραφα, που αρχικά θεωρούνταν «σκουπίδια», σε ερευνητικό «χρυσωρυχείο». Τα μη-κωδικά μετάγραφα διαδραματίζουν καθοριστικό ρόλο σε ένα αξιοσημείωτο αριθμό από φυσιολογικές και παθολογικές βιολογικές διεργασίες. Η τεράστια παραγωγή δεδομένων ήταν επίσης ένας από τους σημαντικότερους παράγοντες της επιταχυνόμενης εξέλιξης του τομέα της βιοπληροφορικής, ενός τομέα εξειδικευμένου στην ανάλυση βιολογικών δεδομένων και την ανάπτυξη υπολογιστικών εργαλείων, απαραίτητων για την επεξεργασία και την ερμηνεία των αποτελεσμάτων τους. Αυτή η εργασία επικεντρώνεται στο λεπτομερή και ακριβή συνδυασμό υψηλής διεκπεραιωτικής ικανότητας δεδομένων και σύγχρονων τεχνικών μηχανικής μάθησης για την ανάπτυξη αλγορίθμων με στόχο το λειτουργικό χαρακτηρισμό των μη-κωδικών μεταγραφών.Η παρούσα διατριβή επικεντρώνεται σε μια συγκεκριμένη κατηγορία μεταγραφών, τα microRNAs. Τα microRNAs (miRNAs) είναι μικρά, μονόκλωνα, μη-κωδικά μόρια RNA, μήκους ~ 22 νουκλεοτιδίων, που προσδένονται στην πρωτεΐνη Αργοναύτη (AGO) για να προκαλέσουν τη διάσπαση του μεταγράφου-στόχου, την αποικοδόμηση ή την καταστολή της μετάφρασής του. Ο ακριβής χαρακτηρισμός των στόχων τους θεωρείται θεμελιώδης για την αποσαφήνιση του ρυθμιστικού τους ρόλου. Τα τελευταία 15 χρόνια, έχει αναπτυχθεί μία πληθώρα υπολογιστικών και πειραματικών προσεγγίσεων με στόχο τον προσδιορισμό των αλληλεπιδράσεων των μικρών RNAs. Επί του παρόντος, οι τεχνικές υψηλής απόδοσης επέτρεψαν την εύρεση νέων πειραματικά υποστηριζόμενων αλληλεπιδράσεων των miRNAs σε όλο το μεταγράφωμα. Αυτός ο πλούτος των πληροφοριών είναι διασκορπισμένος σε μεγάλο αριθμό δημοσιεύσεων και ακατέργαστων δεδομένων. Κατά τη διάρκεια αυτής της διατριβής, σχεδιάστηκε το DIANA-TarBase v8.0, μια βάση δεδομένων αναφοράς, αφιερωμένη στην ευρετηρίαση πειραματικά υποστηριζόμενων στόχων των miRNAs. Η 8η έκδοση είναι η πρώτη βάση δεδομένων που αναφέρει περισσότερες από 1 εκατομμύριο καταχωρήσεις, που αντιστοιχούν σε ~700.000 μοναδικές miRNA-gene αλληλεπιδράσεις, υποστηριζόμενες από περισσότερες από 33 πειραματικές μεθοδολογίες, που έχουν εφαρμοστεί σε 592 κυτταρικούς τύπους/ιστούς, υπό~ 430 πειραματικές συνθήκες.Τα πειράματα με ανοσοκατακρήμνηση της πρωτεΐνης AGO (AGO-CLIP-Seq) αποτελούν τις πιο διαδεδομένες μεθοδολογίες υψηλής απόδοσης. Η AGO-PAR-CLIP τεχνική έχει πραγματοποιηθεί ευρέως για τη χαρτογράφηση miRNA-gene αλληλεπιδράσεων σε μεγάλη κλίμακα σε υγιείς ή ασθενείς τύπους κυττάρων. Οι υπολογιστικές μέθοδοι που έχουν αναπτυχθεί με στόχο την ανάλυση αυτών των δεδομένων παρουσιάζουν μειωμένη ικανότητα να διακρίνουν ένα μεγάλο μέρος των πραγματικών miRNA-στόχων. Για το σκοπό αυτό, ένας από τους σκοπούς της παρούσας διατριβής είναι να επανεξετάσει, να εντοπίσει και να αντιμετωπίσει τα τρέχοντα εμπόδια στην ανάλυση AGO-CLIP-Seq δεδομένων. Παρουσιάζεται, λοιπόν, το μοντέλο microCLIP, μία υπολογιστική προσέγγιση για την κατευθυνόμενη από CLIP-Seq δεδομένα αναγνώριση των αλληλεπιδράσεων των miRNAs. Το microCLIP είναι ένα καινοτόμο ensemble μοντέλο βαθειάς εκμάθησης (super learner) και η μόνη διαθέσιμη υπολογιστική προσέγγιση που αναλύει AGO-PAR-CLIP δεδομένα από το Α έως το Ω. Επεξεργάζεται όλες τις εμπλουτισμένες σε AGO περιοχές, παρέχοντας λειτουργικές περιοχές πρόσδεσης των miRNAs με ισχυρή προσβασιμότητα, που μέχρι πρότινος αγνοούνταν.Η ανάπτυξη του microCLIP ενέπνευσε τη δημιουργία ενός αλγόριθμου επόμενης γενιάς, για την εύρεση των στόχων των miRNAs απουσία πειράματος. Παρά την εκτενή ανάπτυξη σχετικών προσεγγίσεων που παρατηρείται τα τελευταία χρόνια, ακόμη και οι αλγόριθμοι αιχμής εξακολουθούν να επιτυγχάνουν χαμηλή ακρίβεια και αυξημένο αριθμό ψευδώς θετικών προβλέψεων. Για αυτόν το λόγο, αναπτύχθηκε το μοντέλο microT Super Learning που διατηρεί και αναβαθμίζει τη μεθοδολογία του microCLIP αλγορίθμου, ενισχύοντας την εκπαίδευσή του με ακόμη περισσότερα πειράματα υψηλής απόδοσης υπό έναν ιστο-ειδικό σχεδιασμό. Το νέο μοντέλο χαρακτηρίζει αλληλεπιδράσεις με ισχυρότερη λειτουργικότητα και ανιχνεύει σωστά 1.5 φορές περισσότερες πειραματικά επιβεβαιωμένες περιοχές πρόσδεσης των μικρών RNAs, όταν αντιπαρατίθεται με κορυφαίες υπολογιστικές προσεγγίσεις. Η αυξημένη απόδοση των αλγορίθμων microCLIP και microT στην ανίχνευση των αλληλεπιδράσεων των miRNAs, αναδεικνύει ρυθμιστικά συμβάντα που μέχρι πρότινος αγνοούνταν και νέα μοριακά μονοπάτια που ελέγχονται από τα miRNAs.Κατά τη διάρκεια της παρούσας εργασίας, η υποψήφια διδάκτωρ συμμετείχε σε 9 επιστημονικές δημοσιεύσεις που αφορούσαν υπολογιστικές προσεγγίσεις για τον προσδιορισμό της λειτουργίας των μη κωδικών μεταγραφών και σε δύο από αυτές είναι η πρώτη συγγραφέας. Η κύρια ερευνητική δραστηριότητα και η συμβολή της υποψήφιας στις δημοσιεύσεις αυτές αφορά την εφαρμογή αλγορίθμων, αυτοματοποιημένων ροών ανάλυσης για την επεξεργασία πειραματικών δεδομένων επόμενης γενιάς και τον κατάλληλο συνδυασμό τους με στόχο την αποσαφήνιση της λειτουργίας των μη-κωδικών RNAs και της συμμετοχής τους σε μηχανισμούς μετα-μεταγραφικής γονιδιακής ρύθμισης. Οι μελέτες έχουν δημοσιευθεί σε διεθνή περιοδικά υψηλής απήχησης και οι συνολικές ετεροαναφορές μέχρι σήμερα, σύμφωνα με το Google Scholar, είναι 942

    DIANA-mAP: Analyzing miRNA from Raw NGS Data to Quantification

    No full text
    microRNAs (miRNAs) are small non-coding RNAs (~22 nts) that are considered central post-transcriptional regulators of gene expression and key components in many pathological conditions. Next-Generation Sequencing (NGS) technologies have led to inexpensive, massive data production, revolutionizing every research aspect in the fields of biology and medicine. Particularly, small RNA-Seq (sRNA-Seq) enables small non-coding RNA quantification on a high-throughput scale, providing a closer look into the expression profiles of these crucial regulators within the cell. Here, we present DIANA-microRNA-Analysis-Pipeline (DIANA-mAP), a fully automated computational pipeline that allows the user to perform miRNA NGS data analysis from raw sRNA-Seq libraries to quantification and Differential Expression Analysis in an easy, scalable, efficient, and intuitive way. Emphasis has been given to data pre-processing, an early, critical step in the analysis for the robustness of the final results and conclusions. Through modularity, parallelizability and customization, DIANA-mAP produces high quality expression results, reports and graphs for downstream data mining and statistical analysis. In an extended evaluation, the tool outperforms similar tools providing pre-processing without any adapter knowledge. Closing, DIANA-mAP is a freely available tool. It is available dockerized with no dependency installations or standalone, accompanied by an installation manual through Github

    DIANA-miRPath v3.0: deciphering microRNA function with experimental support

    No full text
    The functional characterization of miRNAs is still an open challenge. Here, we present DIANA-miRPath v3.0 (http://www.microrna.gr/miRPathv3) an online software suite dedicated to the assessment of miRNA regulatory roles and the identification of controlled pathways. The new miRPath web server renders possible the functional annotation of one or more miRNAs using standard (hypergeometric distributions), unbiased empirical distributions and/or meta-analysis statistics. DIANA-miRPath v3.0 database and functionality have been significantly extended to support all analyses for KEGGmolecular pathways, as well as multiple slices of Gene Ontology (GO) in seven species (Homo sapiens, Mus musculus, Rattus norvegicus, Drosophila melanogaster, Caenorhabditis elegans, Gallus gallus and Danio rerio). Importantly, more than 600 000 experimentally supported miRNA targets from DIANA-TarBase v7.0 have been incorporated into the new schema. Users of DIANA-miRPath v3.0 can harness this wealth of information and substitute or combine the available in silico predicted targets from DIANA-microT-CDS and/or TargetScan v6.2 with high quality experimentally supported interactions. A unique feature of DIANA-miRPath v3.0 is its redesigned Reverse Search module, which enables users to identify and visualize miRNAs significantly controlling selected pathways or belonging to specific GO categories based on in silico or experimental data. DIANA-miRPath v3.0 is freely available to all users without any login requirement

    DIANA-mirExTra v2.0: Uncovering microRNAs and transcription factors with crucial roles in NGS expression data

    No full text
    Differential expression analysis (DEA) is one of the main instruments utilized for revealing molecular mechanisms in pathological and physiological conditions. DIANA-mirExTra v2.0 (http://www.microrna.gr/mirextrav2) performs a combined DEA of mRNAs and microRNAs (miRNAs) to uncover miRNAs and transcription factors (TFs) playing important regulatory roles between two investigated states. The web server uses as input miRNA/RNA-Seq read count data sets that can be uploaded for analysis. Users can combine their data with 350 small-RNA-Seq and 65 RNA-Seq in-house analyzed libraries which are provided by DIANA-mirExTra v2.0. The web server utilizes miRNA:mRNA, TF:mRNA and TF:miRNA interactions derived from extensive experimental data sets. More than 450 000 miRNA interactions and 2 000 000 TF binding sites from specific or high-throughput techniques have been incorporated, while accurate miRNA TSS annotation is obtained from microTSS experimental/in silico framework. These comprehensive data sets enable users to perform analyses based solely on experimentally supported information and to uncover central regulators within sequencing data: miRNAs controlling mRNAs and TFs regulating mRNA or miRNA expression. The server also supports predicted miRNA:gene interactions from DIANA-microT-CDS for 4 species (human, mouse, nematode and fruit fly). DIANA-mirExTra v2.0 has an intuitive user interface and is freely available to all users without any login requirement
    corecore