73 research outputs found

    Gene ARMADA: an integrated multi-analysis platform for microarray data implemented in MATLAB

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>The microarray data analysis realm is ever growing through the development of various tools, open source and commercial. However there is absence of predefined rational algorithmic analysis workflows or batch standardized processing to incorporate all steps, from raw data import up to the derivation of significantly differentially expressed gene lists. This absence obfuscates the analytical procedure and obstructs the massive comparative processing of genomic microarray datasets. Moreover, the solutions provided, heavily depend on the programming skills of the user, whereas in the case of GUI embedded solutions, they do not provide direct support of various raw image analysis formats or a versatile and simultaneously flexible combination of signal processing methods.</p> <p>Results</p> <p>We describe here Gene ARMADA (Automated Robust MicroArray Data Analysis), a MATLAB implemented platform with a Graphical User Interface. This suite integrates all steps of microarray data analysis including automated data import, noise correction and filtering, normalization, statistical selection of differentially expressed genes, clustering, classification and annotation. In its current version, Gene ARMADA fully supports 2 coloured cDNA and Affymetrix oligonucleotide arrays, plus custom arrays for which experimental details are given in tabular form (Excel spreadsheet, comma separated values, tab-delimited text formats). It also supports the analysis of already processed results through its versatile import editor. Besides being fully automated, Gene ARMADA incorporates numerous functionalities of the Statistics and Bioinformatics Toolboxes of MATLAB. In addition, it provides numerous visualization and exploration tools plus customizable export data formats for seamless integration by other analysis tools or MATLAB, for further processing. Gene ARMADA requires MATLAB 7.4 (R2007a) or higher and is also distributed as a stand-alone application with MATLAB Component Runtime.</p> <p>Conclusion</p> <p>Gene ARMADA provides a highly adaptable, integrative, yet flexible tool which can be used for automated quality control, analysis, annotation and visualization of microarray data, constituting a starting point for further data interpretation and integration with numerous other tools.</p

    Skeletal muscle development on the 30th Anniversary of MyoD

    Get PDF
    Figure S4. Posterior probability tree of Bombyx mori cytochrome P450 (CYP) proteins. The short-chain dehydrogenase/reductase protein Shroud [44] was used as an outgroup. Single asterisks indicate genes identified as expressed on V-0 or V-6 of the 5th instar of Bm by Cufflinks. Double asterisks indicate genes whose expression in Bm PGs has been established by other research groups. Nomenclature of CYP genes is based on [70]. Numbers indicate the posterior probability score (%). (TIFF 394527 kb

    A Two-Color Haploid Genetic Screen Identifies Novel Host Factors Involved in HIV-1 Latency

    Get PDF
    To identify novel host factors as putative targets to reverse HIV-1 latency, we performed an insertional mutagenesis genetic screen in a latent HIV-1 infected pseudohaploid KBM7 cell line (Hap-Lat). Following mutagenesis, insertions were mapped to the genome, and bioinformatic analysis resulted in the identification of 69 candidate host genes involved in maintaining HIV-1 latency. A select set of candidate genes was functionally validated using short hairpin RNA (shRNA)-mediated depletion in latent HIV-1 infected J-Lat A2 and 11.1 T cell lines. We confirmed ADK, CHD9, CMSS1, EVI2B, EXOSC8, FAM19A, GRIK5, IRF2BP2, NF1, and USP15 as novel host factors involved in the maintenance of HIV-1 latency. Chromatin immunoprecipitation assays indicated that CHD9, a chromodomain helicase DNA-binding protein, maintains HIV-1 latency via direct association with the HIV-1 5′ long terminal repeat (LTR), and its depletion results in increased histone acetylation at the HIV-1 promoter, concomitant with HIV-1 latency reversal. FDA-approved inhibitors 5-iodotubercidin, trametinib, and topiramate, targeting ADK, NF1, and GRIK5, respectively, were characterized for their latency reversal potential. While 5-iodotubercidin exhibited significant cytotoxicity in both J-Lat and primary CD4(+) T cells, trametinib reversed latency in J-Lat cells but not in latent HIV-1 infected primary CD4(+) T cells. Importantly, topiramate reversed latency in cell line models, in latently infected primary CD4(+) T cells, and crucially in CD4(+) T cells from three people living with HIV-1 (PLWH) under suppressive antiretroviral therapy, without inducing T cell activation or significant toxicity. Thus, using an adaptation of a haploid forward genetic screen, we identified novel and druggable host factors contributing to HIV-1 latency

    Catchet-MS identifies IKZF1-targeting thalidomide analogues as novel HIV-1 latency reversal agents

    Get PDF
    A major pharmacological strategy toward HIV cure aims to reverse latency in infected cells as a first step leading to their elimination. While the unbiased identification of molecular targets physically associated with the latent HIV-1 provirus would be highly valuable to unravel the molecular determinants of HIV-1 transcriptional repression and latency reversal, due to technical limitations, this has been challenging. Here we use a dCas9 targeted chromatin and histone enrichment strategy coupled to mass spectrometry (Catchet-MS) to probe the differential protein composition of the latent and activated HIV-1 5′LTR. Catchet-MS identified known and novel latent 5′LTR-associated host factors. Among these, IKZF1 is a novel HIV-1 transcriptional repressor, required for Polycomb Repressive Complex 2 recruitment to the LTR. We find the clinically advanced thalidomide analogue iberdomide, and the FDA approved analogues lenalidomide and pomalidomide, to be novel LRAs. We demonstrate that, by targeting IKZF1 for degradation, these compounds reverse HIV-1 latency in CD4+ T-cells isolated from virally suppressed people living with HIV-1 and that they are able to synergize with other known LRAs

    The transcription factor BCL-6 controls early development of innate-like T cells

    Get PDF
    Innate T cells, including invariant natural killer T (iNKT) and mucosal-associated innate T (MAIT) cells, are a heterogeneous T lymphocyte population with effector properties preprogrammed during their thymic differentiation. How this program is initiated is currently unclear. Here, we show that the transcription factor BCL-6 was transiently expressed in iNKT cells upon exit from positive selection and was required for their proper development beyond stage 0. Notably, development of MAIT cells was also impaired in the absence of Bcl6. BCL-6-deficient iNKT cells had reduced expression of genes that were associated with the innate T cell lineage, including Zbtb16, which encodes PLZF, and PLZF-targeted genes. BCL-6 contributed to a chromatin accessibility landscape that was permissive for the expression of development-related genes and inhibitory for genes associated with naive T cell programs. Our results revealed new functions for BCL-6 and illuminated how this transcription factor controls early iNKT cell development

    Development of bioinformatics methodologies for the study of highly complex biological systems

    No full text
    The completion of the Human Genome Project and the emergence of high-throughput technologies at the dawn of the new millennium, are rapidly changing the way we approach biological problems towards a more systemic, holistic manner. DNA microarrays and next generation sequencers represent promising new technological developments, used for the investigation and identification of genes or groups of genes associated with important biological processes but also for epigenomic events which are crucial for the understanding of higher biological systems. The microarray data analysis realm is ever growing through the development of various tools, open source and commercial. However there is absence of predefined rational algorithmic analysis workflows or batch standardized processing to incorporate all steps, from raw data import up to the derivation of significantly differentially expressed gene lists. This absence obfuscates the analytical procedure and obstructs the massive comparative processing of genomic microarray datasets. Moreover, the solutions provided, heavily depend on the programming skills of the user, whereas in the case of GUI embedded solutions, they do not provide direct support of various raw image analysis formats or a versatile and simultaneously flexible combination of signal processing methods. To overcome some of the aforementioned problems and in the framework of this thesis, a computational tool named Gene ARMADA (Automated Robust MicroArray Data Analysis) was developed, which is a MATLAB implemented platform with a GUI. This suite integrates all steps of microarray data analysis including automated data import, noise correction and filtering, normalization, statistical selection of differentially expressed genes, clustering, classification and annotation. Gene ARMADA fully supports 2 colored cDNA, Affymetrix and Illumina oligonucleotide arrays, plus custom arrays for which experimental details are given in tabular form. It also supports the analysis of already processed results through its versatile import editor. In addition, it provides numerous visualization and exploration tools plus customizable export data formats for seamless integration by other analysis tools for further processing. In parallel with Gene ARMADA and in the framework of developing bioinformatics tools for high-throughput genomic data analysis, a fundamental workflow for analyzing transcription factor and gene expression data derived from next generation sequencing was developed. This workflow consists both of effective use of putative binding site detection tools as well as empirical methodology for data driven noise reduction and statistical detection of differentially expressed genes. The existing and developed tools were applied to study two biological systems i) the study of mastic oil treatment to mouse LLC cells and ii) the study of binding and interaction profile of the factors GR and NF-κB in human HeLa B2 cells, under stimulation or co-stimulation conditions. A parallel study of gene expression was also performed through the profiling of RNAPII binding. Mastic oil from Pistacia lentiscus variation chia, a blend of bioactive terpenes with recognized medicinal properties, has been recently shown to exert anti-tumor growth activity through inhibition of cancer cell proliferation, survival, angiogenesis and inflammatory response. However, no studies have addressed its mechanisms of action at genome-wide gene expression level. To investigate molecular mechanisms triggered by mastic oil, LLC cells were treated with mastic oil or DMSO at five distinct time points (3-48h). Microarray expression profiling was performed using Illumina beadchips, followed by computational analysis. For a number of selected genes, RT-PCR validation was performed in LLC cells as well as in three human cancer cell lines of different origin (A549, HCT116, K562). In total, this work demonstrated that exposure of Lewis lung carcinomas to mastic oil caused a time-dependent alteration in the expression of 925 genes. GO analysis associated expression profiles with several biological processes and functions. Among them, modifications on cell cycle/proliferation, survival and NF-κB cascade in conjunction with concomitant regulation of genes encoding for PTEN, E2F7, HMOX1 (up-regulation) and NOD1 (down-regulation) indicated some important mechanistic links underlying the anti-proliferative, pro-apoptotic and anti-inflammatory effects of mastic oil. The expression profiles of Hmox1, Pten and E2f7 genes were similarly altered by mastic oil in the majority of test cancer cell lines. Inhibition of PTEN partially reversed mastic oil effects on tumor cell growth, indicating a multi-target mechanism of action. Finally, k-means clustering, organized the significant gene list in eight clusters demonstrating a similar expression profile. Promoter analysis in a representative cluster revealed shared putative cis-elements suggesting a common regulatory transcription mechanism. Glucocorticoid receptor (GR) exerts anti-inflammatory action in part by antagonizing pro-inflammatory transcription factors such as the nuclear factor kappa-b (NF-B). In this work, the cross-talk of activated GR and p65 (major NF-B component). Here we assess by global identification of their binding sites and target genes. We show that cο-activation of GR and p65 results in extensive rearrangement of the regulated genes repertoire and in their association with novel sites in a mutually dependent manner. These novel sites predominantly cluster with p65 target genes that are antagonized by activated GR and vice versa. Our data show reprogramming of glucocorticoid and inflammatory pathways upon co-activation of GR and NF-B and provide insight into the networks underlying the GR and NF-B crosstalk.Η ολοκλήρωση της αλληλούχισης του ανθρώπινου γονιδιώματος και η εμφάνιση βιολογικών τεχνολογιών υψηλής απόδοσης/τροφοδοσίας στην αυγή της νέας χιλιετίας μεταβάλλουν ταχύτατα το τοπίο προσέγγισης των βιολογικών προβλημάτων προς έναν ολιστικό, συστημικό τρόπο. Οι μικροσυστοιχίες DNA και οι αλληλουχιτές επόμενης γενιάς αποτελούν πολλά υποσχόμενες τεχνολογικές εξελίξεις που χρησιμοποιούνται για την έρευνα και ταυτοποίηση γονιδίων ή ομάδων γονιδίων συσχετισμένων με σημαντικές βιολογικές διαδικασίες αλλά και επιγονιδιωματικών γεγονότων τα οποία είναι ουσιώδη για τη συστημική κατανόηση των ανώτερων βιολογικών διαδικασιών. Αν και το πεδίο της ανάλυσης δεδομένων μικροσυστοιχιών αναπτύσσεται συνεχώς μέσω διαφόρων υπολογιστικών εργαλείων, ανοιχτού κώδικα ή εμπορικών, παρατηρείται μια έλλειψη προκαθορισμένων λογικών αλγοριθμικών ροών εργασίας ανάλυσης ή προτυποποιημένης επεξεργασίας, η οποία περιλαμβάνει όλα τα βήματα ανάλυσης, από την εισαγωγή ακατέργαστων δεδομένων έως την παραγωγή λιστών γονιδίων διαφορικής έκφρασης. Αυτή η έλλειψη προκαλεί σύγχυση στην αναλυτική διαδικασία και παρακωλύει τη μαζική συγκριτική επεξεργασία συνόλων δεδομένων πειραμάτων μικροσυστοιχιών. Εξάλλου, πολλές από τις λύσεις που παρέχονται εξαρτώνται πολύ από τις προγραμματιστικές ικανότητες του εκάστοτε χρήστη, ενώ στην περίπτωση εφαρμογών που έχουν γραφικό περιβάλλον, δεν παρέχεται απευθείας υποστήριξη διαφόρων τυποποιημένων μορφών αρχείων, προερχομένων από προγράμματα ανάλυσης εικόνας, ούτε κάποια συλλογή ευπροσάρμοστων μεθόδων ανάλυσης σήματος. Για την αντιμετώπιση των παραπάνω προβλημάτων, και στα πλαίσια της παρούσας διατριβής αναπτύχθηκε το λογισμικό Gene ARMADA, μια πλατφόρμα ανάλυσης δεδομένων μικροσυστοιχιών με γραφικό περιβάλλον, υλοποιημένη σε MATLAB. Αυτή η «σουίτα» ενοποιεί όλα τα βήματα της ανάλυσης δεδομένων μικροσυστοιχιών, περιλαμβανομένων της αυτόματης εισαγωγής δεδομένων, διόρθωση και φιλτράρισμα θορύβου, κανονικοποίηση, στατιστική επιλογή γονιδίων διαφορικής έκφρασης, ομαδοποίησης, κατηγοριοποίησης και επισημείωσης. Το Gene ARMADA υποστηρίζει διχρωματικές μικροσυστοιχίες cDNA και ολιγονουκλεοτιδιακές Affymetrix και Illumima αλλά και μη τυποποιημένες μικροσυστοιχίες όπου οι πειραματικές λεπτομέρειες δίνονται σε απλό κείμενο. Υποστηρίζει επίσης την ανάλυση ήδη επεξεργασμένων αποτελεσμάτων μέσω ενός ευέλικτου περιβάλλοντος εισαγωγής δεδομένων. Εκτός από την αυτοματοποίηση, το Gene ARMADA παρέχει πολυάριθμα εργαλεία οπτικοποίησης και εξερεύνησης δεδομένων, καθώς και ευέλικτη προτυποποίηση εξόδου με την οποία τα δεδομένα που αναλύονται μπορούν να εισαχθούν σε πολλαπλές εφαρμογές για περεταίρω επεξεργασία. Παράλληλα με το λογισμικό Gene ARMADA και στα πλαίσια της ανάπτυξης εργαλείων για τη βιοπληροφορική ανάλυση δεδομένων γονιδιωματικής προερχομένων από τεχνολογίες υψηλής απόδοσης/τροφοδοσίας, αναπτύχθηκε βασική υπολογιστική ροή εργασίας για ανάλυση δεδομένων πρόσδεσης μεταγραφικών παραγόντων και γονιδιακής ρύθμισης μέσω αλληλούχισης «επόμενης γενιάς». Η ροή εργασίας αποτελείται τόσο από την αποτελεσματική χρήση εργαλείων ανίχνευσης δυνητικών σημείων πρόσδεσης όσο και με εμπειρική μεθοδολογία μείωσης θορύβου και στατιστική ανίχνευση γονιδίων διαφορικής έκφρασης. Τα αναπτυχθέντα και υπάρχοντα εργαλεία εφαρμόστηκαν για τη μελέτη δύο βιολογικών συστημάτων: i) τη μελέτη επίδρασης χορήγησης μαστιχελαίου σε πνευμονικά καρκινικά κύτταρα ποντικού, τύπου LLC και ii) τη μελέτη του προφίλ πρόσδεσης και αλληλεπίδρασης των παραγόντων GR και NF-κB σε ανθρώπινα ηπατικά κύτταρα HeLa B2, σε συνθήκες διέγερσης του καθενός ξεχωριστά ή και των δύο μαζί. Πραγματοποιήθηκε επίσης παράλληλη μελέτη της γονιδιακής έκφρασης μέσω της χαρτογράφησης της πρόσδεσης της RNAPII. Το μαστιχέλαιο από το φυτό Pistacia lentiscus ποικιλίας chia, είναι ένα μείγμα από βιοενεργά τερπένια με αναγνωρισμένες φαρμακευτικές ιδιότητες. Έχει δειχθεί προσφάτως ότι παρουσιάζει κατασταλτικές δράσεις στην ανάπτυξη όγκων μέσω της καταστολής του πολλαπλασιασμού των καρκινικών κυττάρων, της επιβίωσης, της αγγειογένεσης και της αντίδρασης στη φλεγμονή. Παρ’όλ’αυτά, δεν υπάρχουν μελέτες που να έχουν ασχοληθεί με τους μηχανισμούς δράσης σε επίπεδο έκφρασης του συνολικού γονιδιώματος. Προκειμένου να ερευνηθούν οι μηχανισμοί που ενεργοποιούνται από το μαστιχέλαιο, χορηγήθηκε μαστιχέλαιο ή DMSO σε πνευμονικά καρκινικά κύτταρα ποντικιού, τύπου LLC σε 5 διαφορετικά χρονικά σημεία (3-48h). Για την παρακολούθηση του προφίλ έκφρασης του γονιδιώματος χρησιμοποιήθηκαν μικροσυστοιχίες Illumina σε συνδυασμό με την ουσιώδη υπολογιστική ανάλυση. Για έναν αριθμό επιλεγμένων γονιδίων, έγινε επιβεβαίωση της έκφρασης τους με RT-PCR, τόσο στα LLC κύτταρα όσο και σε τρεις ανθρώπινες κυτταρικές σειρές διαφορετικής προέλευσης (A549, HCT116, K562). Η μελέτη στο σύνολό της έδειξε ότι η έκθεση καρκινικών κυττάρων LLC σε μαστιχέλαιο προκαλεί μια χρονικά εξαρτώμενη αλλαγή στην έκφραση 925 γονιδίων. Οντολογική ανάλυση βασισμένη στη GO συνέδεσε τα προφίλ έκφρασης με διάφορες βιολογικές λειτουργίες και διεργασίες. Ανάμεσά τους, μεταβολές στον κυτταρικό κύκλο/πολλαπλασιασμό, την επιβίωση και το σειριακό μονοπάτι του NF-κB σε σύνδεση με την επακόλουθη ρύθμιση των γονιδίων που κωδικοποιούν για τις πρωτεΐνες PTEN, E2F7, HMOX1 (επαγωγή) και NOD1 (καταστολή) δήλωσαν μερικούς σημαντικούς μηχανιστικούς συνδέσμους καταδεικνύοντας τις αντιπολλαπλασιαστικές, προαποπτοτικές και αντιφλεγμονώδεις δράσεις επιρροές του μαστιχελαίου. Η έκφραση των γονιδίων Hmox1, Pten and E2f7 ήταν παρόμοια στην πλειοψηφία των κυτταρικών σειρών που δοκιμάστηκαν. Η αναστολή της λειτουργίας της πρωτεΐνης PTEN ανέστρεψε εν μέρει τα αποτελέσματα της δράσης του μαστιχελαίου στην ανάπτυξη του όγκου των καρκινικών κυττάρων, δηλώνοντας ένα πιθανό μηχανισμό δράσης με πολλαπλούς στόχους. Τελικά, η ομαδοποίηση k-μέσων οδήγησε στην οργάνωση της τελική λίστας διαφοροποιημένων γονιδίων σε οκτώ ομάδες παρόμοιας γονιδιακής έκφρασης. Ανάλυση υποκινητών σε μια αντιπροσωπευτική ομάδα αποκάλυψε κοινά θεωρούμενα cis-ρυθμιστικά στοιχεία, προτείνοντας έναν κοινό μηχανισμό ρυθμιστικής μεταγραφής. Ο υποδοχέας των γλυκοκορτικοειδών (GR) επιδεικνύει αντιφλεγμονώδη δράση εν μέρει μέσω του ανταγωνισμού με προ-φλεγμονώδεις μεταγραφικούς παράγοντες όπως ο πυρηνικός παράγοντας κάπα-Β (NF-κB). Η μελέτη που έγινε στα πλαίσια της παρούσας διατριβής εκτιμά τη λειτουργική συνομιλία/ αλληλεξάρτηση μεταξύ του ενεργοποιημένου GR και της p65 (μείζονα υπομονάδα του NF-κB) μέσω συνολικής ταυτοποίησης των σημείων πρόσδεσής τους και τον γονιδίων στόχων τους. Επίσης, καταδεικνύεται ότι η διέγερση των GR και p65 έχει ως αποτέλεσμα την εκτεταμένη αναδιάταξη των συνόλων των ρυθμιζόμενων γονιδίων και του συσχετισμού τους με καινούργια σημεία πρόσδεσης κατά αλληλοεξαρτώμενο τρόπο. Αυτά τα νέα σημεία πρόσδεσης, ομαδοποιούνται κυρίως με τα γονίδια στόχους της p65 τα οποία ανταγωνίζονται τον ενεργοποιημένο GR και αντιστρόφως. Τα δεδομένα παρουσιάζουν επαναπρογραμματισμό των γλυκοκορτικοειδών και φλεγμονωδών μονοπατιών μετά τη συνδιέγερση των GR και NF-κB παρέχοντας επίγνωση επί των μοριακών δικτύων που βρίσκονται πίσω από τη συνομιλία των GR και NF-κB

    Protocol for unbiased, consolidated variant calling from whole exome sequencing data.

    No full text
    Whole Exome Sequencing (WES) is used for querying DNA variants using the protein coding parts of genomes (exomes). However, WES analysis can be challenging because of the complexity of the data. Here, we describe a consolidated protocol for unbiased WES analysis. The protocol uses three variant callers (HaplotypeCaller, FreeBayes, and DeepVariant), which have different underlying models. We provide detailed execution steps, as well as basic variant filtering, annotation, visualization, and consolidation aspects
    corecore