11 research outputs found

    Investigation of the functional association of diseases through the integrated analysis of extended biomolecular networks

    No full text
    Genome-wide association studies (GWAS) have identified thousands of complex disease-associated loci. To-date, only general GWAS data repositories exist, but no disease-specific meta-databases integrated with genomic data, including variant-gene associations and, also, combined with functional data at any level of genetic information, including eQTL and protein interaction data. These will enable the holistic GWAS data analysis for a particular disease, in the context of biomolecular networks, validating and upgrading their information context. To this end, this study aimed at developing a GWAS meta-database for blood pressure (BP) regulation and analyzing it in the context of the human protein-protein interaction (PPI) network, as the specific physiology results from the inter-regulation of interacting polygenic pathways. The implemented workflow involves: (a) the development of a systematically literature-curated BP GWAS meta-database, including variant-gene associations and eQTL data, (b) the prioritization of GWAS-suggested genes based on GWAS-associated combined criteria, (c) the reconstruction of an extended BP PPI network, identifying new BP-associated proteins as neighbors of the GWAS-suggested, (d) pathway enrichment analysis of the extended set of BP-associated proteins, and (e) prioritization of the genes/proteins in the extended set based on GWAS and network analysis criteria. The BP GWAS meta-database relational scheme, implemented in Microsoft SQL Server, enabled the storage of: (a) the GWAS data and attributes, as mined from GWAS Catalog and, mostly, manually curated from the literature, (b) the Ensembl genomic data and (c) eQTL measurements from GTEx. All information is connected to the human ontological network of PICKLE PPI meta-database; the latter was used for BP PPI network reconstruction. We proposed (a) an integrated GWAS-based gene prioritization score, (b) a shortest path-based method for extending the GWAS-based PPI network, assuming the intermediates as BP-related, (c) two network-based prioritization criteria of the extended BP-protein set, evaluating the protein role in the reconstructed BP-protein interactome and in the subnetwork of GWAS-prioritized and their common neighbours. The complete set of the prioritized BP-proteins is the union of the three subsets, characterized as more significant the more criteria they satisfy. Pathway enrichment analysis was carried out based on KEGG and DAVID. Network analysis was based on Cytoscape. For the extended set of BP proteins, those targeted by anti-hypertensive drugs were, also, identified by using the UniProt and DrugBank databases, as well as those associated with other diseases through DAVID. The BP GWAS meta-database includes 6687 variants significantly associated with BP, with 3738 being associated with 1167 protein-coding genes. About 25% of the genes are mapped to chromosomes 1, 2, 11 and ~57% are supported by e-QTL measurements, mostly associated with artery and nerve tibial. Associated with systolic or diastolic BP or both traits are, respectively, ~60% ~40% and 20%. The integrated GWAS-based prioritization criterion prioritized 103 genes. In the human PPI network, the two thirds (672) of the GWAS-suggested BP-proteins (1065) form a connected binary PPI subnetwork. The BP interactome extension through the GWAS protein-connecting shortest paths identified 1443 intermediates as potentially BP-associated and indicated almost all of GWAS proteins as being at most second neighbours. The reconstructed interactome analysis indicated 106 significantly BP-associated proteins, while 253 were included in the network of the GWAS-prioritized and their common neighbors. The union of the three prioritization subsets includes 335 BP proteins, of which 211 belonging to the 1443 network-suggested, and 93% form a connected network. In the prioritized set, a protein is ranked higher based on the number of satisfied prioritization criteria. ESR1 satisfies all three prioritization criteria. The proteins following ESR1 are GWAS-prioritized and have common neighbors including INSR, PTN11, CDK6, CSK, NOS3, SH2B3, ATP2B1, FES and FINC. Pathway analysis of the extended BP-protein set indicated enrichment in numerous BP-associated bio-processes. Notably, most emerged as significant after the extended PPI network reconstruction, including HIF1-pathway. Some of the BP proteins are targets of anti-hypertensive drugs, and many are associated with other diseases among which diabetes and metabolic syndrome, neurological diseases, heart and kidney failure, and stroke. Indeed, integrated GWAS and PPI network analysis extends our knowledge about BP regulation. The proposed workflow implemented in the present thesis could be accordingly used for other multifactorial diseases, enriching the genotype-phenotype associations with additional data.Οι μελέτες γενετικής συσχέτισης γονιδιωματικής κλίμακας (Genome Wide Association Studies-GWAS) έχουν προσδιορίσει εκατοντάδες γενετικούς τόπους που σχετίζονται με νοσήματα. Μέχρι σήμερα, υπάρχουν μόνο γενικά αποθετήρια δεδομένων GWAS αλλά δεν υπάρχουν ειδικές για νοσήματα μετα-βάσεις δεδομένων που να ενσωματώνουν γονιδιωματικά δεδομένα, μεταξύ των οποίων συσχετίσεις παραλλαγών-γονιδίων, αλλά και να συνδυάζουν λειτουργικά δεδομένα σε κάθε επίπεδο της γενετικής πληροφορίας, συμπεριλαμβανομένων δεδομένων eQTL και αλληλεπιδράσεων μεταξύ πρωτεϊνών. Αυτά θα επιτρέψουν την ολιστική ανάλυση των δεδομένων GWAS για ένα συγκεκριμένο νόσημα, στο πλαίσιο των βιομοριακών δικτύων, επικυρώνοντας και αναβαθμίζοντας το πληροφοριακό τους πλαίσιο. Για το σκοπό αυτό, η παρούσα μελέτη έχει ως στόχο την ανάπτυξη μιας μετα-βάσης δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης και την ανάλυση αυτών των δεδομένων στο πλαίσιο του δικτύου πρωτεϊνικών αλληλεπιδράσεων (Protein-Protein Interaction -PPI- Network) του ανθρώπου, καθώς η συγκεκριμένη φυσιολογία προκύπτει από τη διαρρύθμιση αλληλεπιδρώντων πολυγονιδιακών μονοπατιών. Η ροή εργασίας που εφαρμόστηκε περιλαμβάνει: (α) την ανάπτυξη μιας συστηματικά επιμελημένης από τη βιβλιογραφία μετα-βάσης δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης, συμπεριλαμβανομένων συσχετίσεων παραλλαγών-γονιδίων και δεδομένων eQTL (β) την προτεραιοποίηση γονιδίων που υποδεικνύονται από τις GWAS βάσει συνδυαστικών κριτηρίων που βασίζονται στα δεδομένα GWAS, (γ) την ανακατασκευή ενός εκτεταμένου δικτύου πρωτεϊνικών αλληλεπιδράσεων για την αρτηριακή πίεση, για την ταυτοποίηση νέων πρωτεϊνών σχετικών με την αρτηριακή πίεση ως γειτονικές των πρωτεϊνών που έχουν υποδειχθεί από τις GWAS, (δ) την ανάλυση εμπλουτισμού σε μονοπάτια του εκτεταμένου συνόλου των σχετικών με την αρτηριακή πίεση πρωτεϊνών και (ε) την προτεραιοποίηση των γονιδίων/πρωτεϊνών στο εκτεταμένο σύνολο βάσει κριτηρίων που βασίζονται στα δεδομένα GWAS και στην ανάλυση του ανακατασκευασμένου δικτύου.Το σχεσιακό σχήμα της μετα-βάσης δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης, που υλοποιήθηκε με το εργαλείο Microsoft SQL Server, επέτρεψε την αποθήκευση: (α) δεδομένων και χαρακτηριστικών των GWAS, όπως εξορύσσονται από τη βάση δεδομένων GWAS Catalog, η πλειονότητα των οποίων επιμελούνται από τη βιβλιογραφία, (β) γονιδιωματικών δεδομένων από την Ensembl, και (γ) μετρήσεων eQTL από την GTEx. Όλες οι πληροφορίες συνδέονται με το οντολογικό δίκτυο πρωτεϊνικών αλληλεπιδράσεων του ανθρώπου της μετα-βάσης γνώσης PICKLΕ, η οποία χρησιμοποιήθηκε για την ανακατασκευή του σχετικού με τη ρύθμιση της αρτηριακής πίεσης δικτύου πρωτεϊνικών αλληλεπιδράσεων. Προτείναμε (α) ένα ολοκληρωμένο σκορ προτεραιοποίησης γονιδίων που βασίζεται σε δεδομένα GWAS, (β) μια μέθοδο που βασίζεται στην εύρεση των συντομότερων μονοπατιών (shortest paths) για την επέκταση του δικτύου πρωτεϊνικών αλληλεπιδράσεων που προκύπτει από τις GWAS, υποθέτοντας τους ενδιάμεσους κόμβους ως σχετιζόμενους με την αρτηριακή πίεση, (γ) δύο κριτήρια προτεραιοποίησης του εκτεταμένου συνόλου των σχετικών με την αρτηριακή πίεση πρωτεϊνών που βασίζονται στο δίκτυο, αξιολογώντας τον ρόλο τους στο ανακατασκευασμένο πρωτεϊνικό δίκτυο σχετικό με την αρτηριακή πίεση και στο υποδίκτυο των προτεραιοποιημένων GWAS-πρωτεϊνών και των κοινών γειτόνων τους. To ολοκληρωμένο σύνολο των σχετικών με την αρτηριακή πίεση πρωτεϊνών που προτεραιοποιούνται είναι η ένωση των τριών υποομάδων, όπου χαρακτηρίζονται ως πιο σημαντικές εκείνες με βάση τον αριθμό των κριτήρια ικανοποιούν. Η ανάλυση εμπλουτισμού των μονοπατιών με πρωτεΐνες σχετικές με τη ρύθμιση της αρτηριακής πίεσης πραγματοποιήθηκε αξιοποιώντας τις βάσεων δεδομένων KEGG και DAVID. Η ανάλυση δικτύου βασίστηκε στο εργαλείο Cytoscape. Για το εκτεταμένο σύνολο πρωτεϊνών σχετικών με την αρτηριακή πίεση προσδιορίστηκαν, επίσης. οι πρωτεΐνες-στόχοι αντι-υπερτασικών φαρμάκων κάνοντας χρήση των βάσεων δεδομένων UniProt και DrugBank και οι συσχετίσεις τους με άλλα νοσήματα μέσω της DAVID.Η μετα-βάση δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης περιλαμβάνει 6687 παραλλαγές που σχετίζονται στατιστικώς σημαντικά με την αρτηριακή πίεση, με τις 3738 να σχετίζονται με 1167 γονίδια πρωτεϊνών. Περίπου 25% των γονιδίων χαρτογραφούνται στα χρωμοσώματα 1, 2 και 11 και ~57% υποστηρίζονται από μετρήσεις eQTL, που σχετίζονται κυρίως με την κνημιαία αρτηρία και το κνημιαίο νεύρο. Με τη συστολική ή τη διαστολική αρτηριακή πίεση σχετίζονται το ~60% και το ~40% των γονιδίων, αντίστοιχα, και 20% με αμφότερα τα χαρακτηριστικά. Το ολοκληρωμένο κριτήριο προτεραιοποίησης που βασίζεται σε GWAS προτεραιοποίησε 103 γονίδια. Στο δίκτυο πρωτεϊνικών αλληλεπιδράσεων του ανθρώπου, τα δύο τρίτα (672) των σχετικών με την αρτηριακή πίεση πρωτεϊνών (1065) σχηματίζουν ένα συνδεδεμένο πρωτεϊνικό υποδίκτυο. Μέσω της επέκτασης του σχετικού με την αρτηριακή πίεση πρωτεϊνικού δικτύου μέσω των συντομότερων μονοπατιών που συνδέουν τις πρωτεΐνες που προκύπτουν από τις GWAS προσδιορίστηκαν 1443 ενδιάμεσοι κόμβοι ως δυνητικά σχετιζόμενοι με την αρτηριακή πίεση και αποκαλύφθηκε ότι σχεδόν όλες οι πρωτεΐνες που προκύπτουν από τις GWAS είναι το πολύ δεύτεροι γείτονες. Η ανάλυση του ανακατασκευασμένου πρωτεϊνικού δικτύου υπέδειξε 106 πρωτεΐνες που σχετίζονται σημαντικά με την αρτηριακή πίεση, ενώ 253 πρωτεΐνες συμπεριλήφθηκαν στο υποδίκτυο των πρωτεϊνών που έχουν προτεραιοποιηθεί βάσει του ολοκληρωμένου κριτηρίου προτεραιοποίησης που βασίζεται στα δεδομένα GWAS και των κοινών γειτόνων τους. Η ένωση των τριών υποσυνόλων των πρωτεϊνών που προτεραιοποιούνται περιλαμβάνει 335 πρωτεΐνες σχετικές με την αρτηριακή πίεση, από τις οποίες 211 ανήκουν στις 1443 πρωτεΐνες που προσδιορίστηκαν από την ανακατασκευή του δικτύου, και 93% σχηματίζουν ένα συνδεδεμένο δίκτυο. Στο σύνολο των προτεραιοποιημένων, μια πρωτεΐνη κατατάσσεται υψηλότερα με βάση των αριθμό των κριτηρίων προτεραιοποίησης που ικανοποιεί. Η ESR1 ικανοποιεί και τα τρία κριτήρια προτεραιοποίησης. Στην λίστα κατάταξης την ESR1 ακολουθούν οι πρωτεΐνες που προτεραιοποιηθεί βάσει του ολοκληρωμένου κριτηρίου προτεραιοποίησης που βασίζεται στα δεδομένα GWAS και έχουν κοινούς γείτονες, συμπεριλαμβανομένων των INSR, PTN11, CDK6, CSK, NOS3, SH2B3, ATP2B1, FES και FINC. Η ανάλυση εμπλουτισμού των μονοπατιών του εκτεταμένου συνόλου των πρωτεϊνών που σχετίζονται με τη ρύθμιση της αρτηριακής πίεσης υπέδειξε εμπλουτισμό σε πολυάριθμες βιολογικές διεργασίες και μονοπάτια που σχετίζονται με την αρτηριακή πίεση. Ιδιαίτερα, τα περισσότερα μονοπάτια προσδιορίστηκαν ως σημαντικά εμπλουτισμένα μετά την ανακατασκευή του πρωτεϊνικού δικτύου, συμπεριλαμβανομένου του μονοπατιού σηματοδότησης HIF1. Κάποιες από τις σχετικές με την αρτηριακή πίεση πρωτεΐνες είναι στόχοι αντι-υπερτασικών φαρμάκων και πολλές σχετίζονται και με άλλα νοσήματα μεταξύ των οποίων ο διαβήτης και το μεταβολικό σύνδρομο, νευρολογικά νοσήματα, η καρδιακή και νεφρική ανεπάρκεια και το εγκεφαλικό επεισόδιο. Πράγματι, η ολοκληρωμένη ανάλυση των δεδομένων GWAS και του δικτύου πρωτεϊνικών αλληλεπιδράσεων επεκτείνει τις γνώσεις μας σχετικά με τη ρύθμιση της αρτηριακής πίεσης. Η προτεινόμενη ροή εργασίας που εφαρμόστηκε στην παρούσα διατριβή θα μπορούσε συνεπώς να χρησιμοποιηθεί για άλλα πολυπαραγοντικά νοσήματα εμπλουτίζοντας τη συσχέτιση γονοτύπου-φαινοτύπου με επιπρόσθετα δεδομένα

    Protein–protein interaction network-based integration of GWAS and functional data for blood pressure regulation analysis

    No full text
    Abstract Background It is valuable to analyze the genome-wide association studies (GWAS) data for a complex disease phenotype in the context of the protein–protein interaction (PPI) network, as the related pathophysiology results from the function of interacting polyprotein pathways. The analysis may include the design and curation of a phenotype-specific GWAS meta-database incorporating genotypic and eQTL data linking to PPI and other biological datasets, and the development of systematic workflows for PPI network-based data integration toward protein and pathway prioritization. Here, we pursued this analysis for blood pressure (BP) regulation. Methods The relational scheme of the implemented in Microsoft SQL Server BP-GWAS meta-database enabled the combined storage of: GWAS data and attributes mined from GWAS Catalog and the literature, Ensembl-defined SNP-transcript associations, and GTEx eQTL data. The BP-protein interactome was reconstructed from the PICKLE PPI meta-database, extending the GWAS-deduced network with the shortest paths connecting all GWAS-proteins into one component. The shortest-path intermediates were considered as BP-related. For protein prioritization, we combined a new integrated GWAS-based scoring scheme with two network-based criteria: one considering the protein role in the reconstructed by shortest-path (RbSP) interactome and one novel promoting the common neighbors of GWAS-prioritized proteins. Prioritized proteins were ranked by the number of satisfied criteria. Results The meta-database includes 6687 variants linked with 1167 BP-associated protein-coding genes. The GWAS-deduced PPI network includes 1065 proteins, with 672 forming a connected component. The RbSP interactome contains 1443 additional, network-deduced proteins and indicated that essentially all BP-GWAS proteins are at most second neighbors. The prioritized BP-protein set was derived from the union of the most BP-significant by any of the GWAS-based or the network-based criteria. It included 335 proteins, with ~ 2/3 deduced from the BP PPI network extension and 126 prioritized by at least two criteria. ESR1 was the only protein satisfying all three criteria, followed in the top-10 by INSR, PTN11, CDK6, CSK, NOS3, SH2B3, ATP2B1, FES and FINC, satisfying two. Pathway analysis of the RbSP interactome revealed numerous bioprocesses, which are indeed functionally supported as BP-associated, extending our understanding about BP regulation. Conclusions The implemented workflow could be used for other multifactorial diseases

    Comprehensive subcellular topologies of polypeptides in Streptomyces

    Get PDF
    Members of the genus Streptomyces are Gram-positive bacteria that are used as important cell factories to produce secondary metabolites and secrete heterologous proteins. They possess some of the largest bacterial genomes and thus proteomes. Understanding their complex proteomes and metabolic regulation will improve any genetic engineering approach.status: publishe

    Comprehensive subcellular topologies of polypeptides in Streptomyces

    No full text
    Tsolis KC, Tsare E-P, Orfanoudaki G, et al. Comprehensive subcellular topologies of polypeptides in Streptomyces. MICROBIAL CELL FACTORIES. 2018;17(1): 12.Background: Members of the genus Streptomyces are Gram-positive bacteria that are used as important cell factories to produce secondary metabolites and secrete heterologous proteins. They possess some of the largest bacterial genomes and thus proteomes. Understanding their complex proteomes and metabolic regulation will improve any genetic engineering approach. Results: Here, we performed a comprehensive annotation of the subcellular localization of the proteome of Streptomyces lividans TK24 and developed the Subcellular Topology of Polypeptides in Streptomyces database (SToPSdb) to make this information widely accessible. We first introduced a uniform, improved nomenclature that re-annotated the names of similar to 4000 proteins based on functional and structural information. Then protein localization was assigned de novo using prediction tools and edited by manual curation for 7494 proteins, including information for 183 proteins that resulted from a recent genome re-annotation and are not available in current databases. The S. lividans proteome was also linked with those of other model bacterial strains including Streptomyces coelicolor A3(2) and Escherichia coli K-12, based on protein homology, and can be accessed through an open web interface. Finally, experimental data derived from proteomics experiments have been incorporated and provide validation for protein existence or topology for 579 proteins. Proteomics also reveals proteins released from vesicles that bleb off the membrane. All export systems known in S. lividans are also presented and exported proteins assigned export routes, where known. Conclusions: SToPSdb provides an updated and comprehensive protein localization annotation resource for S. lividans and other streptomycetes. It forms the basis for future linking to databases containing experimental data of proteomics, genomics and metabolomics studies for this organism
    corecore