21 research outputs found

    Addressing the clinical unmet needs in primary Sjögren's Syndrome through the sharing, harmonization and federated analysis of 21 European cohorts

    Get PDF
    For many decades, the clinical unmet needs of primary Sjögren's Syndrome (pSS) have been left unresolved due to the rareness of the disease and the complexity of the underlying pathogenic mechanisms, including the pSS-associated lymphomagenesis process. Here, we present the HarmonicSS cloud-computing exemplar which offers beyond the state-of-the-art data analytics services to address the pSS clinical unmet needs, including the development of lymphoma classification models and the identification of biomarkers for lymphomagenesis. The users of the platform have been able to successfully interlink, curate, and harmonize 21 regional, national, and international European cohorts of 7,551 pSS patients with respect to the ethical and legal issues for data sharing. Federated AI algorithms were trained across the harmonized databases, with reduced execution time complexity, yielding robust lymphoma classification models with 85% accuracy, 81.25% sensitivity, 85.4% specificity along with 5 biomarkers for lymphoma development. To our knowledge, this is the first GDPR compliant platform that provides federated AI services to address the pSS clinical unmet needs. © 2022 The Author(s

    Πολυδιάστατες υπολογιστικές μέθοδοι για την μοντελοποίηση της διάγνωσης, πρόγνωσης και θεραπείας του καρκίνου

    No full text
    The present thesis deals with the modeling of cancer diagnosis, prognosis and treatment by utilizing and implementing well-established computational approaches that can efficiently and effectively contribute to cancer care research and precision oncology. The main objective of this thesis is to study and further understand the molecular basis underlying cancer progression and risk prediction by combining high-throughput data with patient information. Towards this direction, we seek to investigate how the integration of heterogeneous datasets related to cancer development, such as genomic changes and single nucleotide polymorphisms, could provide subsequently a better understanding on cancer classification and progression based on Dynamic Bayesian Networks (DBNs) and ensemble Machine Learning (ML) methodologies, respectively. The first part of the thesis concerns the interactions of the molecules and especially of differentially expressed genes (DEGs) that contribute to cancer progression. Based on this knowledge the identification of DEGS and their related molecular pathways is therefore of great importance. We exploited DEGs in order to further perform pathway enrichment analysis. According to our results we found significant pathways in which the disease associated genes have been identified as strongly enriched. Based on the performed pathway analysis we further proposed a methodology for predicting oral cancer recurrence using DBNs. The methodology takes into consideration time series gene expression data in order to predict a disease recurrence. Subsequently, we can conjecture about the causal interactions between genes in consecutive time intervals. A considerable overall performance of the predictive models was achieved with reference to the knowledge obtained from the pathway level. Cancer classification through DBN-based approaches that could reveal the importance of exploiting knowledge from statistically significant genes and key regulatory molecules was also explored. We identified the genes that act as regulators and mediate the activity of transcription factors that have been found in all promoters of our list with DEGs. These features serve as potential priors for distinguishing tumour from normal samples using a DBN-based classification approach. We employed three microarray datasets from the Gene Expression Omnibus (GEO) public functional repository and performed differential expression analysis. Promoter and pathway analysis of the identified genes revealed the key regulators which influence the transcription mechanisms of these genes. We applied the DBN algorithm on selected genes and identified the features that can accurately classify the samples into wild type and controls. Both accuracy and area under the receiver operating characteristic (ROC) curve (AUC) were high for the gene sets comprising of the DEGS along with their master regulators. In the second part of the thesis we explored the contribution of the genetic susceptibility patients’ profiles and by combining them with known clinical, histological and serological risk factors we enhanced the accuracy of predicting lymphoma development in this patient population. The potential predictive role of both genetic variants and laboratory risk factors were investigated through a ML-based framework which encapsulated ensemble classifiers, such as Gradient Boosting (GB) and Random Forests (RFs) with Gini and entropy measures. Ensemble methods enhance the classification accuracy with approaches that are sensitive to minor perturbations in the training phase. The evaluation of the proposed methodology based on a 10-fold stratified cross validation procedure yielded considerable results in terms of balanced accuracy. The initial clinical, histological and serological findings at an early diagnosis were exploited to establish ML-based predictive tools in clinical practice and further enhance our understanding towards cancer development. In the present thesis, we studied the potential of integrating transcriptomic data with knowledge from the pathway level to model cancer progression and patient risk stratification. The development and application of novel DBN-based analysis methods allowed to infer models that could classify different phenotypes into groups with high classification accuracy. We also demonstrated that robust ensemble ML-based models could contribute to the prediction of cancer development based on the integration of genotype data along with clinical information; thus, contributing to improved disease prognosis and treatment.Η παρούσα διατριβή πραγματεύεται τη μοντελοποίηση της διάγνωσης, της πρόγνωσης και της θεραπείας του καρκίνου, αναλύοντας και εφαρμόζοντας ευρέως χρησιμοποιούμενες υπολογιστικές προσεγγίσεις οι οποίες μπορούν αποτελεσματικά να συμβάλουν στην έρευνα για τη διαχείριση του καρκίνου, την ογκολογία και την ιατρική ακριβείας. Κύριος στόχος αυτής της διατριβής είναι να μελετήσει και να κατανοήσει περαιτέρω τη μοριακή βάση της εξέλιξης του καρκίνου και την πρόβλεψη κινδύνου συνδυάζοντας τα ιατρικά δεδομένα του ασθενούς με δεδομένα υψηλής απόδοσης. Προς αυτή την κατεύθυνση, επιδιώξαμε να διερευνήσουμε τον τρόπο με τον οποίο η ενσωμάτωση ετερογενών συνόλων δεδομένων που σχετίζονται με την ανάπτυξη του καρκίνου, όπως οι γονιδιωματικές αλλαγές και οι πολυμορφισμοί ενός νουκλεοτιδίου, θα μπορούσε στη συνέχεια να επιτρέψει την καλύτερη και πιο έγκυρη ταξινόμηση διαφορετικών φαινοτύπων σχετικών με την εξέλιξη του καρκίνου. Ο τομέας της Συστημικής Βιολογίας έχει αναπτυχθεί σημαντικά τα τελευταία χρόνια και αφορά την ερμηνεία συγκεκριμένων βιολογικών συμβάντων χρησιμοποιώντας τη θεωρία των συστημάτων και των δικτύων. Τα βιολογικά δίκτυα ή δίκτυα γονιδιακής αλληλεπίδρασης, αποτελούν κοινή έννοια στη Συστημική Βιολογία ενώ ταυτόχρονα παρέχουν κρίσιμη πληροφορία σχετικά με τους βιολογικούς μηχανισμούς των υγιών και μη υγιών φαινοτύπων. Στην παρούσα διδακτορική διατριβή, δεδομένα γονιδιακής έκφρασης τα οποία έχουν εξαχθεί από διατάξεις μικροσυστοιχιών, αναλύονται περαιτέρω με στόχο την μοντελοποίηση δικτύων μέσω της τεχνικής των Μπαγιεσιανών (Bayesian) και Δυναμικών Μπαγιεσιανών (Dynamic Bayesian) δικτύων. Απώτερος σ τόχος είναι η ανίχνευση αλληλεπιδράσεων και σχέσεων μεταξύ των γονιδίων, καθώς και η διεξοδική ανάλυση των παραγόμενων δικτύων αλληλεπίδρασης που συμβάλλουν στη διάγνωση και πρόγνωση της ασθένειας του καρκίνου καθώς και στην ταξινόμηση των δειγμάτων σε διαφορετικές κλάσεις. Επιπλέον, μελετήθηκαν και υλοποιήθηκαν σειρά αλγορίθμων Μηχανικής Μάθησης (Machine Learning) με σκοπό την αναπαράσταση της γνώσης και την εξαγωγή συμπερασμάτων αναφορικά με τα κλινικά, ιστολογικά και γενετικά ευρήματα ασθενών σε πρώιμη διάγνωση τα οποία αξιοποιήθηκαν περαιτέρω σε μια προσπάθεια δημιουργίας μοντέλων πρόβλεψης στην κλινική πρακτική και την ενίσχυσης της κατανόησής μας για την ανάπτυξη λεμφώματος. Το πρώτο μέρος της διατριβής αναφέρεται στις αλληλεπιδράσεις των μορίων και ιδιαίτερα των διαφορικά εκφρασμένων γονιδίων (differentially expressed genes) που συμβάλλουν στην διάγνωση και εξέλιξη της νόσου του καρκίνου. Με βάση αυτή την γνώση, ο προσδιορισμός και η αναγνώριση των διαφορικά εκφρασμένων γονιδίων και των σχετικών μοριακών μονοπατιών στα οποία συμμετέχουν είναι μεγάλης σημασίας. Εκμεταλλευτήκαμε τα σημαντικά ως προς την έκφρασή τους γονίδια για να πραγματοποιήσουμε περαιτέρω ανάλυση των βιολογικών μονοπατιών. Σύμφωνα με τα αποτελέσματα, προσδιορίσαμε σημαντικές βιολογικές οδούς στις οποίες τα γονίδια που σχετίζονται με την ανάπτυξη καρκίνου έχουν αναγνωριστεί ως έντονα εμπλουτισμένες και συμμετέχουν σε αυτές. Με βάση την ανάλυση που πραγματοποιήθηκε, προτείναμε μεθοδολογία για την πρόβλεψη της υποτροπής του καρκίνου του στόματος χρησιμοποιώντας Δυναμικά Μπαγιεσιανά δίκτυα. Η προτεινόμενη μεθοδολογία δέχεται ως είσοδο δεδομένα έκφρασης γονιδίων από διάφορες χρονικές στιγμές προκειμένου να προβλέψει την υποτροπή της νόσου. Στη συνέχεια και βάσει της μεθόδου των δυναμικών δικτύων, μπορούμε να εξάγουμε υποθέσεις για τις αιτιώδεις αλληλεπιδράσεις μεταξύ των γονιδίων σε διαδοχικά χρονικά διαστήματα. Επιτεύχθηκε έτσι η ανάπτυξη έγκυρων και ακριβών μοντέλων πρόβλεψης με αναφορά στα δεδομένα που αποκτήθηκαν από το επίπεδο των βιολογικών μονοπατιών στα οποία συμμετέχουν τα γονίδια προς μελέτη. Tα δεδομένα που αναφέρθηκαν παραπάνω χρησιμοποιήθηκαν ώστε να καθοριστούν η δομή και οι παράμετροι δύο μοντέλων Δυναμικών Μπαγιεσιανών δικτύων που σχετίζονται με την κατάσταση συγκεκριμένων ασθενών, δηλαδή εκείνων που επανεμφάνισαν ή όχι καρκίνο. Οι παράμετροι προσδιορίστηκαν μεταξύ των μεταβλητών του πρώτου χρονικού διαστήματος και κατά τη διάρκεια του πρώτου και δεύτερου διαστήματος. Έτσι, μπορέσαμε να υποθέσουμε σχετικά με τις σχέσεις - αλληλεπιδράσεις μεταξύ των γονιδίων. Επιπλέον, η χαρτογράφηση αυτών των αλληλεπιδράσεων με γνωστές και επαληθευμένες αλληλεπιδράσεις στην βιβλιογραφία είναι σε θέση να προσφέρει καλύτερη εικόνα στις υποκείμενες μοριακές διεργασίες της νόσου. Η συνολική απόδοση των μοντέλων πρόβλεψης ήταν ίση με 81,8% ακρίβεια και περιοχή κάτω από την ROC καμπύλη ίση με 0.892, αναφορικά με τις γνώσεις που αποκτήθηκαν από την ανάλυση εμπλουτισμού των σηματοδοτικών μονοπατιών. Στην συνέχεια, διερευνήθηκε η ταξινόμηση των ασθενών με καρκίνο σε προκαθορισμένες κλάσεις μέσω προσεγγίσεων που βασίζονται και πάλι στα Δυναμικά Μπαγιεσιανά δίκτυα τα οποία επιτρέπουν τη συνεκμετάλλευση της γνώσης από στατιστικά σημαντικά γονίδια και τα βασικά ρυθμιστικά τους μόρια. Προσδιορίσαμε τα γονίδια που λειτουργούν ως ρυθμιστές και μεσολαβούν στη δραστηριότητα παραγόντων μεταγραφής τα οποία έχουν βρεθεί σε όλους τους υποκινητές της λίστας με τα διαφορικά εκφρασμένα γονίδια. Τα χαρακτηριστικά αυτά χρησιμοποιήθηκαν ως προγενέστερη γνώση στα Δυναμικά Μπαγιεσιανά δίκτυα για τη διάκριση του όγκου από τα υγιή δείγματα. Χρησιμοποιήσαμε τρία σύνολα δεδομένων μικροσυστοιχιών από το αποθετήριο Gene Expression Omnibus (GEO) και πραγματοποιήσαμε αρχικά ανάλυση διαφορικής έκφρασης. Η μετέπειτα ανάλυση των υποκινητών και των σηματοδοτικών οδών των αναγνωρισμένων γονιδίων αποκάλυψε τους βασικούς ρυθμιστές που επηρεάζουν τους μηχανισμούς μεταγραφής των εν λόγω γονιδίων. Εφαρμόσαμε τον προτεινόμενο αλγόριθμο σε επιλεγμένα γονίδια και προσδιορίσαμε τα χαρακτηριστικά που μπορούν να ταξινομήσουν με ακρίβεια τα δείγματα στις ομάδες ελέγχου (controls) και άγριου τύπου (wild type). Τόσο η ακρίβεια όσο και η περιοχή κάτω από την καμπύλη ROC ήταν υψηλές, στηριζόμενοι στα τελικά σύνολα γονιδίων (δηλαδή στα διαφορικά εκφρασμένα γονίδια και τους υποκινητές τους). Συγκεκριμένα, η ακρίβεια κυμάνθηκε μεταξύ 70,8% - 98,5%, ενώ η καμπύλη ROC μεταξύ 0,562 - 0,985. Στο δεύτερο μέρος της διατριβής μελετήσαμε τη συμβολή των προφίλ γενετικής ευαισθησίας σε ασθενείς με σύνδρομο Sjögren. Συνδυάζοντας τα γενετικά δεδομένα με γνωστούς κλινικούς, ιστολογικούς και ορολογικούς παράγοντες κινδύνου, ενισχύσαμε την ακρίβεια της πρόβλεψης ανάπτυξης λεμφώματος σε αυτόν τον πληθυσμό ασθενών. Ο δυνητικός προγνωστικός ρόλος τόσο των γενετικών παραλλαγών όσο και των εργαστηριακών παραγόντων κινδύνου διερευνήθηκε μέσω μεθοδολογίας Μηχανικής Μάθησης, η οποία ενσωματώνει ταξινομητές, όπως ο ταξινομητής Ενίσχυσης Σύστασης (Gradient Boosting - GB) και τα Τυχαία Δέντρα (Random Forests - RFs) με συγκεκριμένα μέτρα εντροπίας. Οι μέθοδοι συνόλου (ensemble) που αναπτύχθηκαν βελτίωσαν την ακρίβεια της ταξινόμησης των ασθενών βάσει προσεγγίσεων ευαίσθητων σε μικρές διακυμάνσεις στη φάση της εκπαίδευσης. Η αξιολόγηση της προτεινόμενης μεθοδολογίας έγινε με διαδικασία διασταυρούμενης επικύρωσης και έδωσε σημαντικά αποτελέσματα ως προς την ακρίβεια, την ευαισθησία και την ειδικότητα (GB: ακρίβεια = 0.7780, RF με ευρετήριο Gini: ακρίβεια = 0.7626, RF με εντροπία: ακρίβεια = 0.7590). Επομένως, τα κλινικά, ιστολογικά και ορολογικά ευρήματα κατά την πρώιμη διάγνωση χρησιμοποιήθηκαν στον σχεδιασμό προγνωστικού μοντέλου που βασίζεται σε τεχνικές Μηχανικής Μάθησης και έχει ως στόχο την εφαρμογή του στην κλινική πράξη ενισχύοντας περαιτέρω την κατανόησή μας για την ανάπτυξη του καρκίνου. Συνοψίζοντας, στην παρούσα διατριβή, μελετήσαμε τις δυνατότητες συνδυασμού δεδομένων μεταγραφής με γνώσεις από σηματοδοτικά μονοπάτια στα οποία συμμετέχουν γονίδια σημαντικά στην εξέλιξη του καρκίνου, με στόχο την διαστρωμάτωση του κινδύνου των ασθενών. Η εφαρμογή νέων μεθόδων ανάλυσης που βασίζονται σε Δυναμικά Μπαγιεσιανά δίκτυα επέτρεψε την ανάπτυξη μοντέλων ικανών να ταξινομήσουν στις επιμέρους ομάδες διαφορετικούς φαινοτύπους με υψηλή ακρίβεια. Δείξαμε επίσης, ότι τα προβλεπτικά μοντέλα που βασίζονται σε τεχνικές Μηχανικής Μάθησης μπορούν να συμβάλουν στην πρόβλεψη της ανάπτυξης του καρκίνου μέσω της ενσωμάτωσης δεδομένων γενωμικής στις υπάρχουσες κλινικές πληροφορίες, συμβάλλοντας έτσι στη βελτίωση της πρόγνωσης και της θεραπείας της νόσου

    Machine learning applications in cancer prognosis and prediction

    Get PDF
    Cancer has been characterized as a heterogeneous disease consisting of many different subtypes. The early diagnosis and prognosis of a cancer type have become a necessity in cancer research, as it can facilitate the subsequent clinical management of patients. The importance of classifying cancer patients into high or low risk groups has led many research teams, from the biomedical and the bioinformatics field, to study the application of machine learning (ML) methods. Therefore, these techniques have been utilized as an aim to model the progression and treatment of cancerous conditions. In addition, the ability of ML tools to detect key features from complex datasets reveals their importance. A variety of these techniques, including Artificial Neural Networks (ANNs), Bayesian Networks (BNs), Support Vector Machines (SVMs) and Decision Trees (DTs) have been widely applied in cancer research for the development of predictive models, resulting in effective and accurate decision making. Even though it is evident that the use of ML methods can improve our understanding of cancer progression, an appropriate level of validation is needed in order for these methods to be considered in the everyday clinical practice. In this work, we present a review of recent ML approaches employed in the modeling of cancer progression. The predictive models discussed here are based on various supervised ML techniques as well as on different input features and data samples. Given the growing trend on the application of ML methods in cancer research, we present here the most recent publications that employ these techniques as an aim to model cancer risk or patient outcomes

    Utilizing Incremental Learning for the Prediction of Disease Outcomes Across Distributed Clinical Data: A Framework and a Case Study

    No full text
    In this work, we highlight the need of a supervised learning framework for disease predictive modeling across distributed clinical data to overcome the privacy limitations that are introduced by centralized analysis. Towards this direction, a computational framework is proposed, consisting of six incremental learning algorithms that are based on Stochastic Gradient Descent, Naive Bayes, and Gradient Boosting Trees, to provide new insight on the construction of supervised learning models across clinical data that are stored in multiple locations. The applicability of the proposed framework is demonstrated through a preliminary case study, where a distributed lymphoma prediction model is constructed across private cloud spaces that consist of clinical data from patients that have been diagnosed with primary Sjogren’s Syndrome (pSS). Our results reveal the dominance of the Gradient Boosting Trees, yielding an average accuracy 91.6% and sensitivity 87.5% towards the correct identification of lymphoma cases

    Prediction of time dependent survival in HF patients after VAD implantation using pre- and post-operative data

    No full text
    Heart failure is one of the most common diseases worldwide. In recent years, Ventricular Assist Devices (VADs) have become a valuable option for patients with advanced HF. Although it has been shown that VADs improve patient survival rates, several complications persist during left VAD (LVAD) support. The stratification scores currently employed are mostly generic, i.e. not specifically built for LVAD patients, and are based on pre-implantation patient data. In this work we apply data mining approaches for the prediction of time dependent survival in patients after LVAD implantation. Moreover, the predictions acquired with the use of pre-implantation data are enriched by employing post-implantation data, i.e. follow-up data. Different clinical scenarios have been depicted and the subsequent conditions are tested in order to identify the optimal set of pre- and post-implant features, as well as the most suitable algorithms for feature selection and prediction. The proposed approach is applied to a real dataset of 71 patients, reporting an accuracy of 84.5%, sensitivity of 87% and specificity of 82%. Based on the reported results, expert cardio-surgeons can be supported in planning the treatment of VAD patients.publisher: Elsevier articletitle: Prediction of time dependent survival in HF patients after VAD implantation using pre- and post-operative data journaltitle: Computers in Biology and Medicine articlelink: http://dx.doi.org/10.1016/j.compbiomed.2016.01.005 content_type: article copyright: Copyright © 2016 Elsevier Ltd. All rights reserved.status: publishe

    Achieving adherence in home-based rehabilitation with novel human machine interactions that stimulate community-dwelling older adults

    No full text
    Balance disorders are expressed with main symptoms of vertigo, dizziness instability and disorientation. Most of them are caused by inner ear pathologies, but neurological, medical and psychological factors are also responsible. Balance disorders overwhelmingly affect daily activities and cause psychological and emotional hardship. They are also the main cause of falls which are a global epidemic. Home based balance rehabilitation is an effective approach for alleviating symptoms and for improving balance and self-confidence. However, the adherence in such programs is usually low with lack of motivation and disease related issues being the most influential factors. Holobalance adopts the Capability, Opportunity and Motivation (COM) and Behaviour (B) model to identify the sources of the behaviour that should be targeted for intervention and proposes specific Information Technology components that provide the identified interventions to the users in order to achieve the target behavioural change, which in this case is adherence to home base rehabilitationPermission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. Copyrights for components of this work owned by others than the author(s) must be honored. Abstracting with credit is permitted. To copy otherwise, or republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee. Request permissions from [email protected]

    Classification of Inflammation of Unknown Origin patients based on RNA-seq and SomaScan data

    No full text
    A preliminary analysis was conducted on data acquired from RNA sequencing and SomaScan platforms, for the classification of patients with Inflammation of Unknown Origin. To this end, a multimodal data integration approach was designed, by combining the two platforms, in order to assess the potentiality of learning estimators, using the differentially expressed features from the independent profiling experiments of both platforms. The classification framing was the differentiation of Inflammation of Unknown Origin patients against a multitude of Systemic Autoinflammatory disease patients. Separate false discovery rate analyses were performed on each dataset to extract statistically significant features between the two designated sample groups. Genomic analysis managed higher overall classification metrics compared to proteomic analysis, averaging an ∼19% increase overall metrics and classifiers, with a ∼0.07% increase in standard error. The multimodal data integration approach achieved similar results to the individual platforms' analyses. More specifically, it managed the same classification accuracy, sensitivity, and specificity scores as the best individual analysis, with the simple Logistic Regression estimator.Clinical Relevance - This study highlights the advantage of exploiting RNA sequencing data to identify potential Inflammation of Unknown Origin disease specific biomarkers, even against other Systemic Autoinflammatory diseases. These findings are further emphasized given the non-apparent clinical discrepancy between Inflammation of Unknown Origin and other Systemic Autoinflammatory diseases.</p
    corecore