183 research outputs found

    Unveiling the frontiers of deep learning: innovations shaping diverse domains

    Full text link
    Deep learning (DL) enables the development of computer models that are capable of learning, visualizing, optimizing, refining, and predicting data. In recent years, DL has been applied in a range of fields, including audio-visual data processing, agriculture, transportation prediction, natural language, biomedicine, disaster management, bioinformatics, drug design, genomics, face recognition, and ecology. To explore the current state of deep learning, it is necessary to investigate the latest developments and applications of deep learning in these disciplines. However, the literature is lacking in exploring the applications of deep learning in all potential sectors. This paper thus extensively investigates the potential applications of deep learning across all major fields of study as well as the associated benefits and challenges. As evidenced in the literature, DL exhibits accuracy in prediction and analysis, makes it a powerful computational tool, and has the ability to articulate itself and optimize, making it effective in processing data with no prior training. Given its independence from training data, deep learning necessitates massive amounts of data for effective analysis and processing, much like data volume. To handle the challenge of compiling huge amounts of medical, scientific, healthcare, and environmental data for use in deep learning, gated architectures like LSTMs and GRUs can be utilized. For multimodal learning, shared neurons in the neural network for all activities and specialized neurons for particular tasks are necessary.Comment: 64 pages, 3 figures, 3 table

    Ανάλυση προωτεομικών δεδομένων απο φασματομετρία μάζας και ενσωμάτωσή τους με άλλα κλινικά και μοριακά δεδομένα σε κλινικά δείγματα και καρκινικές σειρές

    Get PDF
    Οι μοριακοί υπότυποι μιας ασθένειας συχνά συσχετίζονται με διαφορές ως προς την επιβίωση ή πρόοδο της νόσου και άλλοτε ως προς την απόκριση σε συγκεκριμένη θεραπεία. Την τελευταία δεκαετία, μελέτες μοριακής ταξινόμησης του ουροθηλιακού καρκίνου εστιάζουν κυρίως στον διηθητικό τύπο της ασθένειας (~20% των ασθένων στην αρχική διάγνωση) ο οποίος χαρακτηρίζεται από υψηλό κίνδυνο για μετάσταση και χαμηλά ποσοστά πενταετούς επιβίωσης. Οι παραπάνω μελέτες επέτρεψαν την ταυτοποιήση πολλαπλών γενομικών και μεταγραφικών υποτύπων οι οποίοι διαφέρουν ριζικά ως προς το μοριακό τους προφίλ, σχηματίζοντας δύο μεγάλες κατηγορίες: τους basal και τους luminal όγκους. Οι πρώτοι φαίνεται να σχετίζονται με πιο επιθετικούς καρκίνους εμπερικλείοντας όμως ένα σημαντικό ποσοστό ασθενών που ανταποκρίνονται στο βασικό χημειοθεραπευτικό σχήμα. Οι δέυτεροι (luminal) αρχικά προσδιορίστηκαν ως λιγότερο επιθετικοί, επόμενες μελέτες όμως αποκάλυψαν την σημαντική μοριακή ετερογένεια που τους χαρακτηρίζει και που αντανακλάται σε κλινικές παραμέτρους. Σήμερα, πιστέυεται ότι ο διηθητικός καρκίνος της ουροδόχου κύστης ταξινομείται σε 6 βασικούς υποτύπους, αλλά τα δεδομένα που υπάρχουν για να υποστηρίξουν την ένταξη των υποτύπων στην κλινική πράξη είναι ατελή και δεν συμφωνούν μεταξύ τους. Από την άλλη, ο μη διηθητικός τύπος της ασθενεις (~80% των περιπτώσεων στην αρχική διάγνωση) χαρακτηρίζεται από υψηλά ποσοστά υποτροπής και προόδου σε ανώτερο στάδιο καθώς και από σημαντικό δημόσιο οικονομικό κόστος εξαιτίας της αυξημένης συχνότητας παρακολούθησης που απαιτεί. Το μοριακό προφίλ του μη-διηθητικού καρκίνου έχει μελετηθεί σημαντικά λιγότερο από αυτό του διηθητικού, και μέχρι σήμερα υπάρχουν δύο μελέτες που επιχειρούν την ταξινόμησή του σε μοριακούς υποτύπους: η πρώτη στη βάση του μεταγραφώματος, η δέυτερη στη βάση της διακύμνασης αριθμού αντιγράφων. Το πρωτεομικό προφίλ όμως, τόσο του διηθητικού όσο και του μη-διηθητικού καρκίνου της ουροδόχου κύστης, μέχρι και σήμερα έχει μελετηθεί υποτυπωδώς. Σκοπός της παρούσας μελέτης είναι η διερεύνηση της ύπαρξης πρωτεομικών υποτύπων του μη διηθητικού ουροθηλιακού καρκίνου, ο μοριακός χαρακτηρισμός τους, η σχέση τους με προηγούμενα συστήματα ταξινόμησης, καθώς και η ταυτοποίηση απορυθμισμένων πρωτεϊνών και μονοπατιών με δυνητική προγνωστική αξία. Για την εξυπηρέτηση του παραπάνω σκοπού, 117 δείγματα καρκινικού ιστού από ασθενείς που πρωτοδιαγνώσθηκαν με ουροθηλιακό καρκίνο (98 μη-διηθητικό, 19 διηθητικό) συλλέχθησαν και το ολικό πρωτέομά τους απομονώθηκε και αρχικά ποσοτικοποιήθηκε με τη μέθοδο Bradford. Κατόπιν διάσπασης με θρυψίνη, τα πεπτίδια διαχωρίστηκαν σε χρωματογραφική στήλη συνδεδεμένη με φασματογράφο μάζας τύπου Orbitrap. Οι φασματικές πληροφορίες για τα πεπτίδια αναλύθηκαν με το πρόγραμμα Proteome Discoverer θέτοντας FDR (False Discovery Rate) <0.01 και αντιστοιχήθηκαν σε πρωτεινικές ταυτότητες. Η πρωτεϊνική ποσοτικοποίηση έγινε με τη χρήση των τριών πιο άφθονων και μοναδικών πεπτιδίων ανά πρωτεΐνη, ενώ κατόπιν επεξεργασίας τα πρωτεομικά δεδομένα υποβλήθηκαν σε μια σειρά από υπολογιστικές αναλύσεις: μη επιτηρούμενη k-means συσταδοποίηση, ανάλυση κύριων συνιστωσών, ανάλυση για στατιστική σημαντικόντητα πρωτεϊνών, πρωτεϊνικών μονοπατιών, βιολογικών λειτουργιών και γονιδιακής έκφρασης καθώς και στην μοντελοιποίηση ενός μοριακού ταξινομητή Radnom Forest. Μέγιστη σταθερότητα συσταδοποίησης επιτεύχηκε για κ = 3 ομάδες, υποδηλώνοντας την ύπαρξη τριών πρωτεομικών υποτύπων στα δεδομένα. Η ομάδα 1 ήταν η μικρότερη σε μέγεθος (17/98), περιείχε κυρίως καρκίνους υψηλού σταδίου, αλλοίωσης και ρίσκου και παρουσίασε ένα μοριακό φαινότυπο ανοσοδιήθησης με υψηλά επιπέδα των μεταγραφικών παραγόντων STAT1, STAT3 και SND1, καθώς και πρωτεϊνων της αντιγονοπαρουσίασης, υποδηλώνοντας ενεργή ανταλλαγή πληροφοριών μεταξύ του ανοσοποιητικού και των καρκινικών κυττάρων. Παράλληλα, χαρακτηρίζονταν απο υψηλότερες ποσότητες πρωτεϊνών που συμμετέχουν στο κυτταρικό κύκλο, και στη μετάδοση στρεσογόνων σημάτων (αντίδραση μη αναδιπλωμένης πρωτεϊνης και επιδιόρθωση βλαβών του DNA). Η όμαδα 2 συγκέντρωσε ασθενείς με ποικίλα κλινικά χαρακτηριστικά που όμως έφεραν κοινώς, αυξημένες ποσότητες εξωκυττάριων πρωτεϊνών (στρώματος), και χαμηλά επιθηλιακά σήματα. Οι ασθενείς στην ομάδα 3 παρουσίασαν έναν πιο διαφοροποιημένο μοριακό φαινότυπο με υψηλότερα επίπεδα (UPKs και KRT20 κάθως και CDH1) που συμβαδίζει με τα κλινικά χαρακτηριστικά τους αφού οι περισσότεροι διαγιγνώσθηκαν με καρκίνους χαμηλού σταδίου και κινδύνου. Η ανάλυση για ενεργοποιημένα πρωτεϊνικά μονοπάτια έδειξε ότι οι ασθενείς της ομάδας 1 έιχαν ενεργή σηματοδότηση για βιοσυνθετικές διεργασίες, για ιντερφερόνη-γ, και αυξημένη δραστηριότητα των μεταγραφικών παραγόντων MYC και E2F, που ελέγχουν θετικά τον κυτταρικό κύκλο. Από την άλλη οι ασθνενείς της ομάδας 3 σχετίστηκαν με ενεργοποίηση μεταβολικών μονοπατιών όπως αυτό της αποτοξίνωσης μεσολαβούμενο από γλουταθειόνη καθώς και της γλυκογονόλυσης – γλυκόλυσης, αλλά και της απόπτωσης. Συγκρίνοντας το πρωτεομικό προφιλ των ασθένων με μη-διηθητικό καρκίνο με ασθενέις που είχαν διηθητικό καρκίνο χρησιμοποιώντας ανάλυση κύριων συνιστωσών, αποκαλύφθηκε κοντινή σχέση της ομάδας 1 με ασθενείς που έφεραν διηθητικό ουροθηλιακό καρκίνο και αντίστροφα, μακρινή σχέση της ομάδας 3 με τους τελευταίους. Η ομάδα 2 εμφάνισε μεγάλη διασπορά επικαλύπτοντας περιοχές των προηγούμενων δύο ομάδων. Για την επικύρωση των πρωτεομικών αποτελεσμάτων, δεδομένα από μεταγραφικές έρευνες (UROMOL και LUND) αναλύθηκαν αναδρομικά. Στην UROMOL έρευνα επίσης ταυτοποιήθηκαν 3 υπότυποι ο ένας εκ των οποίων συγκέντρωσε τους περισσότερους ασθενείς με πρόδοο σε ανώτερο στάδιο (κακής πρόγνωσης υπότυπος). Συγκριτική ανάλυση μεταξύ των τριών πρωτεομικών ομάδων και των τριών υποτύπων της UROMOL έρευνας με το στατιστικό εργαλείο GSEA, έδειξε στατιστικώς σημαντικές φαινοτυπικές ομοιότητες μεταξύ της πρωτεομικής ομάδας 1 και του υποτύπου «κακής» πρόγνωσης της UROMOL καθώς και μεταξύ της πρωτεομικής ομάδας 3 και του υποτύπου «καλής πρόγνωσης». Χρησιμοποιώντας έναν μη επιτηρούμενο μοριακό ταξινομητή Random Forest, οι υψηλού κινδύνου και χαμηλού κινδύνου φαινότυποι των πρωτεομικών ομάδων 1 και 3, επιβεβαιώθηκαν ύστερα από την ταξινόμηση των ασθενών στους υποτύπους «κακής» και «καλής» πρόγνωσης αντίστοιχα, της UROMOL έρευνας. Στατιστικώς σημαντικες πρωτεΐνες που ξεχωρίζουν αυτές τις δυο ακραίες πρωτεομικές ομάδες αλλά και ταυτόχρονα τον διηθητικό από τον μη διηθητικό καρκίνο βρέθηκαν να διαφέρουν σημαντικά και στο επίπεδο του μεταγραφώματος μεταξύ των ομάδων «κακής» και «καλής» πρόγνωσης σε δύο ανεξάρτητες έρευνες (UROMOL και LUND). Τα παραπάνω μόρια συμμετέχουν σε βιολογικές λειτουργίες-κλειδιά για την ανάπτυξη του μη-διηθητικού καρκίνου, όπως στην επαγωγή αποκρίσεων πρωτεϊνικής σταθερότητας, στη σηματοδότηση κυτοκινών και ιντερφερονών, στην αντιγονοπαρουσίαση, στην επεξεργασία πρώιμων mRNAs, σε μετα-μεταφραστικές τροποποιήσεις αλλά και σε μονοπάτια κυτταρικής αύξησης. Συνολικά, η παρούσα μελέτη ταυτοποιεί τρεις πρωτεομικούς υποτύπους του μη διηθητικού καρκίνου και ακολουθώντας μια σύγκριτική ανάλυση με δύο ανεξάρτητες μεταγραφικές έρευνες, παρέχει ομάδες μορίων που μπορεί να οδηγούν τη πρόοδο του καρκίνου και που χρειάζονται επιπλέον επικύρωση στη κλινική πράξη.DNA/RNA-based classification of Bladder Cancer (BC) supports the existence of multiple molecular subtypes, while investigations at the protein level are scarce. The purpose of this study was to investigate if Non-Muscle Invasive Bladder Cancer (NMIBC) can be stratified to biologically meaningful proteomic groups, to establish associations between the proteomics subtypes and previous transcriptomics classification systems and to characterize the continuum of transcriptomics alterations observed in the different stages of the disease. Subsequently, tissue specimens from 117 patients at primary diagnosis (98 with NMIBC and 19 with MIBC), were processed for high resolution LC-MS/MS analysis. Protein quantification was conducted by utilizing the mean abundance of the top three most abundant unique peptides per protein. The proteomics output was subjected to unsupervised consensus clustering, principal component analysis (PCA), and investigation of subtype-specific features, pathways, and genesets, as well as for the construction and validation of a Random Forest based classifier. NMIBC patients were optimally stratified to 3 proteomic subtypes (classes), differing at size, clinico-pathological and molecular backgrounds: Class 1 (mostly high stage/grade/risk samples) was the smallest in size (17/98) and expressed an immune/inflammatory phenotype, along with features involved in cell proliferation, unfolded protein response and DNA damage response, whereas class 2 (mixed stage/grade/risk composition) presented with an infiltrated/mesenchymal profile. Class 3 was rich in luminal/differentiation markers, in line with its pathological composition (mostly low stage/grade/risk samples). PCA revealed a close proximity of class 1 and conversely, remoteness of class 3 to the proteome of MIBC. Samples from class 2 were distributed in a wider fashion at the rotated space. Comparative analysis with GSEA between the three proteomic classes and the three UROMOL subtypes indicated statistically significant associations between the proteomics class 1 and UROMOL subtype 2 (subtype with a bad prognosis) and also between the proteomics class 3 and UROMOL subtype 1 (subtype with the best prognosis). Utilizing a Random Forest based classifier, the predicted high- and low-risk phenotypes for the proteomic class 1 and class 3, were further supported by their classification into the “progressed” and “non-progressed” subtypes of the UROMOL study, respectively. Statistically significant proteins distinguishing these two extreme classes (1 and 3) and also MIBC from NMIBC samples were found to consistently differ at the mRNA levels between NMIBC “Progressors” and “Non-Progressors” groups of the UROMOL and LUND cohorts. Functional assessment of the observed molecular de-regulations suggested severe pathway alterations at unfolded protein response, cytokine and inferferone-γ signaling, antigen presentation, mRNA processing, post translational modifications and in cell growth/division. Collectively, this study identifies three proteomic NMIBC subtypes and following a cross-omics analysis using transcriptomic data from two independent cohorts, shortlists molecular features potentially driving non-invasive carcinogenesis, meriting further validation in clinical trials

    A new integrated framework for the identification of potential virus–drug associations

    Get PDF
    IntroductionWith the increasingly serious problem of antiviral drug resistance, drug repurposing offers a time-efficient and cost-effective way to find potential therapeutic agents for disease. Computational models have the ability to quickly predict potential reusable drug candidates to treat diseases.MethodsIn this study, two matrix decomposition-based methods, i.e., Matrix Decomposition with Heterogeneous Graph Inference (MDHGI) and Bounded Nuclear Norm Regularization (BNNR), were integrated to predict anti-viral drugs. Moreover, global leave-one-out cross-validation (LOOCV), local LOOCV, and 5-fold cross-validation were implemented to evaluate the performance of the proposed model based on datasets of DrugVirus that consist of 933 known associations between 175 drugs and 95 viruses.ResultsThe results showed that the area under the receiver operating characteristics curve (AUC) of global LOOCV and local LOOCV are 0.9035 and 0.8786, respectively. The average AUC and the standard deviation of the 5-fold cross-validation for DrugVirus datasets are 0.8856 ± 0.0032. We further implemented cross-validation based on MDAD and aBiofilm, respectively, to evaluate the performance of the model. In particle, MDAD (aBiofilm) dataset contains 2,470 (2,884) known associations between 1,373 (1,470) drugs and 173 (140) microbes. In addition, two types of case studies were carried out further to verify the effectiveness of the model based on the DrugVirus and MDAD datasets. The results of the case studies supported the effectiveness of MHBVDA in identifying potential virus-drug associations as well as predicting potential drugs for new microbes

    Text Mining for Pathway Curation

    Get PDF
    Biolog:innen untersuchen häufig Pathways, Netzwerke von Interaktionen zwischen Proteinen und Genen mit einer spezifischen Funktion. Neue Erkenntnisse über Pathways werden in der Regel zunächst in Publikationen veröffentlicht und dann in strukturierter Form in Lehrbüchern, Datenbanken oder mathematischen Modellen weitergegeben. Deren Kuratierung kann jedoch aufgrund der hohen Anzahl von Publikationen sehr aufwendig sein. In dieser Arbeit untersuchen wir wie Text Mining Methoden die Kuratierung unterstützen können. Wir stellen PEDL vor, ein Machine-Learning-Modell zur Extraktion von Protein-Protein-Assoziationen (PPAs) aus biomedizinischen Texten. PEDL verwendet Distant Supervision und vortrainierte Sprachmodelle, um eine höhere Genauigkeit als vergleichbare Methoden zu erreichen. Eine Evaluation durch Expert:innen bestätigt die Nützlichkeit von PEDLs für Pathway-Kurator:innen. Außerdem stellen wir PEDL+ vor, ein Kommandozeilen-Tool, mit dem auch Nicht-Expert:innen PPAs effizient extrahieren können. Drei Kurator:innen bewerten 55,6 % bis 79,6 % der von PEDL+ gefundenen PPAs als nützlich für ihre Arbeit. Die große Anzahl von PPAs, die durch Text Mining identifiziert werden, kann für Forscher:innen überwältigend sein. Um hier Abhilfe zu schaffen, stellen wir PathComplete vor, ein Modell, das nützliche Erweiterungen eines Pathways vorschlägt. Es ist die erste Pathway-Extension-Methode, die auf überwachtem maschinellen Lernen basiert. Unsere Experimente zeigen, dass PathComplete wesentlich genauer ist als existierende Methoden. Schließlich schlagen wir eine Methode vor, um Pathways mit komplexen Ereignisstrukturen zu erweitern. Hier übertrifft unsere neue Methode zur konditionalen Graphenmodifikation die derzeit beste Methode um 13-24% Genauigkeit in drei Benchmarks. Insgesamt zeigen unsere Ergebnisse, dass Deep Learning basierte Informationsextraktion eine vielversprechende Grundlage für die Unterstützung von Pathway-Kurator:innen ist.Biological knowledge often involves understanding the interactions between molecules, such as proteins and genes, that form functional networks called pathways. New knowledge about pathways is typically communicated through publications and later condensed into structured formats such as textbooks, pathway databases or mathematical models. However, curating updated pathway models can be labour-intensive due to the growing volume of publications. This thesis investigates text mining methods to support pathway curation. We present PEDL (Protein-Protein-Association Extraction with Deep Language Models), a machine learning model designed to extract protein-protein associations (PPAs) from biomedical text. PEDL uses distant supervision and pre-trained language models to achieve higher accuracy than the state of the art. An expert evaluation confirms its usefulness for pathway curators. We also present PEDL+, a command-line tool that allows non-expert users to efficiently extract PPAs. When applied to pathway curation tasks, 55.6% to 79.6% of PEDL+ extractions were found useful by curators. The large number of PPAs identified by text mining can be overwhelming for researchers. To help, we present PathComplete, a model that suggests potential extensions to a pathway. It is the first method based on supervised machine learning for this task, using transfer learning from pathway databases. Our evaluations show that PathComplete significantly outperforms existing methods. Finally, we generalise pathway extension from PPAs to more realistic complex events. Here, our novel method for conditional graph modification outperforms the current best by 13-24% accuracy on three benchmarks. We also present a new dataset for event-based pathway extension. Overall, our results show that deep learning-based information extraction is a promising basis for supporting pathway curators

    From Mouse Models to Patients: A Comparative Bioinformatic Analysis of HFpEF and HFrEF

    Get PDF
    Heart failure (HF) represents an immense health burden with currently no curative therapeutic strategies. Study of HF patient heterogeneity has led to the recognition of HF with preserved (HFpEF) and reduced ejection fraction (HFrEF) as distinct syndromes regarding molecular characteristics and clinical presentation. Until the recent past, HFrEF represented the focus of research, reflected in the development of a number of therapeutic strategies. However, the pathophysiological concepts applicable to HFrEF may not be necessarily applicable to HFpEF. HF induces a series of ventricular modeling processes that involve, among others, hallmarks of hypertrophy, fibrosis, inflammation, all of which can be observed to some extent in HFpEF and HFrEF. Thus, by direct comparative analysis between HFpEF and HFrEF, distinctive features can be uncovered, possibly leading to improved pathophysiological understanding and opportunities for therapeutic intervention. Moreover, recent advances in biotechnologies, animal models, and digital infrastructure have enabled large-scale collection of molecular and clinical data, making it possible to conduct a bioinformatic comparative analysis of HFpEF and HFrEF. Here, I first evaluated the field of HF transcriptome research by revisiting published studies and data sets to provide a consensus gene expression reference. I discussed the patient clientele that was captured, revealing that HFpEF patients were not represented. Thus, I applied alternative approaches to study HFpEF. I utilized a mouse surrogate model of HFpEF and analyzed single cell transcriptomics to gain insights into the interstitial tissue remodeling. I contrasted this analysis by comparison of fibroblast activation patterns found in mouse models resembling HFrEF. The human reference was used to further demonstrate similarities between models and patients and a novel possible biomarker for HFpEF was introduced. Mouse models only capture selected aspects of HFpEF but largely fail to imitate the complex multi-factor and multi-organ syndrome present in humans. To account for this complexity, I performed a top-down analysis in HF patients by analyzing phenome-wide comorbidity patterns. I derived clinical insights by contrasting HFpEF and HFrEF patients and their comorbidity profiles. These profiles were then used to predict associated genetic profiles, which could be also recovered in the HFpEF mouse model, providing hypotheses about the molecular links of comorbidity profiles. My work provided novel insights into HFpEF and HFrEF syndromes and exemplified an interdisciplinary bioinformatic approach for a comparative analysis of both syndromes using different data modalities

    A Robust Unified Graph Model Based on Molecular Data Binning for Subtype Discovery in High-dimensional Spaces

    Get PDF
    Machine learning (ML) is a subfield of artificial intelligence (AI) that has already revolutionised the world around us. It is a widely employed process for discovering patterns and groups within datasets. It has a wide range of applications including disease subtyping, which aims to discover intrinsic subtypes of disease in large-scale unlabelled data. Whilst the groups discovered in multi-view high-dimensional data by ML algorithms are promising, their capacity to identify pertinent and meaningful groups is limited by the presence of data variability and outliers. Since outlier values represent potential but unlikely outcomes, they are statistically and philosophically fascinating. Therefore, the primary aim of this thesis was to propose a robust approach that discovers meaningful groups while considering the presence of data variability and outliers in the data. To achieve this aim, a novel robust approach (ROMDEX) was developed that utilised the proposed intermediate graph models (IMGs) for robust computation of proximity between observations in the data. Finally, a robust multi-view graph-based clustering approach was developed based on ROMDEX that improved the discovery of meaningful groups that were hidden behind the noise in the data. The proposed approach was validated on real-world, and synthetic data for disease subtyping. Additionally, the stability of the approach was assessed by evaluating its performance across different levels of noise in clustering data. The results were evaluated through Kaplan-Meier survival time analysis for disease subtyping. Also, the concordance index (CI) and normalised mutual information (NMI) are used to evaluate the predictive ability of the proposed clustering model. Additionally, the accuracy, Kappa statistic and rand index are computed to evaluate the clustering stability against various levels of Gaussian noise. The proposed approach outperformed the existing state-of-the-art approaches MRGC, PINS, SNF, Consensus Clustering, and Icluster+ on these datasets. The findings for all datasets were outstanding, demonstrating the predictive ability of the proposed unsupervised graph-based clustering approach

    A review of multi-omics data integration through deep learning approaches for disease diagnosis, prognosis, and treatment

    Get PDF
    Accurate diagnosis is the key to providing prompt and explicit treatment and disease management. The recognized biological method for the molecular diagnosis of infectious pathogens is polymerase chain reaction (PCR). Recently, deep learning approaches are playing a vital role in accurately identifying disease-related genes for diagnosis, prognosis, and treatment. The models reduce the time and cost used by wet-lab experimental procedures. Consequently, sophisticated computational approaches have been developed to facilitate the detection of cancer, a leading cause of death globally, and other complex diseases. In this review, we systematically evaluate the recent trends in multi-omics data analysis based on deep learning techniques and their application in disease prediction. We highlight the current challenges in the field and discuss how advances in deep learning methods and their optimization for application is vital in overcoming them. Ultimately, this review promotes the development of novel deep-learning methodologies for data integration, which is essential for disease detection and treatment

    Joint learning from multiple information sources for biological problems

    Get PDF
    Thanks to technological advancements, more and more biological data havebeen generated in recent years. Data availability offers unprecedented opportunities to look at the same problem from multiple aspects. It also unveils a more global view of the problem that takes into account the intricated inter-play between the involved molecules/entities. Nevertheless, biological datasets are biased, limited in quantity, and contain many false-positive samples. Such challenges often drastically downgrade the performance of a predictive model on unseen data and, thus, limit its applicability in real biological studies. Human learning is a multi-stage process in which we usually start with simple things. Through the accumulated knowledge over time, our cognition ability extends to more complex concepts. Children learn to speak simple words before being able to formulate sentences. Similarly, being able to speak correct sentences supports our learning to speak correct and meaningful paragraphs, etc. Generally, knowledge acquired from related learning tasks would help boost our learning capability in the current task. Motivated by such a phenomenon, in this thesis, we study supervised machine learning models for bioinformatics problems that can improve their performance through exploiting multiple related knowledge sources. More specifically, we concern with ways to enrich the supervised models’ knowledge base with publicly available related data to enhance the computational models’ prediction performance. Our work shares commonality with existing works in multimodal learning, multi-task learning, and transfer learning. Nevertheless, there are certain differences in some cases. Besides the proposed architectures, we present large-scale experiment setups with consensus evaluation metrics along with the creation and release of large datasets to showcase our approaches’ superiority. Moreover, we add case studies with detailed analyses in which we place no simplified assumptions to demonstrate the systems’ utilities in realistic application scenarios. Finally, we develop and make available an easy-to-use website for non-expert users to query the model’s generated prediction results to facilitate field experts’ assessments and adaptation. We believe that our work serves as one of the first steps in bridging the gap between “Computer Science” and “Biology” that will open a new era of fruitful collaboration between computer scientists and biological field experts
    corecore