97 research outputs found

    Data- og ekspertdreven variabelseleksjon for prediktive modeller i helsevesenet : mot økt tolkbarhet i underbestemte maskinlæringsproblemer

    Get PDF
    Modern data acquisition techniques in healthcare generate large collections of data from multiple sources, such as novel diagnosis and treatment methodologies. Some concrete examples are electronic healthcare record systems, genomics, and medical images. This leads to situations with often unstructured, high-dimensional heterogeneous patient cohort data where classical statistical methods may not be sufficient for optimal utilization of the data and informed decision-making. Instead, investigating such data structures with modern machine learning techniques promises to improve the understanding of patient health issues and may provide a better platform for informed decision-making by clinicians. Key requirements for this purpose include (a) sufficiently accurate predictions and (b) model interpretability. Achieving both aspects in parallel is difficult, particularly for datasets with few patients, which are common in the healthcare domain. In such cases, machine learning models encounter mathematically underdetermined systems and may overfit easily on the training data. An important approach to overcome this issue is feature selection, i.e., determining a subset of informative features from the original set of features with respect to the target variable. While potentially raising the predictive performance, feature selection fosters model interpretability by identifying a low number of relevant model parameters to better understand the underlying biological processes that lead to health issues. Interpretability requires that feature selection is stable, i.e., small changes in the dataset do not lead to changes in the selected feature set. A concept to address instability is ensemble feature selection, i.e. the process of repeating the feature selection multiple times on subsets of samples of the original dataset and aggregating results in a meta-model. This thesis presents two approaches for ensemble feature selection, which are tailored towards high-dimensional data in healthcare: the Repeated Elastic Net Technique for feature selection (RENT) and the User-Guided Bayesian Framework for feature selection (UBayFS). While RENT is purely data-driven and builds upon elastic net regularized models, UBayFS is a general framework for ensembles with the capabilities to include expert knowledge in the feature selection process via prior weights and side constraints. A case study modeling the overall survival of cancer patients compares these novel feature selectors and demonstrates their potential in clinical practice. Beyond the selection of single features, UBayFS also allows for selecting whole feature groups (feature blocks) that were acquired from multiple data sources, as those mentioned above. Importance quantification of such feature blocks plays a key role in tracing information about the target variable back to the acquisition modalities. Such information on feature block importance may lead to positive effects on the use of human, technical, and financial resources if systematically integrated into the planning of patient treatment by excluding the acquisition of non-informative features. Since a generalization of feature importance measures to block importance is not trivial, this thesis also investigates and compares approaches for feature block importance rankings. This thesis demonstrates that high-dimensional datasets from multiple data sources in the medical domain can be successfully tackled by the presented approaches for feature selection. Experimental evaluations demonstrate favorable properties of both predictive performance, stability, as well as interpretability of results, which carries a high potential for better data-driven decision support in clinical practice.Moderne datainnsamlingsteknikker i helsevesenet genererer store datamengder fra flere kilder, som for eksempel nye diagnose- og behandlingsmetoder. Noen konkrete eksempler er elektroniske helsejournalsystemer, genomikk og medisinske bilder. Slike pasientkohortdata er ofte ustrukturerte, høydimensjonale og heterogene og hvor klassiske statistiske metoder ikke er tilstrekkelige for optimal utnyttelse av dataene og god informasjonsbasert beslutningstaking. Derfor kan det være lovende å analysere slike datastrukturer ved bruk av moderne maskinlæringsteknikker for å øke forståelsen av pasientenes helseproblemer og for å gi klinikerne en bedre plattform for informasjonsbasert beslutningstaking. Sentrale krav til dette formålet inkluderer (a) tilstrekkelig nøyaktige prediksjoner og (b) modelltolkbarhet. Å oppnå begge aspektene samtidig er vanskelig, spesielt for datasett med få pasienter, noe som er vanlig for data i helsevesenet. I slike tilfeller må maskinlæringsmodeller håndtere matematisk underbestemte systemer og dette kan lett føre til at modellene overtilpasses treningsdataene. Variabelseleksjon er en viktig tilnærming for å håndtere dette ved å identifisere en undergruppe av informative variabler med hensyn til responsvariablen. Samtidig som variabelseleksjonsmetoder kan lede til økt prediktiv ytelse, fremmes modelltolkbarhet ved å identifisere et lavt antall relevante modellparametere. Dette kan gi bedre forståelse av de underliggende biologiske prosessene som fører til helseproblemer. Tolkbarhet krever at variabelseleksjonen er stabil, dvs. at små endringer i datasettet ikke fører til endringer i hvilke variabler som velges. Et konsept for å adressere ustabilitet er ensemblevariableseleksjon, dvs. prosessen med å gjenta variabelseleksjon flere ganger på en delmengde av prøvene i det originale datasett og aggregere resultater i en metamodell. Denne avhandlingen presenterer to tilnærminger for ensemblevariabelseleksjon, som er skreddersydd for høydimensjonale data i helsevesenet: "Repeated Elastic Net Technique for feature selection" (RENT) og "User-Guided Bayesian Framework for feature selection" (UBayFS). Mens RENT er datadrevet og bygger på elastic net-regulariserte modeller, er UBayFS et generelt rammeverk for ensembler som muliggjør inkludering av ekspertkunnskap i variabelseleksjonsprosessen gjennom forhåndsbestemte vekter og sidebegrensninger. En case-studie som modellerer overlevelsen av kreftpasienter sammenligner disse nye variabelseleksjonsmetodene og demonstrerer deres potensiale i klinisk praksis. Utover valg av enkelte variabler gjør UBayFS det også mulig å velge blokker eller grupper av variabler som representerer de ulike datakildene som ble nevnt over. Kvantifisering av viktigheten av variabelgrupper spiller en nøkkelrolle for forståelsen av hvorvidt datakildene er viktige for responsvariablen. Tilgang til slik informasjon kan føre til at bruken av menneskelige, tekniske og økonomiske ressurser kan forbedres dersom informasjonen integreres systematisk i planleggingen av pasientbehandlingen. Slik kan man redusere innsamling av ikke-informative variabler. Siden generaliseringen av viktighet av variabelgrupper ikke er triviell, undersøkes og sammenlignes også tilnærminger for rangering av viktigheten til disse variabelgruppene. Denne avhandlingen viser at høydimensjonale datasett fra flere datakilder fra det medisinske domenet effektivt kan håndteres ved bruk av variabelseleksjonmetodene som er presentert i avhandlingen. Eksperimentene viser at disse kan ha positiv en effekt på både prediktiv ytelse, stabilitet og tolkbarhet av resultatene. Bruken av disse variabelseleksjonsmetodene bærer et stort potensiale for bedre datadrevet beslutningsstøtte i klinisk praksis

    Ανάλυση προωτεομικών δεδομένων απο φασματομετρία μάζας και ενσωμάτωσή τους με άλλα κλινικά και μοριακά δεδομένα σε κλινικά δείγματα και καρκινικές σειρές

    Get PDF
    Οι μοριακοί υπότυποι μιας ασθένειας συχνά συσχετίζονται με διαφορές ως προς την επιβίωση ή πρόοδο της νόσου και άλλοτε ως προς την απόκριση σε συγκεκριμένη θεραπεία. Την τελευταία δεκαετία, μελέτες μοριακής ταξινόμησης του ουροθηλιακού καρκίνου εστιάζουν κυρίως στον διηθητικό τύπο της ασθένειας (~20% των ασθένων στην αρχική διάγνωση) ο οποίος χαρακτηρίζεται από υψηλό κίνδυνο για μετάσταση και χαμηλά ποσοστά πενταετούς επιβίωσης. Οι παραπάνω μελέτες επέτρεψαν την ταυτοποιήση πολλαπλών γενομικών και μεταγραφικών υποτύπων οι οποίοι διαφέρουν ριζικά ως προς το μοριακό τους προφίλ, σχηματίζοντας δύο μεγάλες κατηγορίες: τους basal και τους luminal όγκους. Οι πρώτοι φαίνεται να σχετίζονται με πιο επιθετικούς καρκίνους εμπερικλείοντας όμως ένα σημαντικό ποσοστό ασθενών που ανταποκρίνονται στο βασικό χημειοθεραπευτικό σχήμα. Οι δέυτεροι (luminal) αρχικά προσδιορίστηκαν ως λιγότερο επιθετικοί, επόμενες μελέτες όμως αποκάλυψαν την σημαντική μοριακή ετερογένεια που τους χαρακτηρίζει και που αντανακλάται σε κλινικές παραμέτρους. Σήμερα, πιστέυεται ότι ο διηθητικός καρκίνος της ουροδόχου κύστης ταξινομείται σε 6 βασικούς υποτύπους, αλλά τα δεδομένα που υπάρχουν για να υποστηρίξουν την ένταξη των υποτύπων στην κλινική πράξη είναι ατελή και δεν συμφωνούν μεταξύ τους. Από την άλλη, ο μη διηθητικός τύπος της ασθενεις (~80% των περιπτώσεων στην αρχική διάγνωση) χαρακτηρίζεται από υψηλά ποσοστά υποτροπής και προόδου σε ανώτερο στάδιο καθώς και από σημαντικό δημόσιο οικονομικό κόστος εξαιτίας της αυξημένης συχνότητας παρακολούθησης που απαιτεί. Το μοριακό προφίλ του μη-διηθητικού καρκίνου έχει μελετηθεί σημαντικά λιγότερο από αυτό του διηθητικού, και μέχρι σήμερα υπάρχουν δύο μελέτες που επιχειρούν την ταξινόμησή του σε μοριακούς υποτύπους: η πρώτη στη βάση του μεταγραφώματος, η δέυτερη στη βάση της διακύμνασης αριθμού αντιγράφων. Το πρωτεομικό προφίλ όμως, τόσο του διηθητικού όσο και του μη-διηθητικού καρκίνου της ουροδόχου κύστης, μέχρι και σήμερα έχει μελετηθεί υποτυπωδώς. Σκοπός της παρούσας μελέτης είναι η διερεύνηση της ύπαρξης πρωτεομικών υποτύπων του μη διηθητικού ουροθηλιακού καρκίνου, ο μοριακός χαρακτηρισμός τους, η σχέση τους με προηγούμενα συστήματα ταξινόμησης, καθώς και η ταυτοποίηση απορυθμισμένων πρωτεϊνών και μονοπατιών με δυνητική προγνωστική αξία. Για την εξυπηρέτηση του παραπάνω σκοπού, 117 δείγματα καρκινικού ιστού από ασθενείς που πρωτοδιαγνώσθηκαν με ουροθηλιακό καρκίνο (98 μη-διηθητικό, 19 διηθητικό) συλλέχθησαν και το ολικό πρωτέομά τους απομονώθηκε και αρχικά ποσοτικοποιήθηκε με τη μέθοδο Bradford. Κατόπιν διάσπασης με θρυψίνη, τα πεπτίδια διαχωρίστηκαν σε χρωματογραφική στήλη συνδεδεμένη με φασματογράφο μάζας τύπου Orbitrap. Οι φασματικές πληροφορίες για τα πεπτίδια αναλύθηκαν με το πρόγραμμα Proteome Discoverer θέτοντας FDR (False Discovery Rate) <0.01 και αντιστοιχήθηκαν σε πρωτεινικές ταυτότητες. Η πρωτεϊνική ποσοτικοποίηση έγινε με τη χρήση των τριών πιο άφθονων και μοναδικών πεπτιδίων ανά πρωτεΐνη, ενώ κατόπιν επεξεργασίας τα πρωτεομικά δεδομένα υποβλήθηκαν σε μια σειρά από υπολογιστικές αναλύσεις: μη επιτηρούμενη k-means συσταδοποίηση, ανάλυση κύριων συνιστωσών, ανάλυση για στατιστική σημαντικόντητα πρωτεϊνών, πρωτεϊνικών μονοπατιών, βιολογικών λειτουργιών και γονιδιακής έκφρασης καθώς και στην μοντελοιποίηση ενός μοριακού ταξινομητή Radnom Forest. Μέγιστη σταθερότητα συσταδοποίησης επιτεύχηκε για κ = 3 ομάδες, υποδηλώνοντας την ύπαρξη τριών πρωτεομικών υποτύπων στα δεδομένα. Η ομάδα 1 ήταν η μικρότερη σε μέγεθος (17/98), περιείχε κυρίως καρκίνους υψηλού σταδίου, αλλοίωσης και ρίσκου και παρουσίασε ένα μοριακό φαινότυπο ανοσοδιήθησης με υψηλά επιπέδα των μεταγραφικών παραγόντων STAT1, STAT3 και SND1, καθώς και πρωτεϊνων της αντιγονοπαρουσίασης, υποδηλώνοντας ενεργή ανταλλαγή πληροφοριών μεταξύ του ανοσοποιητικού και των καρκινικών κυττάρων. Παράλληλα, χαρακτηρίζονταν απο υψηλότερες ποσότητες πρωτεϊνών που συμμετέχουν στο κυτταρικό κύκλο, και στη μετάδοση στρεσογόνων σημάτων (αντίδραση μη αναδιπλωμένης πρωτεϊνης και επιδιόρθωση βλαβών του DNA). Η όμαδα 2 συγκέντρωσε ασθενείς με ποικίλα κλινικά χαρακτηριστικά που όμως έφεραν κοινώς, αυξημένες ποσότητες εξωκυττάριων πρωτεϊνών (στρώματος), και χαμηλά επιθηλιακά σήματα. Οι ασθενείς στην ομάδα 3 παρουσίασαν έναν πιο διαφοροποιημένο μοριακό φαινότυπο με υψηλότερα επίπεδα (UPKs και KRT20 κάθως και CDH1) που συμβαδίζει με τα κλινικά χαρακτηριστικά τους αφού οι περισσότεροι διαγιγνώσθηκαν με καρκίνους χαμηλού σταδίου και κινδύνου. Η ανάλυση για ενεργοποιημένα πρωτεϊνικά μονοπάτια έδειξε ότι οι ασθενείς της ομάδας 1 έιχαν ενεργή σηματοδότηση για βιοσυνθετικές διεργασίες, για ιντερφερόνη-γ, και αυξημένη δραστηριότητα των μεταγραφικών παραγόντων MYC και E2F, που ελέγχουν θετικά τον κυτταρικό κύκλο. Από την άλλη οι ασθνενείς της ομάδας 3 σχετίστηκαν με ενεργοποίηση μεταβολικών μονοπατιών όπως αυτό της αποτοξίνωσης μεσολαβούμενο από γλουταθειόνη καθώς και της γλυκογονόλυσης – γλυκόλυσης, αλλά και της απόπτωσης. Συγκρίνοντας το πρωτεομικό προφιλ των ασθένων με μη-διηθητικό καρκίνο με ασθενέις που είχαν διηθητικό καρκίνο χρησιμοποιώντας ανάλυση κύριων συνιστωσών, αποκαλύφθηκε κοντινή σχέση της ομάδας 1 με ασθενείς που έφεραν διηθητικό ουροθηλιακό καρκίνο και αντίστροφα, μακρινή σχέση της ομάδας 3 με τους τελευταίους. Η ομάδα 2 εμφάνισε μεγάλη διασπορά επικαλύπτοντας περιοχές των προηγούμενων δύο ομάδων. Για την επικύρωση των πρωτεομικών αποτελεσμάτων, δεδομένα από μεταγραφικές έρευνες (UROMOL και LUND) αναλύθηκαν αναδρομικά. Στην UROMOL έρευνα επίσης ταυτοποιήθηκαν 3 υπότυποι ο ένας εκ των οποίων συγκέντρωσε τους περισσότερους ασθενείς με πρόδοο σε ανώτερο στάδιο (κακής πρόγνωσης υπότυπος). Συγκριτική ανάλυση μεταξύ των τριών πρωτεομικών ομάδων και των τριών υποτύπων της UROMOL έρευνας με το στατιστικό εργαλείο GSEA, έδειξε στατιστικώς σημαντικές φαινοτυπικές ομοιότητες μεταξύ της πρωτεομικής ομάδας 1 και του υποτύπου «κακής» πρόγνωσης της UROMOL καθώς και μεταξύ της πρωτεομικής ομάδας 3 και του υποτύπου «καλής πρόγνωσης». Χρησιμοποιώντας έναν μη επιτηρούμενο μοριακό ταξινομητή Random Forest, οι υψηλού κινδύνου και χαμηλού κινδύνου φαινότυποι των πρωτεομικών ομάδων 1 και 3, επιβεβαιώθηκαν ύστερα από την ταξινόμηση των ασθενών στους υποτύπους «κακής» και «καλής» πρόγνωσης αντίστοιχα, της UROMOL έρευνας. Στατιστικώς σημαντικες πρωτεΐνες που ξεχωρίζουν αυτές τις δυο ακραίες πρωτεομικές ομάδες αλλά και ταυτόχρονα τον διηθητικό από τον μη διηθητικό καρκίνο βρέθηκαν να διαφέρουν σημαντικά και στο επίπεδο του μεταγραφώματος μεταξύ των ομάδων «κακής» και «καλής» πρόγνωσης σε δύο ανεξάρτητες έρευνες (UROMOL και LUND). Τα παραπάνω μόρια συμμετέχουν σε βιολογικές λειτουργίες-κλειδιά για την ανάπτυξη του μη-διηθητικού καρκίνου, όπως στην επαγωγή αποκρίσεων πρωτεϊνικής σταθερότητας, στη σηματοδότηση κυτοκινών και ιντερφερονών, στην αντιγονοπαρουσίαση, στην επεξεργασία πρώιμων mRNAs, σε μετα-μεταφραστικές τροποποιήσεις αλλά και σε μονοπάτια κυτταρικής αύξησης. Συνολικά, η παρούσα μελέτη ταυτοποιεί τρεις πρωτεομικούς υποτύπους του μη διηθητικού καρκίνου και ακολουθώντας μια σύγκριτική ανάλυση με δύο ανεξάρτητες μεταγραφικές έρευνες, παρέχει ομάδες μορίων που μπορεί να οδηγούν τη πρόοδο του καρκίνου και που χρειάζονται επιπλέον επικύρωση στη κλινική πράξη.DNA/RNA-based classification of Bladder Cancer (BC) supports the existence of multiple molecular subtypes, while investigations at the protein level are scarce. The purpose of this study was to investigate if Non-Muscle Invasive Bladder Cancer (NMIBC) can be stratified to biologically meaningful proteomic groups, to establish associations between the proteomics subtypes and previous transcriptomics classification systems and to characterize the continuum of transcriptomics alterations observed in the different stages of the disease. Subsequently, tissue specimens from 117 patients at primary diagnosis (98 with NMIBC and 19 with MIBC), were processed for high resolution LC-MS/MS analysis. Protein quantification was conducted by utilizing the mean abundance of the top three most abundant unique peptides per protein. The proteomics output was subjected to unsupervised consensus clustering, principal component analysis (PCA), and investigation of subtype-specific features, pathways, and genesets, as well as for the construction and validation of a Random Forest based classifier. NMIBC patients were optimally stratified to 3 proteomic subtypes (classes), differing at size, clinico-pathological and molecular backgrounds: Class 1 (mostly high stage/grade/risk samples) was the smallest in size (17/98) and expressed an immune/inflammatory phenotype, along with features involved in cell proliferation, unfolded protein response and DNA damage response, whereas class 2 (mixed stage/grade/risk composition) presented with an infiltrated/mesenchymal profile. Class 3 was rich in luminal/differentiation markers, in line with its pathological composition (mostly low stage/grade/risk samples). PCA revealed a close proximity of class 1 and conversely, remoteness of class 3 to the proteome of MIBC. Samples from class 2 were distributed in a wider fashion at the rotated space. Comparative analysis with GSEA between the three proteomic classes and the three UROMOL subtypes indicated statistically significant associations between the proteomics class 1 and UROMOL subtype 2 (subtype with a bad prognosis) and also between the proteomics class 3 and UROMOL subtype 1 (subtype with the best prognosis). Utilizing a Random Forest based classifier, the predicted high- and low-risk phenotypes for the proteomic class 1 and class 3, were further supported by their classification into the “progressed” and “non-progressed” subtypes of the UROMOL study, respectively. Statistically significant proteins distinguishing these two extreme classes (1 and 3) and also MIBC from NMIBC samples were found to consistently differ at the mRNA levels between NMIBC “Progressors” and “Non-Progressors” groups of the UROMOL and LUND cohorts. Functional assessment of the observed molecular de-regulations suggested severe pathway alterations at unfolded protein response, cytokine and inferferone-γ signaling, antigen presentation, mRNA processing, post translational modifications and in cell growth/division. Collectively, this study identifies three proteomic NMIBC subtypes and following a cross-omics analysis using transcriptomic data from two independent cohorts, shortlists molecular features potentially driving non-invasive carcinogenesis, meriting further validation in clinical trials

    Modelling the genomic structure, and antiviral susceptibility of Human Cytomegalovirus

    Get PDF
    Human Cytomegalovirus (HCMV) is found ubiquitously in humans worldwide, and once acquired, the infection persists within the host throughout their life. Although Immunocompetent people rarely are affected by HCMV infections, their related diseases pose a major health problem worldwide for those with compromised or suppressed immune systems such as transplant recipients. Additionally, congenital transmission of HCMV is the most common infectious cause of birth defects globally and is associated with a substantial economic burden. This thesis explores the application of statistical modelling and genomics to unpick three key areas of interest in HCMV research. First, a comparative genomics analysis of global HCMV strains was undertaken to delineate the molecular population structure of this highly variable virus. By including in-house sequenced viruses of African origin and by developing a statistical framework to deconvolute highly variable regions of the genome, novel and important insights into the co-evolution of HCMV with its host were uncovered. Second, a rich database relating mutations to drug sensitivity was curated for all the antiviral treated herpesviruses. This structured information along with the development of a mutation annotation pipeline, allowed the further development of statistical models that predict the phenotype of a virus from its sequence. The predictive power of these models was validated for HSV1 by using external unseen mutation data provided in collaboration with the UK Health Security Agency. Finally, a nonlinear mixed effects model, expanded to account for Ganciclovir pharmacokinetics and pharmacodynamics, was developed by making use of rich temporal HCMV viral load data. This model allowed the estimation of the impact of immune-clearance versus antiviral inhibition in controlling HCMV lytic replication in already established infections post-haematopoietic stem cell transplant

    A Colour Wheel to Rule them All: Analysing Colour & Geometry in Medical Microscopy

    Get PDF
    Personalized medicine is a rapidly growing field in healthcare that aims to customize medical treatments and preventive measures based on each patient’s unique characteristics, such as their genes, environment, and lifestyle factors. This approach acknowledges that people with the same medical condition may respond differently to therapies and seeks to optimize patient outcomes while minimizing the risk of adverse effects. To achieve these goals, personalized medicine relies on advanced technologies, such as genomics, proteomics, metabolomics, and medical imaging. Digital histopathology, a crucial aspect of medical imaging, provides clinicians with valuable insights into tissue structure and function at the cellular and molecular levels. By analyzing small tissue samples obtained through minimally invasive techniques, such as biopsy or aspirate, doctors can gather extensive data to evaluate potential diagnoses and clinical decisions. However, digital analysis of histology images presents unique challenges, including the loss of 3D information and stain variability, which is further complicated by sample variability. Limited access to data exacerbates these challenges, making it difficult to develop accurate computational models for research and clinical use in digital histology. Deep learning (DL) algorithms have shown significant potential for improving the accuracy of Computer-Aided Diagnosis (CAD) and personalized treatment models, particularly in medical microscopy. However, factors such as limited generability, lack of interpretability, and bias sometimes hinder their clinical impact. Furthermore, the inherent variability of histology images complicates the development of robust DL methods. Thus, this thesis focuses on developing new tools to address these issues. Our essential objective is to create transparent, accessible, and efficient methods based on classical principles from various disciplines, including histology, medical imaging, mathematics, and art, to tackle microscopy image registration and colour analysis successfully. These methods can contribute significantly to the advancement of personalized medicine, particularly in studying the tumour microenvironment for diagnosis and therapy research. First, we introduce a novel automatic method for colour analysis and non-rigid histology registration, enabling the study of heterogeneity morphology in tumour biopsies. This method achieves accurate tissue cut registration, drastically reducing landmark distance and excellent border overlap. Second, we introduce ABANICCO, a novel colour analysis method that combines geometric analysis, colour theory, fuzzy colour spaces, and multi-label systems for automatically classifying pixels into a set of conventional colour categories. ABANICCO outperforms benchmark methods in accuracy and simplicity. It is computationally straightforward, making it useful in scenarios involving changing objects, limited data, unclear boundaries, or when users lack prior knowledge of the image or colour theory. Moreover, results can be modified to match each particular task. Third, we apply the acquired knowledge to create a novel pipeline of rigid histology registration and ABANICCO colour analysis for the in-depth study of triple-negative breast cancer biopsies. The resulting heterogeneity map and tumour score provide valuable insights into the composition and behaviour of the tumour, informing clinical decision-making and guiding treatment strategies. Finally, we consolidate the developed ideas into an efficient pipeline for tissue reconstruction and multi-modality data integration on Tuberculosis infection data. This enables accurate element distribution analysis to understand better interactions between bacteria, host cells, and the immune system during the course of infection. The methods proposed in this thesis represent a transparent approach to computational pathology, addressing the needs of medical microscopy registration and colour analysis while bridging the gap between clinical practice and computational research. Moreover, our contributions can help develop and train better, more robust DL methods.En una época en la que la medicina personalizada está revolucionando la asistencia sanitaria, cada vez es más importante adaptar los tratamientos y las medidas preventivas a la composición genética, el entorno y el estilo de vida de cada paciente. Mediante el empleo de tecnologías avanzadas, como la genómica, la proteómica, la metabolómica y la imagen médica, la medicina personalizada se esfuerza por racionalizar el tratamiento para mejorar los resultados y reducir los efectos secundarios. La microscopía médica, un aspecto crucial de la medicina personalizada, permite a los médicos recopilar y analizar grandes cantidades de datos a partir de pequeñas muestras de tejido. Esto es especialmente relevante en oncología, donde las terapias contra el cáncer se pueden optimizar en función de la apariencia tisular específica de cada tumor. La patología computacional, un subcampo de la visión por ordenador, trata de crear algoritmos para el análisis digital de biopsias. Sin embargo, antes de que un ordenador pueda analizar imágenes de microscopía médica, hay que seguir varios pasos para conseguir las imágenes de las muestras. La primera etapa consiste en recoger y preparar una muestra de tejido del paciente. Para que esta pueda observarse fácilmente al microscopio, se corta en secciones ultrafinas. Sin embargo, este delicado procedimiento no está exento de dificultades. Los frágiles tejidos pueden distorsionarse, desgarrarse o agujerearse, poniendo en peligro la integridad general de la muestra. Una vez que el tejido está debidamente preparado, suele tratarse con tintes de colores característicos. Estos tintes acentúan diferentes tipos de células y tejidos con colores específicos, lo que facilita a los profesionales médicos la identificación de características particulares. Sin embargo, esta mejora en visualización tiene un alto coste. En ocasiones, los tintes pueden dificultar el análisis informático de las imágenes al mezclarse de forma inadecuada, traspasarse al fondo o alterar el contraste entre los distintos elementos. El último paso del proceso consiste en digitalizar la muestra. Se toman imágenes de alta resolución del tejido con distintos aumentos, lo que permite su análisis por ordenador. Esta etapa también tiene sus obstáculos. Factores como una calibración incorrecta de la cámara o unas condiciones de iluminación inadecuadas pueden distorsionar o hacer borrosas las imágenes. Además, las imágenes de porta completo obtenidas so de tamaño considerable, complicando aún más el análisis. En general, si bien la preparación, la tinción y la digitalización de las muestras de microscopía médica son fundamentales para el análisis digital, cada uno de estos pasos puede introducir retos adicionales que deben abordarse para garantizar un análisis preciso. Además, convertir un volumen de tejido completo en unas pocas secciones teñidas reduce drásticamente la información 3D disponible e introduce una gran incertidumbre. Las soluciones de aprendizaje profundo (deep learning, DL) son muy prometedoras en el ámbito de la medicina personalizada, pero su impacto clínico a veces se ve obstaculizado por factores como la limitada generalizabilidad, el sobreajuste, la opacidad y la falta de interpretabilidad, además de las preocupaciones éticas y en algunos casos, los incentivos privados. Por otro lado, la variabilidad de las imágenes histológicas complica el desarrollo de métodos robustos de DL. Para superar estos retos, esta tesis presenta una serie de métodos altamente robustos e interpretables basados en principios clásicos de histología, imagen médica, matemáticas y arte, para alinear secciones de microscopía y analizar sus colores. Nuestra primera contribución es ABANICCO, un innovador método de análisis de color que ofrece una segmentación de colores objectiva y no supervisada y permite su posterior refinamiento mediante herramientas fáciles de usar. Se ha demostrado que la precisión y la eficacia de ABANICCO son superiores a las de los métodos existentes de clasificación y segmentación del color, e incluso destaca en la detección y segmentación de objetos completos. ABANICCO puede aplicarse a imágenes de microscopía para detectar áreas teñidas para la cuantificación de biopsias, un aspecto crucial de la investigación de cáncer. La segunda contribución es un método automático y no supervisado de segmentación de tejidos que identifica y elimina el fondo y los artefactos de las imágenes de microscopía, mejorando así el rendimiento de técnicas más sofisticadas de análisis de imagen. Este método es robusto frente a diversas imágenes, tinciones y protocolos de adquisición, y no requiere entrenamiento. La tercera contribución consiste en el desarrollo de métodos novedosos para registrar imágenes histopatológicas de forma eficaz, logrando el equilibrio adecuado entre un registro preciso y la preservación de la morfología local, en función de la aplicación prevista. Como cuarta contribución, los tres métodos mencionados se combinan para crear procedimientos eficientes para la integración completa de datos volumétricos, creando visualizaciones altamente interpretables de toda la información presente en secciones consecutivas de biopsia de tejidos. Esta integración de datos puede tener una gran repercusión en el diagnóstico y el tratamiento de diversas enfermedades, en particular el cáncer de mama, al permitir la detección precoz, la realización de pruebas clínicas precisas, la selección eficaz de tratamientos y la mejora en la comunicación el compromiso con los pacientes. Por último, aplicamos nuestros hallazgos a la integración multimodal de datos y la reconstrucción de tejidos para el análisis preciso de la distribución de elementos químicos en tuberculosis, lo que arroja luz sobre las complejas interacciones entre las bacterias, las células huésped y el sistema inmunitario durante la infección tuberculosa. Este método también aborda problemas como el daño por adquisición, típico de muchas modalidades de imagen. En resumen, esta tesis muestra la aplicación de métodos clásicos de visión por ordenador en el registro de microscopía médica y el análisis de color para abordar los retos únicos de este campo, haciendo hincapié en la visualización eficaz y fácil de datos complejos. Aspiramos a seguir perfeccionando nuestro trabajo con una amplia validación técnica y un mejor análisis de los datos. Los métodos presentados en esta tesis se caracterizan por su claridad, accesibilidad, visualización eficaz de los datos, objetividad y transparencia. Estas características los hacen perfectos para tender puentes robustos entre los investigadores de inteligencia artificial y los clínicos e impulsar así la patología computacional en la práctica y la investigación médicas.Programa de Doctorado en Ciencia y Tecnología Biomédica por la Universidad Carlos III de MadridPresidenta: María Jesús Ledesma Carbayo.- Secretario: Gonzalo Ricardo Ríos Muñoz.- Vocal: Estíbaliz Gómez de Marisca

    Collected Papers (Neutrosophics and other topics), Volume XIV

    Get PDF
    This fourteenth volume of Collected Papers is an eclectic tome of 87 papers in Neutrosophics and other fields, such as mathematics, fuzzy sets, intuitionistic fuzzy sets, picture fuzzy sets, information fusion, robotics, statistics, or extenics, comprising 936 pages, published between 2008-2022 in different scientific journals or currently in press, by the author alone or in collaboration with the following 99 co-authors (alphabetically ordered) from 26 countries: Ahmed B. Al-Nafee, Adesina Abdul Akeem Agboola, Akbar Rezaei, Shariful Alam, Marina Alonso, Fran Andujar, Toshinori Asai, Assia Bakali, Azmat Hussain, Daniela Baran, Bijan Davvaz, Bilal Hadjadji, Carlos Díaz Bohorquez, Robert N. Boyd, M. Caldas, Cenap Özel, Pankaj Chauhan, Victor Christianto, Salvador Coll, Shyamal Dalapati, Irfan Deli, Balasubramanian Elavarasan, Fahad Alsharari, Yonfei Feng, Daniela Gîfu, Rafael Rojas Gualdrón, Haipeng Wang, Hemant Kumar Gianey, Noel Batista Hernández, Abdel-Nasser Hussein, Ibrahim M. Hezam, Ilanthenral Kandasamy, W.B. Vasantha Kandasamy, Muthusamy Karthika, Nour Eldeen M. Khalifa, Madad Khan, Kifayat Ullah, Valeri Kroumov, Tapan Kumar Roy, Deepesh Kunwar, Le Thi Nhung, Pedro López, Mai Mohamed, Manh Van Vu, Miguel A. Quiroz-Martínez, Marcel Migdalovici, Kritika Mishra, Mohamed Abdel-Basset, Mohamed Talea, Mohammad Hamidi, Mohammed Alshumrani, Mohamed Loey, Muhammad Akram, Muhammad Shabir, Mumtaz Ali, Nassim Abbas, Munazza Naz, Ngan Thi Roan, Nguyen Xuan Thao, Rishwanth Mani Parimala, Ion Pătrașcu, Surapati Pramanik, Quek Shio Gai, Qiang Guo, Rajab Ali Borzooei, Nimitha Rajesh, Jesús Estupiñan Ricardo, Juan Miguel Martínez Rubio, Saeed Mirvakili, Arsham Borumand Saeid, Saeid Jafari, Said Broumi, Ahmed A. Salama, Nirmala Sawan, Gheorghe Săvoiu, Ganeshsree Selvachandran, Seok-Zun Song, Shahzaib Ashraf, Jayant Singh, Rajesh Singh, Son Hoang Le, Tahir Mahmood, Kenta Takaya, Mirela Teodorescu, Ramalingam Udhayakumar, Maikel Y. Leyva Vázquez, V. Venkateswara Rao, Luige Vlădăreanu, Victor Vlădăreanu, Gabriela Vlădeanu, Michael Voskoglou, Yaser Saber, Yong Deng, You He, Youcef Chibani, Young Bae Jun, Wadei F. Al-Omeri, Hongbo Wang, Zayen Azzouz Omar

    International Conference on Mathematical Analysis and Applications in Science and Engineering – Book of Extended Abstracts

    Get PDF
    The present volume on Mathematical Analysis and Applications in Science and Engineering - Book of Extended Abstracts of the ICMASC’2022 collects the extended abstracts of the talks presented at the International Conference on Mathematical Analysis and Applications in Science and Engineering – ICMA2SC'22 that took place at the beautiful city of Porto, Portugal, in June 27th-June 29th 2022 (3 days). Its aim was to bring together researchers in every discipline of applied mathematics, science, engineering, industry, and technology, to discuss the development of new mathematical models, theories, and applications that contribute to the advancement of scientific knowledge and practice. Authors proposed research in topics including partial and ordinary differential equations, integer and fractional order equations, linear algebra, numerical analysis, operations research, discrete mathematics, optimization, control, probability, computational mathematics, amongst others. The conference was designed to maximize the involvement of all participants and will present the state-of- the-art research and the latest achievements.info:eu-repo/semantics/publishedVersio

    Towards Robust Machine Learning for Health Applications

    Get PDF
    Methoden des maschinellen Lernens haben über die letzten Jahrzehnte beeindruckende technologische Fortschritte ermöglicht und haben das Potenzial, viele Aspekte unseres Lebens nachhaltig zu verändern. Besonders vielversprechend ist maschinelles Lernen im Gesundheitsbereich. Hier kann es unser Verständnis immer komplexerer Gesundheitsdaten vertiefen, Prozesse wie Diagnostik und Risikoeinschätzung beschleunigen sowie deren Objektivität erhöhen, und eine personalisiertere medizinische Versorgung ermöglichen. Zugleich steht maschinelles Lernen im Gesundheitsbereich vor besonderen Herausforderungen. Gesundheitsdaten sind häufig zeitabhängig und heterogen, über mehrere Institutionen verteilt und nur in begrenztem Umfang für spezifische Modellierungsanwendungen zugänglich. Infolgedessen erfordert das maschinelle Lernen für den Gesundheitsbereich grundsätzlich robuste Methoden, die für heterogene und im Umfang begrenzte Daten geeignet sind, sowie besonders auf die jeweilige Anwendung zugeschnittene Modelle. Diese Dissertation umfasst Beiträge zu beiden dieser Aspekte. Sie enthält neue Methoden zur unüberwachten Domänenadaptation, die speziell für hochdimensionale molekulare Gesundheitsdaten entwickelt wurden und eine genauere Vorhersage über heterogene Datensätze hinweg ermöglichen. Als konkretes Anwendungsbeispiel wurden diese Methoden auf das Problem der Altersvorhersage basierend auf DNA-Methylierungsdaten über Gewebe hinweg angewandt. Im Vergleich zu einem nicht-adaptiven Referenzmodell verbesserten sie hierbei die Vorhersage auf einem Gewebe, das nicht zum Trainieren der Modelle verwendet wurde. Zusätzlich enthält diese Dissertation robuste Modelle zur Analyse von Daten einer frühen klinischen Studie, die die Verwendung von breitneutralisierenden Antikörpern zur Behandlung von HIV untersuchte. Hier wurden Modelle und Methoden gewählt, die trotz des begrenzten Stichprobenumfangs Heterogenität zwischen Patientengruppen berücksichtigen konnten. Ein weiterer anwendungsspezifischer Beitrag war die Entwicklung robuster Modelle zur zeitabhängigen Vorhersage der Mortalität sowie einer Cytomegalievirus-Reaktivierung nach hämatopoetischer Stammzelltransplantation. Diese Modelle wurden in einer prospektiven, nicht-interventionellen klinischen Studie validiert und generierten in einem Pilot-Vergleich eine ähnliche genaue Vorhersage wie die Einschätzung erfahrener Kliniker. Zusätzlich unterstützte diese Dissertation die Entwicklung der XplOit-Plattform, einer Software-Plattform, die robustes maschinelles Lernen für den Gesundheitsbereich durch die semantische Integration heterogener Daten erleichtert.Machine learning has enabled striking technological advances over the last decades and has the potential to transform many aspects of our lives. Its application is especially promising in the health domain, where it can improve our understanding of increasingly complex health data, accelerate processes such as diagnosis or risk assessment while also making them more objective, and enable a more personalized approach to medicine. At the same time, machine learning for health faces particular challenges. Health data is often temporal and heterogeneous, distributed across many institutions, and accessible only in modest amounts for a specific machine learning application. Consequently, machine learning for health requires generally robust methods capable of handling heterogeneous and limited data and models that are well-tailored to the task at hand. This thesis contributes to both of these aspects. It includes new methods for unsupervised domain adaptation, which were designed for high-dimensional molecular health data and improved prediction across heterogeneous datasets. As a concrete application example, these methods were applied to the problem of age prediction from DNA methylation data across tissues, where they improved age prediction on a tissue not used for model training compared to a non-adaptive reference model. In addition, this thesis includes robust models for the analysis of data from an early clinical trial evaluating the use of broadly neutralizing antibodies for the treatment of HIV, which were suitable to account for heterogeneity between patient groups despite a limited sample size. Another application-specific contribution was the development of robust models for the time-dependent prediction of mortality and early cytomegalovirus reactivation after hematopoietic cell transplantation. These models were validated in a prospective non-interventional clinical trial and demonstrated similar performance as experienced physicians in a pilot comparison. Finally, this thesis supported the development of the XplOit platform, a software platform that facilitates robust machine learning for health by semantically integrating heterogeneous datasets

    Algorithms for cancer genome data analysis - Learning techniques for ITH modeling and gene fusion classification

    Get PDF
    L'abstract è presente nell'allegato / the abstract is in the attachmen
    corecore