Radiogenomics machine learning analyses for treatment personalization of locally advanced head and neck squamous cell carcinoma

Abstract

Cancer treatment personalisation is a major objective in radiation oncology, e.g., in order to move from population-based approaches towards tailored interventions such as dose escalation or de-escalation for specific patients or subgroups. HNSCC is a tumour entity that might particularly benefit from such an approach due to survival rates remaining relatively uniform over time even with multimodal treatment. A personalised approach requires biomarker identification to precisely characterize the tumour phenotype and thus prognosticate patient outcome and response to treatment. Biomarkers can be derived from a wide range of sources: clinical records of patients with semantic features, omics data from tumour biopsies indicating patient gene expression and routinely-taken imaging data from which radiomics features might be extracted. Such data can be then be leveraged alongside machine learning algorithms for modelling of various endpoints. The present thesis was dedicated not only towards establishing prognostic models within locally-advanced HNSCC but also towards a radiogenomic study of the relationship and interplay between image-level information and transcriptome-level information. First, two prognostic signatures for LRC within locally-advanced HNSCC were developed and externally validated through specific feature selection and modelling algorithms suggested through previous work (Leger et al, 2020). As biomarkers should take into account various sources of data, such signatures were built around a highly-prognostic clinical feature: the tumour volume. The selected features supplied statistical or textural information related to tumour heterogeneity and were chosen to provide non-redundant information to the tumour volume. Such an approach is aimed at providing added value to already-validated biomarkers and avoids susceptibilities within radiomics signature development (Welch et al.,2019) such as unspecified dependencies and multi-collinearity within models. One longstanding question within radiomics is the relationship between macroscopic-level image features and underlying biological processes (Aerts et al., 2014). In order to answer this question within the context of locally-advanced HNSCC and CT-based radiomics, surrogacy models were developed for six different gene signatures representing different tumour characteristics such as hypoxia or EMT. All modelling approaches showed low to no relationship between expression of such gene signatures and whole-tumour macroscopic imaging features. This might suggest that while whole-tumour radiomics has shown potential for prognostic endpoint modelling, such features may lack potential to serve as surrogates for local assessments of hypoxia or other microscopic tumour characteristics from a biopsy. While whole-tumour radiomics features may not be able to serve as surrogates for specific, microscopic-level tumour characteristics, they might still be used as surrogates for molecular subtyping within HNSCC as has been done in other tumour entities. Models for the classification of the four HNSCC subtypes (atypical, basal, classical and mesenchymal) were developed. Models differentiating the atypical subtype from the others and the atypical from the mesenchymal subtype were externally validated. As not all four subtypes could be properly classified, this might imply that some subtypes are more similar than others on a CT-level and that the atypical subtype would be the most differentiable subtype. As radiomics features showed low association with individual gene expressions, such omics features might be used to bolster radiomics features for LRC prognosis. However, due to the extremely high dimensionality of omics datasets in comparison to sample size, three methods for expression aggregation were leveraged to find either prognostic regulator genes with VIPER, prognostic coregulated gene modules (WCGNA) or prognostic pathway-level metagenes (GSVA). Enhancement of prognostic performance and stratification for LRC was found with the GSVA approach, through metagenes signifying E2F target activity and hedgehog pathway activity, and one WCGNA network module related to histone regulation. This result not only demonstrates the potential of transcriptomics to bolster radiomics but also of specific omics expression aggregation algorithms to synthesise new prognostic features. Finally, radiomics features were leveraged in order to create and externally validate radiophenotypes for HNSCC, creating five radiophenotypes that showed not only different imaging patterns but also different pathway-level expressions and prognosis for LRC and OS. Of those five radiophenotypes, three were able to be translated into an external validation cohort. However, not all translatable radiophenotypes showed similar stratification between cohorts for all endpoints. This, alongside with different expression levels between cohorts, might signify that one radiophenotype points to different levels of expression of different pathways, thus resulting in significantly different stratification for patients with similar imaging patterns. The field of radiogenomics analysis is, however, still in its infancy and offers a fascinating variety of open research questions for further consideration and study, e.g., promising deep-learning architectures such as transformers combining both image and tabular data (Park et al., 2022), multiomics biomarkers incorporating already-existing mechanistic knowledge (Yoo et al., 2022) or region-based radiomics risk assessments (Leger et al., 2020). While individualised treatment of patients is a daunting enterprise requiring a multidisciplinary approach, in this thesis we went a step closer to this goal for locally-advanced HNSCC:Contents iii List of Figures vii List of Tables ix 1 Introduction 1 2 Theoretical background 5 2.1 Head and neck squamous cell carcinoma 5 2.1.1 Diagnosis and treatment 5 2.1.2 Tumorigenesis 6 2.1.3 Molecular characteristics of HNSCC 7 2.1.4 Biomarkers in HNSCC 7 2.2 Physical principles of computerised tomography 10 2.3 Radiomics data 11 2.3.1 Feature extraction 12 2.3.2 Feature computation 12 2.3.3 Laplacian of Gaussian (LoG) 18 2.3.4 Image perturbations and stability 18 2.4 Transcriptomics data analysis 20 2.4.1 Weighted correlation gene network analysis 21 2.4.2 Virtual inference of protein-activity enriched by regulon 22 2.4.3 Gene Set Enrichment Analysis 24 2.4.4 Gene Set Variation Analysis 25 2.5 Fundamentals of survival analysis 27 2.5.1 Cox proportional hazards model 28 2.5.2 Assessing the proportional hazards assumption 29 2.5.3 Performance of survival models 30 2.6 Machine learning framework 32 2.6.1 Data preprocessing 34 2.6.2 Data resampling 36 2.6.3 Feature selection 36 2.6.4 Hyperparameter optimisation 38 2.6.5 Model building 39 2.6.6 Validation 41 3 Definition and validation of a radiomics signature for LRC prognosis in HNSCC 43 3.1 Motivation 43 3.2 Data and experimental design 44 3.2.1 Patient cohort 44 3.2.2 Clinical data 45 3.2.3 Radiomics features extraction and preprocessing 45 3.2.4 Modelling approach 46 3.3 Results 47 3.3.1 Clinical signature 47 3.3.2 Unwindowed signature 48 3.3.3 Windowed signature 50 3.3.4 Windowing effect comparison 52 3.4 Summary and discussion 52 4 CT radiomics surrogacy of gene signatures 55 4.1 Motivation 55 4.2 Data and experimental methods 55 4.2.1 Patient cohort 56 4.2.2 Transcriptome feature extraction 56 4.2.3 Radiomics features extraction and preprocessing 57 4.2.4 Selected gene signatures and class assignment 57 4.2.5 Modelling approach and metrics 58 4.3 Results 59 4.3.1 Cluster classes 59 4.3.2 Surrogate model performance 59 4.4 Summary and discussion 62 5 Radiomics signatures for HNSCC subtype classification 65 5.1 Motivation 65 5.2 Data and experimental design 66 5.2.1 Patient cohort 66 5.2.2 Radiomics image feature extraction 67 5.2.3 Subtype assignment and characterisation 67 5.2.4 Modelling approach 68 5.3 Results 68 5.3.1 Subtype assignment and characterisation 68 5.3.2 OVA model results 70 5.3.3 OVO model results 72 5.3.4 Multiclass model results 73 5.4 Summary and discussion 74 6 Enhancing radiomics using transcriptome-level information 77 6.1 Motivation 77 6.2 Data and experimental design 78 6.2.1 Patient cohort 78 6.2.2 WCGNA module extraction 79 6.2.3 VIPER regulon extraction 79 6.2.4 GSVA pathway feature creation 79 6.2.5 Radiomics image feature extraction 80 6.2.6 Modelling approach and metrics 80 6.3 Results 81 6.3.1 Radiomics signature 81 6.3.2 WCGNA results 82 6.3.3 VIPER results 85 6.3.4 GSVA results 86 6.4 Summary and discussion 87 7 Radiophenotype discovery through corrected consensus clustering in locally ad-vanced HNSCC 89 7.1 Motivation 89 7.2 Data and experimental design90 7.2.1 Patient cohort 91 7.2.2 Radiomics image feature extraction 91 7.2.3 Reduction and clustering of radiomics features 91 7.2.4 Candidate configuration pruning 92 7.2.5 Radiophenotype characterisation 92 7.2.6 Validation of subtypes 93 7.3 Results 93 7.3.1 M3C clustering results and survival-based pruning 93 7.3.2 Radiophenotype characterisation 95 7.3.3 Radiophenotype validation 100 7.4 Summary and discussion 102 8 Summary 105 9 Zusammenfassung 107 Bibliography 111 Appendix 131 Erklärungen 173Die Personalisierung der Krebsbehandlung ist ein wichtiges Ziel in der Radioonkologie, z.B. um von populationsbasierten Ansätzen zu maßgeschneiderten Interventionen wie einer Dosiseskalation oder Deeskalation für bestimmte Patienten oder Patientengruppen überzugehen. HNSCC ist eine Tumorentität, die von einem solchen Ansatz besonders profitieren könnte, da die Überlebensraten auch bei multimodaler Behandlung über der Zeit relativ konstant geblieben sind. Ein personalisierter Ansatz erfordert die Identifizierung von Biomarkern, um den Tumorphänotyp genau zu charakterisieren und somit den Behandlungserfolg vorherzusagen. Biomarker können aus einer Vielzahl von Quellen stammen: klinische Charakteristika von Patienten, Omics-Daten aus Tumorbiopsien, oder routinemäßig aufgenommene Bildgebungsdaten, aus denen Radiomics-Variablen extrahiert werden können. Diese Daten werden dann zusammen mit maschinellen Lernalgorithmen zur Modellierung verschiedener Endpunkte genutzt. Die vorliegende Dissertation widmet sich nicht nur der Etablierung prognostischer Modelle für lokal fortgeschrittene HNSCC, sondern auch einer radiogenomischen Untersuchung der Beziehung zwischen Informationen auf Bildebene und Informationen auf Transkriptomebene. Zunächst wurden zwei prognostische Signaturen für die LRC bei lokal fortgeschrittenem HNSCC entwickelt und extern validiert, unter Verwendung spezifischer Methoden zur Variablenselektion und Modellierungsalgorithmen, die durch frühere Arbeiten von Leger et al. (Leger et al., 2019) vorgeschlagen wurden. Die Signaturen wurden unter Berücksichtigung eines hochgradig prognostischen klinischen Merkmals, dem Tumorvolumen, entwickelt. Die ausgewählten Variablen beschreiben statistische oder strukturelle Informationen in Bezug auf die Tumorheterogenität und wurden so ausgewählt, dass sie zusammen mit dem Tumorvolumen nicht-redundante Informationen liefern. Ein solcher Ansatz zielt darauf ab, bereits validierten Biomarkern einen Mehrwert zu bieten und Anfälligkeiten bei der Entwicklung von Radiomics-Signaturen zu vermeiden (Welch et al., 2019), wie nicht-spezifizierte Abhängigkeiten und Multikollinearität innerhalb von Modellen. Eine langjährige Frage im Feld der Radiomics ist die Beziehung zwischen Bildvariablen auf makroskopischer Ebene und den zugrunde liegenden biologischen Prozessen (Aerts et al., 2014). Um diese Frage für lokal fortgeschrittene HNSCC und CT-basierte Radiomics zu beantworten, wurden Radiomics-basierte Vorhersagemodelle für sechs verschiedene Gensignaturen entwickelt, die unterschiedliche Tumorvariablen wie Hypoxie oder EMT repräsentieren. Alle Modellierungsansätze zeigten eine geringe Korrelation zwischen der Expression solcher Gensignaturen und makroskopischen Variablen der CT-Bildgebung des gesamten Tumors. Dies könnte darauf hindeuten, dass die Radiomics-Parameter zwar Potenzial für die prognostische Outcomemodellierung zeigen, jedoch möglicherweise nicht als Ersatz für die Beurteilungen von Hypoxie oder anderen mikroskopischen Tumoreigenschaften dienen können. Möglicherweise können Radiomics-Parameter jedoch als Ersatz für die molekulare Subtypisierung von HNSCC verwendet werden, wie dies bei anderen Tumorentitäten der Fall ist. Daher wurden Modelle für die Klassifikation der vier HNSCC-Subtypen (atypisch, basal, klassisch und mesenchymal) entwickelt. Erfolgreich validiert werden konnte die Unterscheidung zwischen dem atypischen Subtyp von den anderen sowie zwischen dem atypischen und mesenchymalen Subtyp. Dass jedoch nicht alle vier Subtypen richtig klassifiziert werden konnten, könnte bedeuten, dass einige Subtypen auf CT-Ebene ähnlicher sind als andere und dass der atypische Subtyp der am besten unterscheidbare ist. Da Radiomics-Variablen eine geringe Assoziation mit individuellen Genexpressionen zeigten, könnten solche Omics-Variablen verwendet werden, um Radiomics-Variablen für die LRC-Prognose zu ergänzen. Aufgrund der hohen Dimensionalität der vorliegenden Transkriptom-daten im Vergleich zur Stichprobengröße wurden drei Methoden zur Expressionsaggregation genutzt, um entweder prognostische Regulatorgene mit dem VIPER-Algorithmus, prognostische koregulierte Genmodule mit dem WCGNA-Algorithmus oder prognostische Pathway-Level-Metagene mit dem GSVA-Algorithmus zu finden. Eine Verbesserung der prognostischen Leistung und Stratifizierung für LRC wurde mit dem GSVA-Ansatz anhand von Metagenen, die E2F-Zielaktivität und Hedgehog-Pathway-Aktivität beschreiben, sowie für ein WCGNA-Netzwerkmodul, das sich auf die Histonregulation bezieht, beobachtet. Dieses Ergebnis zeigt nicht nur das Potenzial der Kombination von Transkriptomics und Radiomics, sondern auch von spezifischen Omics-Expressionsaggregationsalgorithmen zur Synthese neuer prognostischer Variablen. In der abschließenden Studie wurden Radiomics-Variablen genutzt, um Radiophänotypen für HNSCC zu erstellen und extern zu validieren. Fünf Radiophänotypen wurden definiert, die nicht nur unterschiedliche Bildgebungsmuster, sondern auch unterschiedliche Genexpressionen auf Pathway-Ebene sowie Unterschiede in LRC und OS zeigten. Von diesen fünf Radiophänotypen konnten drei in eine externe Validierungskohorte überführt werden, die dort jedoch teilweise eine andere Patientenstratifizierung für die betrachteten Endpunkte zeigten. Dies könnte, zusammen mit unterschiedlichen Expressionsniveaus zwischen den Kohorten, bedeuten, dass ein Radiophänotyp mit unterschiedlichen Expressionsniveaus verschiedener Signalwege assoziiert ist, was zu einer signifikant unterschiedlichen Stratifizierung für Patienten mit ähnlichen Bildgebungsmustern führt. Das Gebiet der radiogenomischen Analyse befindet sich noch in den Anfängen und bietet vielfältige offene Forschungsfragen für zukünftige Studien. Beispielsweise können vielversprechende Deep-Learning-Architekturen wie Transformer untersucht werden, die sowohl Bilddaten als auch tabellierte Daten kombinieren (Park et al., 2022). Weiterhin könnte die Multiomics-Biomarker-Entwicklung unter Einbeziehung bereits vorhandener mechanistischer Erkenntnisse untersucht (Yoo et al., 2022) oder die Radiomics-Risikobewertung basierend auf verschiedenen Tumorregionen (Leger et al., 2020) durchgeführt werden. Während die individualisierte Behandlung von Patienten ein langfristiges Ziel darstellt, das einen multidisziplinären Ansatz erfordert, sind wir diesem Ziel mit dieser Arbeit für lokal fortgeschrittene HNSCC einen Schritt näher gekommen.:Contents iii List of Figures vii List of Tables ix 1 Introduction 1 2 Theoretical background 5 2.1 Head and neck squamous cell carcinoma 5 2.1.1 Diagnosis and treatment 5 2.1.2 Tumorigenesis 6 2.1.3 Molecular characteristics of HNSCC 7 2.1.4 Biomarkers in HNSCC 7 2.2 Physical principles of computerised tomography 10 2.3 Radiomics data 11 2.3.1 Feature extraction 12 2.3.2 Feature computation 12 2.3.3 Laplacian of Gaussian (LoG) 18 2.3.4 Image perturbations and stability 18 2.4 Transcriptomics data analysis 20 2.4.1 Weighted correlation gene network analysis 21 2.4.2 Virtual inference of protein-activity enriched by regulon 22 2.4.3 Gene Set Enrichment Analysis 24 2.4.4 Gene Set Variation Analysis 25 2.5 Fundamentals of survival analysis 27 2.5.1 Cox proportional hazards model 28 2.5.2 Assessing the proportional hazards assumption 29 2.5.3 Performance of survival models 30 2.6 Machine learning framework 32 2.6.1 Data preprocessing 34 2.6.2 Data resampling 36 2.6.3 Feature selection 36 2.6.4 Hyperparameter optimisation 38 2.6.5 Model building 39 2.6.6 Validation 41 3 Definition and validation of a radiomics signature for LRC prognosis in HNSCC 43 3.1 Motivation 43 3.2 Data and experimental design 44 3.2.1 Patient cohort 44 3.2.2 Clinical data 45 3.2.3 Radiomics features extraction and preprocessing 45 3.2.4 Modelling approach 46 3.3 Results 47 3.3.1 Clinical signature 47 3.3.2 Unwindowed signature 48 3.3.3 Windowed signature 50 3.3.4 Windowing effect comparison 52 3.4 Summary and discussion 52 4 CT radiomics surrogacy of gene signatures 55 4.1 Motivation 55 4.2 Data and experimental methods 55 4.2.1 Patient cohort 56 4.2.2 Transcriptome feature extraction 56 4.2.3 Radiomics features extraction and preprocessing 57 4.2.4 Selected gene signatures and class assignment 57 4.2.5 Modelling approach and metrics 58 4.3 Results 59 4.3.1 Cluster classes 59 4.3.2 Surrogate model performance 59 4.4 Summary and discussion 62 5 Radiomics signatures for HNSCC subtype classification 65 5.1 Motivation 65 5.2 Data and experimental design 66 5.2.1 Patient cohort 66 5.2.2 Radiomics image feature extraction 67 5.2.3 Subtype assignment and characterisation 67 5.2.4 Modelling approach 68 5.3 Results 68 5.3.1 Subtype assignment and characterisation 68 5.3.2 OVA model results 70 5.3.3 OVO model results 72 5.3.4 Multiclass model results 73 5.4 Summary and discussion 74 6 Enhancing radiomics using transcriptome-level information 77 6.1 Motivation 77 6.2 Data and experimental design 78 6.2.1 Patient cohort 78 6.2.2 WCGNA module extraction 79 6.2.3 VIPER regulon extraction 79 6.2.4 GSVA pathway feature creation 79 6.2.5 Radiomics image feature extraction 80 6.2.6 Modelling approach and metrics 80 6.3 Results 81 6.3.1 Radiomics signature 81 6.3.2 WCGNA results 82 6.3.3 VIPER results 85 6.3.4 GSVA results 86 6.4 Summary and discussion 87 7 Radiophenotype discovery through corrected consensus clustering in locally ad-vanced HNSCC 89 7.1 Motivation 89 7.2 Data and experimental design90 7.2.1 Patient cohort 91 7.2.2 Radiomics image feature extraction 91 7.2.3 Reduction and clustering of radiomics features 91 7.2.4 Candidate configuration pruning 92 7.2.5 Radiophenotype characterisation 92 7.2.6 Validation of subtypes 93 7.3 Results 93 7.3.1 M3C clustering results and survival-based pruning 93 7.3.2 Radiophenotype characterisation 95 7.3.3 Radiophenotype validation 100 7.4 Summary and discussion 102 8 Summary 105 9 Zusammenfassung 107 Bibliography 111 Appendix 131 Erklärungen 17

Similar works

This paper was published in Technische Universität Dresden: Qucosa.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.