Par sa nature infiltrative et son confinement derrière la barrière hémo-encéphalique, le cancer primaire du cerveau est l’une des néoplasies les plus difficiles à diagnostiquer et traiter. Son traitement repose sur la résection chirurgicale maximale. La spectroscopie Raman, capable d’identifier en temps réel des régions cancéreuses qui apparaîtraient normales à l’œil nu, promet d’améliorer considérablement le guidage neurochirurgical et maximiser la résection de la masse tumorale. Cependant, le signal Raman est très complexe à interpréter : les systèmes Raman peuvent maintenant capter des signaux de grande qualité que les méthodes analytiques actuelles ne parviennent pas à interpréter de manière reproductible. Ceci constitue une barrière importante à l’acceptation de la spectroscopie Raman par les médecins et les chercheurs œuvrant sur le cancer du cerveau.
L’objectif de ce travail est de développer une méthode robuste d’ingénierie des variables (« Feature engineering ») qui permettrait d’identifier les processus moléculaires exploités par les systèmes Raman pour différentier les régions cancéreuses des régions saines lors de chirurgies cérébrales.
Tout d’abord, nous avons identifié les régions Raman ayant une haute spécificité à notre problématique clinique par une revue systématique de la littérature. Un algorithme d’ajustement de courbe a été développé afin d’extraire la forme des pics Raman dans les régions sélectionnées. Puis, nous avons élaboré un modèle mathématique qui tient compte de l’interactivité entre les molécules de l’échantillon interrogé, ainsi qu’entre le signal Raman et l’âge du patient opéré. Pour valider le modèle, nous avons comparé sa capacité à compresser le signal avec celle de l’analyse en composante principale (ACP), le standard en spectroscopie Raman. Finalement, nous avons appliqué la méthode d’ingénierie des variables à des spectres Raman acquis en salle d’opération afin d’identifier quels processus moléculaires indiquaient la présence de cancer.
Notre méthode a démontré une meilleure rétention d’information que l’ACP. En l’appliquant aux spectres Raman in vivo, les zones denses en cellules malignes démontrent une expression augmentée d’acides nucléiques ainsi que de certaines protéines, notamment le collagène, le tryptophan et la phénylalanine. De plus, l’âge des patients semble affecter l’impact qu’ont certaines protéines, lipides et acides nucléiques sur le spectre Raman. Nos travaux révèlent l’importance d’une modélisation statistique appropriée pour l’implémentation clinique de systèmes Raman chirurgicaux.----------ABSTRACT
Because of its infiltrative nature and concealment behind the blood-brain barrier, primary brain cancer remains one of the most challenging oncological condition to diagnose and treat. The mainstay of treatment is maximal surgical resection. Raman spectroscopy has shown great promise to guide surgeons intraoperatively by identifying, in real-time, dense cancer regions that appear normal to the naked eye. The Raman signal of living tissue is, however, very challenging to interpret, and while most advances in Raman systems targeted the hardware, appropriate statistical modeling techniques are lacking. As a result, there is conflicting evidence as to which molecular processes are captured by Raman probes. This limitation hinders clinical translation and usage of the technology by the cancer-research community.
This work focuses on the analytical aspect of Raman-based surgical systems. Its objective is to develop a robust data processing pipeline to confidently identify which molecular phenomena allow Raman systems to differentiate healthy brain and cancer during neurosurgeries.
We first selected high-yield Raman regions based on previous literature on the subject, resulting in a list of reproducible Raman bands with high likelihood of brain-specific Raman signal. We then developed a peak-fitting algorithm to extract the shape (height and width) of the Raman signal at those specific bands. We described a mathematical model that accounted for all possible interactions between the selected Raman peaks, and the interaction between the peaks’ shape and the patient’s age. To validate the model, we compared its capacity to compress the signal while maintaining high information content against a Principal Component Analysis (PCA) of the Raman spectra, the fields’ standard. As a final step, we applied the feature engineering model to a dataset of intraoperative human Raman spectra to identify which molecular processes were indicative of brain cancer.
Our method showed better information retention than PCA. Our analysis of in vivo Raman measurement showed that areas with high-density of malignant cells had increased expression of nucleic acids and protein compounds, notably collagen, tryptophan and phenylalanine. Patient age seemed to affect the impact of nucleic acids, proteins and lipids on the Raman spectra. Our work demonstrates the importance of appropriate statistical modeling in the implementation of Raman-based surgical devices