Interpretable methods in cancer diagnostics

Abstract

Cancer is a hard problem. It is hard for the patients, for the doctors and nurses, and for the researchers working on understanding the disease and finding better treatments for it. The challenges faced by a pathologist diagnosing the disease for a patient is not necessarily the same as the ones faced by cell biologists working on experimental treatments and understanding the fundamentals of cancer. In this thesis we work on different challenges faced by both of the above teams. This thesis first presents methods to improve the analysis of the flow cy- tometry data used frequently in the diagnosis process, specifically for the two subtypes of non-Hodgkin Lymphoma which are our focus: Follicular Lymphoma and Diffuse Large B Cell Lymphoma. With a combination of concepts from graph theory, dynamic programming, and machine learning, we present methods to improve the diagnosis process and the analysis of the abovementioned data. The interpretability of the method helps a pathologist to better understand a patient’s disease, which itself improves their choices for a treatment. In the second part, we focus on the analysis of DNA-methylation and gene expression data, both of which presenting the challenge of being very high dimen- sional yet with a few number of samples comparatively. We present an ensemble model which adapts to different patterns seen in each given data, in order to adapt to noise and batch effects. At the same time, the interpretability of our model helps a pathologist to better find and tune the treatment for the patient: a step further towards personalized medicine.Krebs ist ein schweres Problem. Es ist schwer für die Patienten, für die Ärzte und Krankenschwestern und für die Forscher, die daran arbeiten, die Krankheit zu verstehen und eine bessere Behandlung dafür zu finden. Die Herausforderungen, mit denen ein Pathologe konfrontiert ist, um die Krankheit eines Patienten zu diagnostizieren, müssen nicht die gleichen sein, mit denen Zellbiologen konfrontiert sind, die an experimentellen Behandlungen arbeiten und die Grundlagen von Krebs verstehen. In dieser Arbeit beschäftigen wir uns mit verschiedenen Herausforderungen, denen sich beide oben genannten Teams stellen. In dieser Arbeit werden zunächst Methoden vorgestellt, um die Analyse der im Diagnoseverfahren häufig verwendeten Durchflusszytometriedaten zu verbessern, insbesondere für die beiden Subtypen des Non-Hodgkin-Lymphoms, auf die wir uns konzentrieren: das follikuläre Lymphom und das diffuse großzellige B-Zell-Lymphom. Mit einer Kombination von Konzepten aus Graphentheorie, dynamischer Programmierung und künstliche Intelligenz präsentieren wir Methoden zur Verbesserung des Diagnoseprozesses und der Analyse der oben genannten Daten. Die Interpretierbarkeit der Methode hilft einem Pathologen, die Apatientenkrankheit besser zu verstehen, was wiederum seine Wahlmöglichkeiten für eine Behandlung verbessert. Im zweiten Teil konzentrieren wir uns auf die Analyse von DNA-Methylierungsund Genexpressionsdaten, die beide die Herausforderung darstellen, sehr hochdimensional zu sein, jedoch mit nur wenigen Proben im Vergleich.Wir präsentieren ein Zusammenstellungsmodell, das sich an unterschiedliche Muster anpasst, die in den jeweiligen Daten zu sehen sind, um sich an Rauschen und Batch-Effekte anzupassen. Gleichzeitig hilft die Interpretierbarkeit unseres Modells einem Pathologen, die Behandlung für den Patienten besser zu finden und abzustimmen: ein Schritt weiter in Richtung personalisierter Medizin

    Similar works