Statistische Modellierung mit finiten Skew-t Mixture Verteilungen und deren Anwendungen in den Life Sciences

Abstract

There is a need for flexible distribution and error models considering multivariate data in the life sciences. This thesis explores a flexible class of multivariate models, especially suited for data encountered in real-life situations, where outliers and skewness are prevalent and provides an algorithm for fitting such models to use them efficiently in practice. We introduce univariate and multivariate mixtures of skew-t distributions, beginning with their mathematical definitions and followed by their hierarchical representation, which facilitates the implementation of the Expectation-Maximization (EM) algorithm for parameter estimation. A new proposal for classifying multivariate clinical data is proposed, based on fitting multivariate skew-t mixtures separately to patients from diseased case and non-diseased control groups. The ratio of multivariate densities for cases to controls forms a likelihood ratio, which multiplied by the ratio of prior probabilities of being a case versus control, leads to the posterior odds of being a case. The posterior odds of cases are back-transformed to the probability scale, resulting in individual predictions. The form of the density ratio is discussed for different situations, such as for the constraint of equal variance. We construct efficient EM algorithms that can accommodate collapsed clusters. A collapsed cluster can be viewed as a distribution that places all of its mass on a lower-dimensional space with no variance. Our approach for the applications targeted in this thesis is that the same underlying data generating process applies to collapsed and non-collapsed clusters. We develop and publish a novel R package fitmixst4, which implements the EM algorithm for fitting multivariate mixtures of skew-t distributions and differentiates collapsed clusters from non-collapsed ones by restricting the variance of the latter to be above a specific bound. We implement the algorithm in two applications. The first application concerns the update of a leading online clinical risk prediction model for prostate cancer on biopsy to incorporate two novel serum markers. We fit the multivariate skew-t mixtures to the bivariate distribution of the two markers in a sample of cancer cases and controls, respectively, thus forming the likelihood ratio. Prior odds of prostate cancer for individual patients are formed based on their standard clinical risk factor profiles from an existing online risk prediction tool. Multiplication by the likelihood ratio leads to updated individualized posterior probabilities of prostate cancer that combines information from standard risk factors with the new markers. We implement the resulting risk tool with the R package shiny and post it online at the Cleveland Clinic Risk Library to make it accessible to patients and clinicians worldwide. For the second application, we fit mixtures of multivariate skew-t distributions with collapsed clusters to describe and classify trees that experience mortality versus not from a network of European Beech trees. We model up to five individual tree characteristics and competition indices to form risk prediction models for tree mortality. We visualize two-dimensional contour plots of predictive characteristics for trees experiencing versus not experiencing mortality in order to facilitate communication with forest researchers concerning indicators for mortality. Using separate training and test sets, we show that skew-t based methods slightly outperform traditional logistic regression. This thesis provides means for life science researchers to implement an intricate modeling framework in order to maximize prediction of outcomes, as well as an understanding of underlying complex nonlinear associations among risk factors. The published R package facilitates implementation, bringing the impact of the models to applications in many fields beyond those shown in this thesis.Es gibt erheblichen Bedarf an flexiblen Verteilungen und Fehlermodellen, um multivariate Daten in Life Science zu untersuchen. Die vorliegende Arbeit untersucht eine flexible Klasse von multivariaten Modellen, die sich besonders gut für reale Daten eignet, in welchen Ausreißer und Schiefen vorhanden sind. Dazu stellt sie einen Algorithmus für die Anpassung solcher Modelle zur Verfügung. Wir führen zunächst univariate und multivariate Mixture Skew-t Verteilungen ein, beginnend mit deren mathematischer Definition, gefolgt von deren hierarchischer Darstellung, die die Implementation des Expectation-Maximisation (EM) Algorithmus für die Parameterschätzung ermöglicht. Eine neue Interpretation für die Klassifizierung von multivariaten Daten, basierend auf der Anpassung separater multivariater Skew-t Mixtures jeweils für Fall- und Kontrollgruppe, wird vorgeschlagen. Der Quotient von multivariaten Dichten für Fall- und Kontrollgruppe formt eine Likelihood Ratio, die multipliziert mit der priori Wahrscheinlichkeit zu posteriori Odds führt. Die posteriori Odds werden auf die Wahrscheinlichkeitsskala zurücktransformiert. Die Form der Dichtequotienten wird für unterschiedliche Situationen, wie etwa für den Fall von gleichen Varianzen, diskutiert. Wir konstruieren einen effizienten EM Algorithmus, der mit Collapsed Cluster umgehen kann. Ein Collapsed Cluster kann man als eine Verteilung betrachten, das alle Masse in einem niedrigeren dimensionalen Raum ohne Varianz hat. Unser Ansatz für die Applikationen in dieser Arbeit ist die Annahme, dass der Prozess, der die Daten generiert, für Collapsed und Non-Collapsed Clusters derselbe ist. Des weiteren entwickeln und veröffentlichen wir ein neues R Paket fitmixst4, das den EM Algorithmus für die Anpassung von multivariaten Skew-t Mixtures Verteilungen implementiert und Collapsed Clusters von normalen Gruppen differenziert. Wir verwenden den Algorithmus in zwei Anwendungen. Die erste Anwendung behandelt das Update eines führenden klinischen Online-Risikoprädiktionsmodel für Prostatakrebs mit Biopsien, in welches zwei neue Serummarker eingebaut werden. Wir schätzen multivariate Skew-t Mixtures für die bivariate Verteilung der beiden Marker für Krebs- und Kontrollfälle, um eine Likelihood Ratio zu bekommen. Die priori Odds für Prostatakrebs für individuelle Patienten werden basierend auf klinischen Standardrisikofaktorprofilen mit dem existierenden Online-Risikoprädiktionstool berechnet. Die Multiplikation mit der Likelihood Ratio führt zu angepassten individualisierten posteriori Wahrscheinlichkeiten für Prostatakrebs, die die Information der Standardrisikofaktoren mit den neuen Markern kombiniert. Wir implementieren das resultierende Risikotool mit dem R Paket shiny und stellen es online auf der Cleveland Clinic Risk Library zur Verfügung, um es weltweit für Patienten und Kliniker zugänglich zu machen. Für die zweite Anwendung haben wir Multivariate Skew-t Mixtures mit Collapsed Clustern verwendet, die die Sterbewahrscheinlichkeit von Bäumen in einem europäischen Netzwerk für Buchen beschreiben und klassifizieren. Wir modellieren bis zu fünf individuelle Baumcharakteristiken und Wettbewerbsindizes, um ein Risikoprädiktionsmodel für die Sterblichkeit der Bäume zu entwickeln. Zusätzlich haben wir zweidimensionale Konturdiagramme der prädiktiven Charakteristiken visualisiert, um eine Grundlage für die Kommunikation mit Forstwissenschaftlern zu schaffen. Mit Hilfe von separaten Trainings- und Validierungssets, kann gezeigt werden, dass der Ansatz mit den Skew-t Verteilungen die traditionelle logistische Regression übertrifft. Die vorliegende Arbeit stellt Forschern in den Life Sciences ein komplexes Modeling Framework zur Verfügung, welches die Prädiktionsresultate maximiert und das Verständnis der zu Grunde liegenden nicht-linearen Assoziationen veranschaulicht. Das publizierte R Paket erleichtert die Implementation, um die Anwendbarkeit dieser Modelle auf andere Sachgebiete zu übertragen

    Similar works