Search CORE

4 research outputs found

Bayesian machine learning for financial modeling

Author: Nirwan Rajbir Singh
Publication venue
Publication date: 11/10/2021
Field of study

Machine Learning (ML) is so pervasive in our todays life that we don't even realise that, more often than expected, we are using systems based on it. It is also evolving faster than ever before. When deploying ML systems that make decisions on their own, we need to think about their ignorance of our uncertain world. The uncertainty might arise due to scarcity of the data, the bias of the data or even a mismatch between the real world and the ML-model. Given all these uncertainties, we need to think about how to build systems that are not totally ignorant thereof. Bayesian ML can to some extent deal with these problems. The specification of the model using probabilities provides a convenient way to quantify uncertainties, which can then be included in the decision making process. In this thesis, we introduce the Bayesian ansatz to modeling and apply Bayesian ML models in finance and economics. Especially, we will dig deeper into Gaussian processes (GP) and Gaussian process latent variable model (GPLVM). Applied to the returns of several assets, GPLVM provides the covariance structure and also a latent space embedding thereof. Several financial applications can be build upon the output of the GPLVM. To demonstrate this, we build an automated asset allocation system, a predictor for missing asset prices and identify other structure in financial data. It turns out that the GPLVM exhibits a rotational symmetry in the latent space, which makes it harder to fit. Our second publication reports, how to deal with that symmetry. We propose another parameterization of the model using Householder transformations, by which the symmetry is broken. Bayesian models are changed by reparameterization, if the prior is not changed accordingly. We provide the correct prior distribution of the new parameters, such that the model, i.e. the data density, is not changed under the reparameterization. After applying the reparametrization on Bayesian PCA, we show that the symmetry of nonlinear models can also be broken in the same way. In our last project, we propose a new method for matching quantile observations, which uses order statistics. The use of order statistics as the likelihood, instead of a Gaussian likelihood, has several advantages. We compare these two models and highlight their advantages and disadvantages. To demonstrate our method, we fit quantiled salary data of several European countries. Given several candidate models for the fit, our method also provides a metric to choose the best option. We hope that this thesis illustrates some benefits of Bayesian modeling (especially Gaussian processes) in finance and economics and its usage when uncertainties are to be quantified.Die vorliegende Arbeit beschäftigt sich mit bayesianischer Statistik und ihrer Anwendung im Bereich Finanzen und Ökonomie.¨ Es wurden drei verschiedene Themen behandelt, welche bereits veröffentlicht sind oder in einer veröffentlichungswürdigen Form vorliegen. Diese Dissertation ist eine Erweiterung der Veröffentlichungen “Applications of Gaussian process Latent Variable Models in Finance” (Nirwan and Bertschinger, 2019b) und “Rotation Invariant Householder Parameterization for Bayesian PCA” (Nirwan and Bertschinger, 2019a) und der noch nicht veröffentlichten Arbeit “Bayesian Quantile Matching Estimation” (Nirwan and Bertschinger, 2020). Die Erweiterung umfasst eine detaillierte Einführung in die Themen und Beschreibung der Modelle und Experimente. Nach der allgemeinen Einführung in das maschinelle Lernen und der Wichtigkeit der Einschätzung von Unsicherheiten in Kapitel 1, geben wir einen Überblick in die bayesianische ¨Statistik in Kapitel 2. Der Überblick vergleicht das klassische Vorgehen (frequentistisch)¨ mit dem bayesianischen Ansatz anhand der linearen Regression (LR). Das mathematisch sehr simple LR Modell ist gut zu interpretieren und ist analytisch lösbar, kann aber aufgrund seiner mangelnden Flexibilität die Struktur von komplexen Datensätzen nicht erfassen. In diesem Kapitel zeigen wir den Vorteil des bayesianischen Ansatzes gegenüber des klassischen Ansatzes. Dieser liegt in der Abschätzung von Unsicherheiten in den gelernten Parameterwerten. Die Unsicherheit kann quantifiziert werden, indem man Modelle durch Wahrscheinlichkeiten beschreibt (Bishop, 2006). Das Resultat ist dann nicht ein Wert für einen gelernten Parameter, sondern eine Verteilung über mögliche Werte (der Posterior). Wie bereits erwähnt, ist die lineare Regression zwar analytisch lösbar, ihr mangelt es aber an Flexibilität. Flexiblere Modelle können mehr Struktur erfassen, sind aber dafür nicht mehr analytisch lösbar und müssen approximativ gelöst werden. Es gibt zwei große Klassen der Approximationen einer Verteilung (in unserem Fall, des Posteriors). Eine davon, Markov Chain Monte Carlo (MCMC), approximiert den Posterior durch Samples. Die andere, Variational Bayes (VB), approximiert den Posterior durch eine einfachere analytische Verteilung. In Kapitel 3 stellen wir beide Klassen vor und gehen tiefer auf Hamiltonian Monte Carlo (HMC, ein MCMC Verfahren) (Betancourt, 2017) und Variational Inference (VI, ein VB Verfahren) (Bishop, 2006; MacKay, 2002) ein. Wir benutzen sowohl HMC, als auch VI in den Experimenten. Glücklicherweise muss man diese Methoden (HMC und VI) nicht selbst programmieren. Es gibt probabilistische Programmiersprachen, die die Implementierung der bayesianischen Modelle vereinfachen. In dieser Arbeit haben wir Stan (Carpenter et al., 2017) verwendet, welches wir in Kapitel 3 erläutern. Stan liefert eine Implementierung von HMC und VI, das man Out-of-the-box verwenden kann. Somit muss man sich nicht mehr um die Solver kümmern, sondern kann sich voll auf die Modellierung konzentrieren. Kapitel 4 und 5 sind Einführungen in die bayesianische Machine Learning Modelle, welche wir in den Veröffentlichungen verwenden. Kapitel 4 erklärt detailliert die Funktionsweise der Gaußschen Prozesse (Rasmussen and Williams, 2005). Gaußsche Prozesse sind Wahrscheinlichkeitsverteilungen von Funktionen und werden bei der Interpolation und Extrapolation von Daten verwendet. Genauso wie eine Gauß-Verteilung sind Gaußsche Prozesse durch den Erwartungswert und einer Kovarianzfunktion eindeutig bestimmt. Die Kovarianzfunktion bestimmt die Eigenschaften (Stetigkeit, Differenzierbarkeit, ...) der Funktionssamples aus dem Prozess. Diese wird auch in unseren Analysen eine wichtige Rolle einnehmen. Kapitel 5 behandelt Latent Variable Models (LVM) (Bishop, 2006). Diese werden häufig in Unsupervised-Learning benutzt, wenn Daten ohne Labels vorliegen und man an den latenten Variablen interessiert ist, welche die Daten generieren. Die Kombination von GPs und LVMs ergibt das Gaussian process latent variable model (GPLVM), eingeführt in Lawrence (2005). Wir benutzen GPLVM, um Struktur in nicht gelabelten Finanzdaten zu erkennen. Kapitel 6 bis Kapitel 10 erklären detaillierter die Veröffentlichungen. Nach der Einführung in die Themen werden die Erweiterungen der Modelle und die Experimente beschrieben

Hochschulschriftenserver - Universität Frankfurt am Main