824 research outputs found
A CNN based system for predicting the implied volatility and option prices.
The evaluations of option prices and implied volatility are critical for option risk management and trading. Common strategies in existing studies relied on the parametric models. However, these models are based on several idealistic assumptions. In addition, previous research of option pricing mainly depends on the historical transaction records without considering the performance of other concurrent options. To address these challenges, we proposed a convolutional neural network (CNN) based system for predicting the implied volatility and the option prices. Specifically, the customized non-parametric learning approach is first used to estimate the implied volatility. Second, several traditional parametric models are also implemented to estimate these prices as well. The convolutional neural network is utilized to obtain the predictions based on the estimation of the implied volatility. Our experiments based on Chinese SSE 50ETF options demonstrate that the proposed framework outperforms the traditional methods with at least 40.12% performance enhancement in terms of RMSE
Forecasting and modelling the VIX using Neural Networks
This study investigates the volatility forecasting ability of neural network models. In particular, we focus on the performance of Multi-layer Perceptron (MLP) and the Long Short Term (LSTM) Neural Networks in predicting the CBOE Volatility Index (VIX). The inputs into these models includes the VIX, GARCH(1,1) fitted values and various financial and macroeconomic explanatory variables, such as the S&P 500 returns and oil price. In addition, this study segments data into two sub-periods, namely a Calm and Crisis Period in the financial market. The segmentation of the periods caters for the changes in the predictive power of the aforementioned models, given the dierent market conditions. When forecasting the VIX, we show that the best performing model is found in the Calm Period. In addition, we show that the MLP has more predictive power than the LSTM
Estimate European vanilla option prices using artificial neural networks
Tese de Mestrado, Matemática financeira, 2022, Universidade de Lisboa, Faculdade de CiênciasA literatura de avaliação de opções é vasta e complexa. De grosso modo pode distinguir-se
duas abordagens para a avaliação de opções: analíticas, como o modelo Black-Scholes-Merton
(BSM) ou o modelo Heston, e numéricas, como simulações Monte-Carlo ou, mais recente mente, aprendizagem automática (machine learning). Esta tese é sobre a avaliação de de
opções, de compra e de venda, Europeias baunilha sobre o índice S&P 500 usando aprendiza gem automática. Mais especificamente a tese usa redes neuronais artificiais (artificial neural
networks) (ANNs) de diferentes arquiteturas para estimar preços de opções. O uso de redes
neuronais artificiais é preferido em relação a outras técnicas de aprendizagem automática
pois estas são boas a lidar com grandes bases de dados com relações não lineares entre as
variáveis.
Resumindo brevemente a revisão bibliográfica:
• O uso de aprendizagem automática para efeito de avaliação de opções teve início em
1993 com o trabalho de Malliaris and Salchenberger [27];
• Um problema comum neste tipo e abordagem é o facto de ser difícil escolher os chamados
hyper-parâmetros. Estes parâmetros não devem ser confundidos com os inputs das
redes;
• Exemplos de hyper-parâmetros são: o número de camadas escondidas (hidden lay ers), o número de neurónios (neurons) nessas camadas, o "batch size", o número de
épocas/ciclos, a taxa de aprendizagem (learning rate), etc;
• Verifica-se que muitos autores usam inputs semelhantes aos do modelo BSM para as
suas redes;
• O artigo Andrey Itkin (2019) [22] parece ter sido um dos primeiros a tentar criar uma
rede que gerasse preços livres de oportunidades de arbitragem;
• O artigo [33] apresenta uma extensa revisão bibliográfica onde explicam que o uso de
redes neuronais artificiais não se limita a estimar preços mas também, por exemplo,
volatilidades implícitas (implied volatilities) e são úteis para questões de cobertura do
risco (hedging);
• No que diz respeito a literatura portuguesa, não parece existir nada relacionado com
estimar preços de opções Europeias com recurso a redes neuronais artificiais. Nesta tese tenta-se replicar o trabalho feito em Ke and Yang (2019) [25]. Isto significa
construir 3 tipos de redes neuronais artificiais: duas perceptron multicamada (multi-layer
perceptron) e uma rede de memória longa de curto prazo (long short-term memory); usar
essas redes para prever preços de opções Europeias baunilha; calcular métricas baseadas na
disparidade entre preços previstos e de mercado, com o objetivo de verificar quão próximos
estão os primeiros dos segundos; e finalmente comparar essas métricas com o modelo BSM.
Deve ficar bem claro que as redes mencionadas não têm qualquer condição que implique preços
livres de oportunidades de arbitragem. Esta situação contrasta com a de modelos analíticos
como o BSM em que existem pressupostos subjacentes que forçam os preços estimados a
estarem livres dessas oportunidades. Por isso, mesmo que as redes neuronais artificiais apre sentem melhores métricas, é preciso mais trabalho na área. Preços que permitem arbitragem
não são úteis.
Nesta tese tomaram-se escolhas um pouco diferentes das observadas na literatura:
• Usa-se uma base de dados de aproximadamente 13,5 milhões de observações de opções
o que contrasta com as milhares da maior parte dos trabalhos na área;
• Não se usa a chamada "homogeneity hint";
• Só se excluem da análise opções que já expiraram e que portanto não precisam de ser
avaliadas.
Os dados usados nesta tese são os seguintes:
• Preços diários do ativo subjacente, o S&P 500;
• Taxa nominal diária de obrigações americanas de 3 meses, para servir de "risk-free
rate";
• Preços diários de opções SPX e SPXW.
Neste artigo usaram-se 4 modelos (que na verdade são 8 pois tem que haver um modelo
para opções de compra e outro para opções de venda). Os 4 modelos são:
• Modelo BSM para servir de referência nas comparações nos modelos de redes neuronais
artificiais;
• Modelo MLP1 que toma como inputs os mesmos do BSM e produz um preço de equi líbrio para uma opção. Este preço, ao contrário de um produzido pelo BSM não é
necessariamente livre de oportunidades de arbitragem visto que nenhuma restrição é
imposta para esse efeito;
• Modelo MLP2 que difere do MLP1 pois produz dois preços para cada opção, o preço
de compra (bid) e o preço de venda (ask). Para efeitos de avaliação do modelo usei a
média entre esses 2 preços;
• Modelo LSTM que usa os últimos 20 preços do ativo subjacente para calcular uma
volatilidade. O objetivo é testar se a volatilidade no momento t depende da volatilidade
nos tempos t − 1, t − 2, . . . , e t − 20. Essa volatilidade é depois usada como input num
modelo MLP1, juntamente com os outros inputs, para produzir um preço de equilíbrio
de uma opção.
De seguida vou apresentar uma breve explicação teórica de cada tipo de rede. Mas primeiro,
de um modo geral é importante referir que as redes neuronais artificiais são constituídas
por camadas (input, "hidden" e output) que por sua vez são formadas por neurónios. Um
modelo MLP é uma ANN que segue 3 passos: inicialização (Init), "feed-forward" (FF) e
"back-propagation" (BP). Init é a geração de valores iniciais para os pesos e "biases" da rede.
FF significa que a ANN vai dos inputs aos outputs, passando de camada a camada num
só sentido. O processo de BP calcula a função de custo (loss function) e vai atualizando
os valores dos pesos e "biases" até se chegar a um valor mínimo da função de custo. Um
modelo LSTM é mais complexo pois é um exemplo de uma rede neuronal recorrente (RNN).
Este tipo de redes serve para detetar padrões ao longo do tempo. Ou seja, pode ser usado
para prever a próxima palavra numa frase ou, no caso desta tese, para prever o "próximo"
preço de uma opção dada informação passada e não só presente. Curiosamente os modelos
de avaliação de opções mais conhecidos assumem que o preço de uma opção não depende
de variáveis do passado. Contudo, há literatura que mostra a existência de dependência da
volatilidade presente em relação à volatilidade passada. Os modelos LSTM foram pensados
para resolver um problema chamado "vanishing gradient problem" e têm mostrado, ao longo
do tempo, que o conseguem efetivamente fazer. Também são eficazes a resolver o problema
denominado por "exploding gradients problem".
Para avaliar os resultados empíricos usei várias métricas como por exemplo a média do
quadrado dos erros (mean-square error) ou a mediana do erro percentual (bias). O modelo
MLP1 é o único que supera o BSM em todas as métricas. Contudo é importante lembrar
que, os modelos de aprendizagem automática desta tese não impõe qualquer tipo de restrição
ao nível de oportunidades de arbitragem e por isso não se pode automaticamente concluir
que o modelo MLP1 é superior ao BSM.
Comparando os meus resultados com os de [25], não os consegui replicar na sua grande
maioria. Por exemplo os MSEs do MLP1 são substancialmente superiores. No que diz
respeito ao modelo MLP2, este é inferior ao BSM em quase todas as métricas, contrariando o que foi reportado em [25]. Em relação ao LSTM os números deles são ligeiramente superiores
aos meus. Todas estas diferenças podem ter que ver com as bases de dados usadas, mas
suspeito que a diferença está no código. Apesar dos autores terem publicado o seu código
online em formato de livre acesso, foram precisos muitos ajustes do meu lado para conseguir
gerar resultados.
Ao nível de convergência e ajuste (fit) pode dizer-se que: O MLP1 não apresenta "over fitting", o MLP2 não apresenta "overfitting" mas no que diz respeito às opções de venda os
erros de treino e erros de validação não convergiram, o LSTM apresenta overfitting e não
converge. Para este talvez a resposta seria usar "early stopping".In this thesis I attempt to replicate three machine learning (ML) option pricing models
thought of in Ke and Yang (2019) [25] and compare them to the Black-Scholes-Merton (BSM)
model. Two of them are multi-layer perceptron (MLP) with the same inputs as the BSM. The
third is a long short-term memory (LSTM) model, which takes the underlying prices for the
past 20 days as an input instead of some pre-calculated volatility. Although my results aren’t
as good as theirs in terms of error metrics, the models still beat the BSM. However a caveat
must be made that the prices generated by these models are not necessarily arbitrage-free as
no condition is set in order for that to happen. Future work should focus on that but also
on perfecting the models to increase their accuracy, estimate implied volatility (IV) [46] and
the greeks
Interpreting prediction market prices as probabilities
While most empirical analysis of prediction markets treats prices of binary options as predictions of the probability of future events, Manski (2004) has recently argued that there is little existing theory supporting this practice. We provide relevant analytic foundations, describing sufficient conditions under which prediction markets prices correspond with mean beliefs. Beyond these specific sufficient conditions, we show that for a broad class of models prediction market prices are usually close to the mean beliefs of traders. The key parameters driving trading behavior in prediction markets are the degree of risk aversion and the distribution on beliefs, and we provide some novel data on the distribution of beliefs in a couple of interesting contexts. We find that prediction markets prices typically provide useful (albeit sometimes biased) estimates of average beliefs about the probability an event occurs.Forecasting ; Financial markets ; Econometric models
Comparing deep learning models for volatility prediction using multivariate data
This study aims at comparing several deep learning-based forecasters in the
task of volatility prediction using multivariate data, proceeding from simpler
or shallower to deeper and more complex models and compare them to the naive
prediction and variations of classical GARCH models. Specifically, the
volatility of five assets (i.e., S\&P500, NASDAQ100, gold, silver, and oil) was
predicted with the GARCH models, Multi-Layer Perceptrons, recurrent neural
networks, Temporal Convolutional Networks, and the Temporal Fusion Transformer.
In most cases the Temporal Fusion Transformer followed by variants of Temporal
Convolutional Network outperformed classical approaches and shallow networks.
These experiments were repeated, and the difference between competing models
was shown to be statistically significant, therefore encouraging their use in
practice
American Option Pricing using Self-Attention GRU and Shapley Value Interpretation
Options, serving as a crucial financial instrument, are used by investors to
manage and mitigate their investment risks within the securities market.
Precisely predicting the present price of an option enables investors to make
informed and efficient decisions. In this paper, we propose a machine learning
method for forecasting the prices of SPY (ETF) option based on gated recurrent
unit (GRU) and self-attention mechanism. We first partitioned the raw dataset
into 15 subsets according to moneyness and days to maturity criteria. For each
subset, we matched the corresponding U.S. government bond rates and Implied
Volatility Indices. This segmentation allows for a more insightful exploration
of the impacts of risk-free rates and underlying volatility on option pricing.
Next, we built four different machine learning models, including multilayer
perceptron (MLP), long short-term memory (LSTM), self-attention LSTM, and
self-attention GRU in comparison to the traditional binomial model. The
empirical result shows that self-attention GRU with historical data outperforms
other models due to its ability to capture complex temporal dependencies and
leverage the contextual information embedded in the historical data. Finally,
in order to unveil the "black box" of artificial intelligence, we employed the
SHapley Additive exPlanations (SHAP) method to interpret and analyze the
prediction results of the self-attention GRU model with historical data. This
provides insights into the significance and contributions of different input
features on the pricing of American-style options.Comment: Working pape
Techniques for Stock Market Prediction: A Review
Stock market forecasting has long been viewed as a vital real-life topic in economics world. There are many challenges in stock market prediction systems such as the Efficient Market Hypothesis (EMH), Nonlinearity, complex, diverse datasets, and parameter optimization. A stock's value on the stock market fluctuates due to many factors like previous trends of the stock, the current news, twitter feeds, any online customer feedbacks etc. In this paper, the literature is critically analysed on approaches used for stock market prediction in terms of stock datasets, features used, evaluation metrics used, statistical, machine learning and deep learning techniques along with the directions for the future. The focus of this review is on trend and value prediction for stocks. Overall, 68 research papers have been considered for review from years 1998-2023. From the review, Indian stock market datasets are found to be most frequently used datasets. Evaluation metrics used commonly are accuracy and Mean Absolute Percentage Error. ARIMA is reported as the most used frequently statistical technique for stick market prediction. Long-Short Term Memory and Support Vector Machine are the commonly used algorithms in stock market prediction. The advantages and disadvantages of frequently used evaluation metrics, machine learning, deep learning and statistical approaches are also included in this survey
Deep learning for trading and hedging in financial markets
Deep learning has achieved remarkable results in many areas, from image classification, language translation to question answering. Deep neural network models have proved to be good at processing large amounts of data and capturing complex relationships embedded in the data. In this thesis, we use deep learning methods to solve trading and hedging problems in the financial markets. We show that our solutions, which consist of various deep neural network models, could achieve better accuracies and efficiencies than many conventional mathematical-based methods.
We use Technical Analysis Neural Network (TANN) to process high-frequency tick data from the foreign exchange market. Various technical indicators are calculated from the market data and fed into the neural network model. The model generates a classification label, which indicates the future movement direction of the FX rate in the short term. Our solution can surpass many well-known machine learning algorithms on classification accuracies.
Deep Hedging models the relationship between the underlying asset and the prices of option contracts. We upgrade the pipeline by removing the restriction on trading frequency. With different levels of risk tolerances, the modified deep hedging model can propose various hedging solutions. These solutions form the Efficient Hedging Frontier (EHF), where their associated risk levels and returns are directly observable. We also show that combining a Deep Hedging model with a prediction algorithm ultimately increases the hedging performances.
Implied volatility is the critical parameter for evaluating many financial derivatives. We propose a novel PCA Variational Auto-Enocder model to encode three independent features of implied volatility surfaces from the European stock markets. This novel encoding brings various benefits to generating and extrapolating implied volatility surfaces. It also enables the transformation of implied volatility surfaces from a stock index to a single stock, significantly improving the efficiency of derivatives pricing
- …