1,327 research outputs found

    Extreme value theory: an application to sports

    Get PDF
    Tese de mestrado em Estatística, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2012A Teoria dos Valores Extremos tem as suas origens na década de 1920, com o trabalho pioneiro de Leonard Tippett, ao qual foi solicitado que encontrasse uma forma de tornar os fios de algodão produzidos pela indústria algodoeira britânica mais resistentes. Nos seus estudos, rapidamente se apercebeu de que a resistência dos fios estava directamente relacionada com a força das fibras mais fracas. Surgiu então a necessidade de criar uma teoria probabilística que permitisse lidar com situações em que a quantificação e modelação de acontecimentos ditos extremos passasse a ser o alvo de interesse do investigador, uma vez que a Teoria Clássica era insuficiente para fornecer respostas às questões que se colocavam. Com a ajuda de Sir Ronald Fisher, Leonard Tippett lançou as bases de todo um corpo probabilístico teórico que viria a adqurir uma importância fundamental e crescente em ramos onde a existência de acontecimentos extremos acaba por ser uma condição sine qua non, podendo colocar sérios problemas e entraves se não houver uma compreensão e controlo do fenómeno que os origina. Dada a escassez de dados que caracteriza tais fenómenos, pela sua natureza extrema, e mesmo até rara, a Teoria dos Valores Extremos adquire um papel crucial no sentido de expurgar informação estatística a partir dos elementos disponíveis. Desde então, são inúmeras as áreas que, cada vez mais, recorrem à Teoria dos Valores Extremos no sentido de obter uma maior compreensão acerca do mecanismo de produção dos fenómenos extremos que regem e justificam a existência dessas áreas. Encontramos assim a sua presença em áreas como a Hidrologia, onde a constante ameaça de cheias, ruptura de diques e elevação do nível das águas do mar pode pôr em risco inúmeras vidas humanas. O Mercado Financeiro, assolado pela atuação constante dos indicadores financeiros, vê na Teoria dos Valores Extremos uma ferramenta preciosa para poder lidar com as graves consequências económicas que podem surgir quando tais indicadores atingem níveis extremos. O aumento da temperatura global do planeta, cujos níveis extremos podem ameaçar a sobrevivência de muitas espécies, obriga a área do Ambiente a socorrer-se e obter respostas junto da Teoria dos Valores Extremos. A área do Desporto não foge à regra. Em particular, o Atletismo é caracterizado por um constante aperfeiçoamento dos atletas, onde a prossecução e manutenção de recordes acaba por ser um factor determinante e um objectivo comum, no sentido de alcançarem prestígio, reconhecimento e realização profissional. Variáveis como tempos mínimos, alturas máximas e comprimentos máximos caracterizam por si só as diversas modalidades que compõem as provas atléticas. Uma das mais famosas modalidades do Atletismo, pelo interesse crescente que suscita e pela natureza excpecional dos recordes alcançados, é sem dúvida a prova dos 100 metros. Nomes tais como Carl Lewis, Ben Johnson ou, mais recentemente, Usain Bolt são indissociáveis desta modalidade, onde o talento do atleta é medido pelo tempo mínimo que demora a percorrer uma distância de 100 metros. Actualmente, o recorde mundial é detido pelo jamaicano Usain Bolt, que conseguiu percorrer 100 metros em 9.58 segundos, no Campeonato Mundial de Atletismo de 2009, em Berlim. Face a este recorde, quais são as possibilidades actuais de vencer este recorde? Qual a probabilidade de manter este nível ou então de reduzi-lo para um nível inferior? Ou então, será que se chegou a um patamar abaixo do qual um atleta não consegue descer mais? Quaisquer que sejam as respostas a estas perguntas, é consenso universal que a prestação dum atleta de corrida de alta competição está directamente relacionada com a sua capacidade cardiorrespiratória. _E precisamente a monitorização e aperfeiçoamento dessa capacidade que conduz um atleta no caminho do sucesso, permitindo-lhe, assim, atingir níveis extremos, quer em termos de tempo, quer em termos de velocidade. Uma das variáveis usadas na medição da capacidade cardiorrespiratória dum atleta é o consumo máximo de oxigénio, mais conhecido por V O2max, que representa a quantidade máxima de oxigénio que o corpo humano consegue assimilar, transportar e usar durante um exercício físico intenso, medida em mililitros por quilo de peso corporal e por minuto (ml/kg/min). O controlo permanente desta variável _e de importância vital não só em atletas de corrida de velocidade, como também em ciclistas de alta competição e esquiadores de fundo. A manutenção dum nível elevado do VO2max acaba por ser um factor de preocupação constante por parte deste tipo de atletas, dada a sua ligação íntima com um alto desempenho durante as provas atléticas. O VO2max mais elevado até à actualidade foi registado nos esquiadores noruegueses Bjorn Daehlie e Espen Harald Bjerke, que atingiram um nível de 96 ml/kg/min. Qual a probabilidade de um atleta de alta competição ultrapassar este valor? Será que o corpo humano tem a possibilidade de exceder muito mais este limite? Qual o valor mais elevado do V O2max que, nas circunstâncias actuais, pode ser atingido por um atleta de alta competição? Para responder a todas as questões colocadas no parágrafo anterior, a Teoria dos Valores Extremos é sem dúvida a ferramenta mais adequada. As respostas podem ser então obtidas seguindo duas perspectivas: uma perspectiva paramétrica e uma perspectiva semi-paramétrica. A perspectiva paramétrica tem por pressuposto base a existência dum modelo paramétrico subjacente à obtenção dos dados provenientes de acontecimentos extremos, em que o objectivo central passa pela estimação dos parâmetros desse modelo por métodos de estimação pontual, tais como o método da Máxima Verosimilhança e o método dos Momentos Ponderados de Probabilidade. A partir dessas estimativas, as perguntas anteriormente colocadas encontram as suas respostas em parâmetros estimados, tais como o limite superior (ou inferior) do suporte do modelo subjacente aos dados ou ainda a probabilidade de excedência de níveis elevados (ou baixos). A adopção dum modelo paramétrico adequado é então a questão-chave da abordagem paramétrica. Uma vez que esse modelo é evidentemente desconhecido, surgem então várias propostas dentro do âmbito paramétrico. O método dos Máximo por Blocos (vulgo método dos Máximo Anuais, quando os dados são obtidos de forma anual) propõe um ajustamento da família Generalizada de Valores Extremos aos dados disponíveis, considerando que estes são réplicas independentes duma variável aleatória que selecciona apenas o máximo de cada bloco previamente definido. Por outro lado, o método POT (do inglês Peaks-Over-Threshold) propõe o ajustamento da família Generalizada Pareto às observações que excedem um determinado nível fixado a priori, considerando que essas observações representam uma amostra proveniente da cauda direita (ou esquerda) do modelo subjacente aos dados disponíveis. A perspectiva semi-paramética não propõe nenhum modelo paramétrico para ajustar aos dados e centra a sua atenção na estimação do parâmetro de forma do modelo subjacente desconhecido, que se designa por Índice de Valores Extremos, e que está directamente relacionado com o peso da cauda direita (ou esquerda) do modelo. Para essa estimação ser então possível, a cauda do modelo subjacente deve obedecer a certas condições, uniformizadas e formalizadas por Boris Gnedenko em 1943, que, de acordo com a abordagem semi-paramétrica, são assumidas como estando satisfeitas pelo modelo desconhecido. A estimação do parâmetro de forma é então feita seleccionando as observações da amostra que se encontram acima dum determinado nível aleatório, que não está fixo à partida e que depende do tamanho da amostra em causa, uma vez que se considera que as observações de topo transportam a informação necessária acerca da cauda do modelo subjacente. A determinação do nível aleatório óptimo a considerar perante uma determinada amostra é então uma questão de importância central, sem a qual a obtenção duma estimativa para o Índice de Valores Extremos fica seriamente comprometida. Uma vez obtida a estimativa desse parâmetro, a abordagem semi-paramétrica também permite responder às questões atrás colocadas, focando-se na estimação do limite superior (ou inferior) do suporte do modelo subjacente ou na obtenção de probabilidades de excedência de níveis elevados (ou baixos).Extreme Value Theory can be applied to several areas, where the existence of extreme events is a daily reality. Characterized by constant record breaks such as minimal times or maximal speeds, Sports can obtain bene_ts from Extreme Value Theory, when used as indicator of records' quality. In particular, the 100 metres race, whose current lowest record of 9.58 seconds is held by Usain Bolt, requires an exceptional cardiorespiratory capacity, monitored by the Maximal Oxygen Uptake, or V O2max, which measures the maximal amount of oxygen used during intense e_orts, in millilitres per bodyweight and per minute (ml/kg/min). The highest V O2max (96 ml/kg/min) was recorded for the skiers Bjorn Daelie and Espen Harald Bjerke. What is the probability of exceeding the aforementioned records? Is there a finite limit for these quantities? Extreme Value Theory is the most appropriate tool to answer these questions, ofering two possible approaches: a parametric and a semi-parametric one. The former focuses on estimating the parameters of a proposed underlying model, using the Maximum Likelihood or the Probability Weighted Moments methods. In particular, the Block Maxima method proposes the Generalized Extreme Value distribution as a suitable model to be fitted to the whole dataset and the POT method proposes the Generalized Pareto distribution as a suitable one to be fitted only to observations above a fixed level. Concerning the semi-parametric approach, there is no distribution proposal. Assuming only that the underlying distribution's tail satisfies Gnedenko's Theorem, the goal is to estimate the shape parameter of the underlying distribution, known as Extreme Value Index, which determines the weight of its tail. All the inference is based on a portion of the sample above a random level to be determined. With the obtained estimates, both approaches answer the previous questions computing exceedance probabilities and endpoint estimates

    Reduced-bias and partially reduced-bias mean-of-order-p value-at-risk estimation: a Monte-Carlo comparison and an application

    Get PDF
    On the basis of a sample of either independent, identically distributed or possibly weakly dependent and stationary random variables from an unknown model F with a heavy right-tail function, and for any small level q, the value-at-risk (VaR) at the level q, i.e. the size of the loss that occurs with a probability q, is estimated by new semi-parametric reduced-bias procedures based on the mean-of-order-p of a set of k quotients of upper order statistics, with p an adequate real number. After a brief reference to the asymptotic properties of these new VaR-estimators, we proceed to an overall comparison of alternative VaR-estimators, for finite samples, through large-scale Monte-Carlo simulation techniques. Possible algorithms for an adaptive VaR-estimation, an application to financial data and concluding remarks are also provided

    Towards Finding Efficient Tools for Measuring the Tail Index and Intensity of Long-range Dependent Network Traffic

    Get PDF
    Many researchers have discussed the effects of heavy-tailedness in network traffic patterns and shown that Internet traffic flows exhibit characteristics of self-similarity that can be explained by the heavy-tailedness of the various distributions involved. Self-similarity and heavy-tailedness are of great importance for network capacity planning purposes in which researchers are interested in developing analytical methods for analysing traffic characteristics. Designers of computing and telecommunication systems are increasingly interested in employing heavy-tailed distributions to generate workloads for use in simulation - although simulations employing such workloads may show unusual characteristics. Congested Internet situations, where TCP/IP buffers start to fill, show long-range dependent (LRD) self-similar chaotic behaviour. Such chaotic behaviour has been found to be present in Internet traffic by many researchers. In this context, the 'Hurst exponent', H, is used as a measure of the degree of long-range dependence. Having a reliable estimator can yield a good insight into traffic behaviour and may eventually lead to improved traffic engineering. In this paper, we describe some of the most useful mechanisms for estimating the tail index of Internet traffic, particularly for distributions having the power law observed in different contexts, and also the performance of the estimators for measuring the intensity of LRD traffic in terms of their accuracy and reliability

    Heavy-tailed distributions in VaR calculations

    Get PDF
    The essence of the Value-at-Risk (VaR) and Expected Shortfall (ES) computations is estimation of low quantiles in the portfolio return distributions. Hence, the performance of market risk measurement methods depends on the quality of distributional assumptions on the underlying risk factors. This chapter is intended as a guide to heavy-tailed models for VaR-type calculations. We first describe stable laws and their lighter-tailed generalizations, the so-called truncated and tempered stable distributions. Next we study the class of generalized hyperbolic laws, which – like tempered stable distributions – can be classified somewhere between infinite variance stable laws and the Gaussian distribution. Then we discuss copulas, which enable us to construct a multivariate distribution function from the marginal (possibly different) distribution functions of n individual asset returns in a way that takes their dependence structure into account. This dependence structure may be no longer measured by correlation, but by other adequate functions like rank correlation, comonotonicity or tail dependence. Finally, we provide numerical examples.Heavy-tailed distribution; Stable distribution; Tempered stable distribution; Generalized hyperbolic distribution; Parameter estimation; Value-at-Risk (VaR); Expected Shortfall (ES); Copula; Filtered historical simulation (FHS);
    corecore