On robust ESACF identification of mixed ARIMA models

Abstract

Tutkimus kuuluu tilastotieteen aikasarja-analyysin alueelle ja koskee siinä tunnettujen ARIMA (autoregressive integrated moving average) -mallien konstruointia. Jos aikasarjan (esim. taloudellinen aikasarja) tiedetään tai odotetaan sisältävän poikkeavia, vieraita havaintoja, outliereita (lakkojen, luonnonilmiöiden jne. vaikutuksia tai vain virheellisiä havaintoja), tarvitaan aikasarjan rakenteen mallintamisessa ns. robustin tilastotieteen menetelmiä. Robusti tilastotiede tutkii ja kehittää menetelmiä, millä poikkeavien havaintojen kielteisiä vaikutuksia analyysituloksiin voidaan torjua ja vähentää. Monesta syystä on tärkeää, että heti mallintamisen alkuvaiheessa käytetään outlierien suhteen robusteja menetelmiä. Tutkimuksessa robustoidaan aikasarja-analyysin kirjallisuudesta tunnettu, ns. laajennetun autokorrelaation (extended autocorrelation function, EACF) täsmentämismenetelmä. Tämän menetelmän erityisominaisuus on, että se ei edellytä taloudellisissa aikasarjoissa usein tasaisesti kasvavan trendiosan poistamista aikasar-jasta ennen tilastollisia analyysejä. Outlierien tapauksessa tämä on tärkeä ominaisuus. Tutkimuksessa käytetään useita robusteja menetelmäversioita, joista yksi tuottaa "puhtaiden" aikasarjojen tapauksessa suunnilleen yhtäläisiä tuloksia kuin alkupäinen menetelmä. Tämä on käytännön kannalta tärkeää, koska usein ei etukäteen voida tietää aikasarjan sisältävän poikkeavia havaintoja. Menetelmän robustoinnin vaikutuksia on tutkimuksessa analysoitu paitsi simulointikokeiden avulla, myös soveltamalla eri versioita todellisiin aikasarjoihin, kuten reaalisen valuuttakurssin sarjoihin. Tätä varten on kehitetty ohjelma, jolla lasketaan rinnakkaiset tulokset sekä alkuperäisellä että robustilla menetelmäversiolla. Tutkija voi tällöin tuloksia vertaamalla saada ratkaisevaa tukea ARIMA-mallien yleensä vaikeaan rakenteen täsmentämiseen. Saadut tulokset osoittavat, että robustointi tukee mallin täsmentämistä outlierien tapauksessa. Robustien korrelaatiokertoimien tilastolliset jakaumat ovat useissa tapauksissa vähemmän huipukkaita ja symmetrisempiä (siis enemmän normaalijakauman kaltaisia) verrattuna alkuperäisen menetelmän tuottamiin korrelaatiokertoimien otosjakaumiin. Vastaavanlaisia jakaumatuloksia (ei-robusti ja robusti) ei ole kirjallisuudessa julkaistu aiemmin. Jatkotutkimusta voisi kohdistaa esimerkiksi outlieri-tiheyden ja ­tyyppien eri yhdistelmien analysointiin. Menetelmän sisäisiä testaus- ja laskentamenettelyjä voidaan kehitellä edelleen. Tehokkaat tietokoneet, jotka ovat mahdollistaneet tässä tehdyt analyysit, antavat oivan ympäristön myös jatkokehittelyyn.Statistical data sets often contain observations that differ markedly from the bulk of the data. These outlying observations, outliers , have given rise to notable risks for statistical analysis and inference. Unfortunately, many of the classical statistical methods, such as ordinary least squares, are very sensitive to the effects of these aberrant observations, ie they are not outlier robust. Several robust estimation and diagnostics methods have been developed for linear regression models and more recently also for time series models. The literature on robust identification of time series models is not yet very extensive, but it is growing steadily. Model identification is a thorny issue in robust time series analysis (Martin and Yohai 1986). If outliers are known or expected to occur in a time series, the first stage of modelling the data should be done using robust identification methods. In this thesis, the focus is on following topics: 1. The development of a robust version of the extended autocorrelation function (EACF) procedure of Tsay and Tiao (1984) for tentative identification of univariate ARIMA models and comparison of non-robust and robust identification results. 2. Simulation results for the sample distributions of the single coefficients of the extended sample autocorrelation function (ESACF) table, based on classic and robust methods, both in outlier-contaminated and outlier-free time series. 3. Simulation results for two basic versions of the sample standard error of ESACF coefficients and the results of the standard error calculated from simulation replications. Robust designing concerns two parts of the ESACF method: iterative autoregression, AR(p), and an autocorrelation function to obtain less biased estimates in both cases. Besides the simulation experiments, robust versions of the ESACF method have been applied to single generated and real time series, some of which have been used in the literature as illustrative examples. The main conclusions that emerge from the present study suggest that the robustified ESACF method will provide a) A fast, operational statistical system for tentative identification of univariate, particularly mixed ARIMA(p, d, q), models b) Various alternatives to fit the robust version of AR(p) iteration into a regression context and use of optional robust autocorrelation functions to handle both isolated and patchy outliers c) Robust procedures to obtain more normal-shape sample distributions of the single coefficient estimates in the ESACF two-way table d) The option of combining OLS with a robust autocorrelation estimator. Simulation experiments of robust ESACF for outlier-free series show that, since the robust MM-regression estimator is efficient also for outlier-free series, robust ESACF identification can always be used with confidence. The usefulness of the method in testing for unit roots is obvious, but requires further research. 1. The development of a robust version of the extended autocorrelation function (EACF) procedure of Tsay and Tiao (1984) for tentative identification of univariate ARIMA models and comparison of non-robust and robust identification results. 2. Simulation results for the sample distributions of the single coefficients of the extended sample autocorrelation function (ESACF) table, based on classic and robust methods, both in outlier-contaminated and outlier-free time series. 3. Simulation results for two basic versions of the sample standard error of ESACF coefficients and the results of the standard error calculated from simulation replications

    Similar works