10 research outputs found

    A consistent deterministic regression tree for non-parametric prediction of time series

    Get PDF
    We study online prediction of bounded stationary ergodic processes. To do so, we consider the setting of prediction of individual sequences and build a deterministic regression tree that performs asymptotically as well as the best L-Lipschitz constant predictors. Then, we show why the obtained regret bound entails the asymptotical optimality with respect to the class of bounded stationary ergodic processes

    Prediction of time series by statistical learning: general losses and fast rates

    Full text link
    We establish rates of convergences in time series forecasting using the statistical learning approach based on oracle inequalities. A series of papers extends the oracle inequalities obtained for iid observations to time series under weak dependence conditions. Given a family of predictors and nn observations, oracle inequalities state that a predictor forecasts the series as well as the best predictor in the family up to a remainder term Δn\Delta_n. Using the PAC-Bayesian approach, we establish under weak dependence conditions oracle inequalities with optimal rates of convergence. We extend previous results for the absolute loss function to any Lipschitz loss function with rates Δnc(Θ)/n\Delta_n\sim\sqrt{c(\Theta)/ n} where c(Θ)c(\Theta) measures the complexity of the model. We apply the method for quantile loss functions to forecast the french GDP. Under additional conditions on the loss functions (satisfied by the quadratic loss function) and on the time series, we refine the rates of convergence to Δnc(Θ)/n\Delta_n \sim c(\Theta)/n. We achieve for the first time these fast rates for uniformly mixing processes. These rates are known to be optimal in the iid case and for individual sequences. In particular, we generalize the results of Dalalyan and Tsybakov on sparse regression estimation to the case of autoregression

    Optimal Short-Term Forecast for Locally Stationary Functional Time Series

    Full text link
    Accurate curve forecasting is of vital importance for policy planning, decision making and resource allocation in many engineering and industrial applications. In this paper we establish a theoretical foundation for the optimal short-term linear prediction of non-stationary functional or curve time series with smoothly time-varying data generating mechanisms. The core of this work is to establish a unified functional auto-regressive approximation result for a general class of locally stationary functional time series. A double sieve expansion method is proposed and theoretically verified for the asymptotic optimal forecasting. A telecommunication traffic data set is used to illustrate the usefulness of the proposed theory and methodology

    Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes

    Get PDF
    In this thesis, we study sequential prediction problems. The goal is to devise and apply automatic strategy, learning from the past, with potential help from basis predictors. We desire these strategies to have strong mathematical guarantees and to be valid in the most general cases. This enables us to apply the algorithms deriving from the strategies to meteorological data predictions. Finally, we are interested in theoretical and practical versions of this sequential prediction framework to cumulative density function prediction. Firstly, we study online prediction of bounded stationary ergodic processes. To do so, we consider the setting of prediction of individual sequences and propose a deterministic regression tree that performs asymptotically as well as the best L-Lipschitz predictor. Then, we show why the obtained regret bound entails the asymptotical optimality with respect to the class of bounded stationary ergodic processes. Secondly, we propose a specific sequential aggregation method of meteorological simulation of mean sea level pressure. The aim is to obtain, with a ridge regression algorithm, better prediction performance than a reference prediction, belonging to the constant linear prediction of basis predictors. We begin by recalling the mathematical framework and basic notions of environmental science. Then, the used datasets and practical performance of strategies are studied, as well as the sensitivity of the algorithm to parameter tuning. We then transpose the former method to another meteorological variable: the wind speed 10 meter above ground. This study shows that the wind speed exhibits different behaviors on a macro level. In the last chapter, we present the tools used in a probabilistic prediction framework and underline their merits. First, we explain the relevancy of probabilistic prediction and expose this domain's state of the art. We carry on with an historical approach of popular probabilistic scores. The used algorithms are then thoroughly described before the descriptions of their empirical results on the mean sea level pressure and wind speed.Dans cette thèse, nous nous intéressons à des problèmes de prévision tour après tour. L'objectif est d'imaginer et d'appliquer des stratégies automatiques, qui tirent de l'expérience du passé et s'aident éventuellement de prédicteurs élémentaires. Nous souhaitons que ces stratégies obtiennent des garanties mathématiques robustes et soient valables dans des cas de figure très généraux. Cela nous permet en pratique d'appliquer les algorithmes qui en découlent à la prévision concrète de grandeurs météorologiques. Enfin, nous nous intéressons aux déclinaisons théoriques et pratiques dans un cadre de prévision de fonctions de répartition. Nous étudions dans un premier temps la prévision séquentielle de processus bornés stationnaires ergodiques. Dans ce but, nous nous plaçons dans le cadre des suites individuelles et proposons un arbre de régression déterministe dont les prévisions sont asymptotiquement meilleures que le meilleur prédicteur lipschitzien pour une certaine constante L. Puis nous montrons que les bornes de regret obtenues impliquent que les stratégies envisagées sont asymptotiquement optimales par rapport à la classe des processus stationnaire ergodique bornés. Dans un second temps, nous présentons une méthode d'agrégation séquentielle des simulations météorologiques de pression réduite au niveau de la mer. L'objectif est d'obtenir, grâce à l'algorithme ridge, de meilleures performances en prévision qu'une certaine prévision de référence, à préciser. Tout d'abord, nous rappelons le cadre mathématique et les fondamentaux des sciences environnementales. Puis nous décrivons en détail les jeux de données utilisés et les performances pratiques de l'algorithme. Enfin, nous précisons certains aspects du jeu de données et certaines sensibilités aux paramètres l'algorithme ridge. Puis, nous déclinons la méthode précédente à l'étude d'une seconde grandeur physique : la norme de la vitesse du vent à dix mètres au-dessus du sol. Plusieurs remarques d'ordre physique sont faites au passage concernant ce jeu de données. Dans le dernier chapitre, nous présentons les enjeux et les outils de la prévision probabiliste avant de mettre en pratique deux algorithmes sur les jeux de données décrits précédemment. La première partie motive l'utilisation de prévisions probabilistes et expose l'état de l'art dans ce domaine et la seconde partie présente des scores probabilistes historiques et populaires. Les algorithmes utilisés sont ensuite décrits dans la troisième partie avant que ne soient détaillés les résultats empiriques de ceux-ci sur les jeux de données de pression réduite au niveau de la mer et de norme de la vitesse du vent

    Contributions à l’agrégation séquentielle robuste d’experts : Travaux sur l’erreur d’approximation et la prévision en loi. Applications à la prévision pour les marchés de l’énergie.

    Get PDF
    We are interested in online forecasting of an arbitrary sequence of observations. At each time step, some experts provide predictions of the next observation. Then, we form our prediction by combining the expert forecasts. This is the setting of online robust aggregation of experts. The goal is to ensure a small cumulative regret. In other words, we want that our cumulative loss does not exceed too much the one of the best expert. We are looking for worst-case guarantees: no stochastic assumption on the data to be predicted is made. The sequence of observations is arbitrary. A first objective of this work is to improve the prediction accuracy. We investigate several possibilities. An example is to design fully automatic procedures that can exploit simplicity of the data whenever it is present. Another example relies on working on the expert set so as to improve its diversity. A second objective of this work is to produce probabilistic predictions. We are interested in coupling the point prediction with a measure of uncertainty (i.e., interval forecasts,…). The real world applications of the above setting are multiple. Indeed, very few assumptions are made on the data. Besides, online learning that deals with data sequentially is crucial to process big data sets in real time. In this thesis, we carry out for EDF several empirical studies of energy data sets and we achieve good forecasting performance.Nous nous intéressons à prévoir séquentiellement une suite arbitraire d'observations. À chaque instant, des experts nous proposent des prévisions de la prochaine observation. Nous formons alors notre prévision en mélangeant celles des experts. C'est le cadre de l'agrégation séquentielle d'experts. L'objectif est d'assurer un faible regret cumulé. En d'autres mots, nous souhaitons que notre perte cumulée ne dépasse pas trop celle du meilleur expert sur le long terme. Nous cherchons des garanties très robustes~: aucune hypothèse stochastique sur la suite d'observations à prévoir n'est faite. Celle-ci est supposée arbitraire et nous souhaitons des garanties qui soient vérifiées quoi qu'il arrive. Un premier objectif de ce travail est l'amélioration de la performance des prévisions. Plusieurs possibilités sont proposées. Un exemple est la création d'algorithmes adaptatifs qui cherchent à s'adapter automatiquement à la difficulté de la suite à prévoir. Un autre repose sur la création de nouveaux experts à inclure au mélange pour apporter de la diversité dans l'ensemble d'experts. Un deuxième objectif de la thèse est d'assortir les prévisions d'une mesure d'incertitude, voire de prévoir des lois. Les applications pratiques sont nombreuses. En effet, très peu d'hypothèses sont faites sur les données. Le côté séquentiel permet entre autres de traiter de grands ensembles de données. Nous considérons dans cette thèse divers jeux de données du monde de l'énergie (consommation électrique, prix de l'électricité,...) pour montrer l'universalité de l'approche

    Sequential Quantile Prediction of Time Series

    Get PDF
    Motivated by a broad range of potential applications, we address the quantile prediction problem of real-valued time series. We present a sequential quantile forecasting model based on the combination of a set of elementary nearest neighbor-type predictors called “experts” and show its consistency under a minimum of conditions. Our approach builds on the methodology developed in recent years for prediction of individual sequences and exploits the quantile structure as a minimizer of the so-called pinball loss function. We perform an in-depth analysis of real-world data sets and show that this nonparametric strategy generally outperforms standard quantile prediction methods

    Sequential Quantile Prediction of Time Series

    No full text
    Motivated by a broad range of potential applications, we address the quantile prediction problem of real-valued time series. We present a sequential quantile forecasting model based on the combination of a set of elementary nearest neighbor-type predictors called “experts” and show its consistency under a minimum of conditions. Our approach builds on the methodology developed in recent years for prediction of individual sequences and exploits the quantile structure as a minimizer of the so-called pinball loss function. We perform an in-depth analysis of real-world data sets and show that this nonparametric strategy generally outperforms standard quantile prediction methods
    corecore