61 research outputs found

    Estimation et sélection pour les modèles additifs et application à la prévision de la consommation électrique

    Get PDF
    French electricity load forecasting encounters major changes since the past decade. These changes are, among others things, due to the opening of electricity market (and economical crisis), which asks development of new automatic time adaptive prediction methods. The advent of innovating technologies also needs the development of some automatic methods, because we have to study thousands or tens of thousands time series. We adopt for time prediction a semi-parametric approach based on additive models. We present an automatic procedure for covariate selection in a additive model. We combine Group LASSO, which is selection consistent, with P-Splines, which are estimation consistent. Our estimation and model selection results are valid without assuming that the norm of each of the true non-zero components is bounded away from zero and need only that the norms of non-zero components converge to zero at a certain rate. Real applications on local and agregate load forecasting are provided.Keywords: Additive Model, Group LASSO, Load Forecasting, Multi-stage estimator, P-Splines, Variables selectionL'électricité ne se stockant pas aisément, EDF a besoin d'outils de prévision de consommation et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et d'estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles technologies, EDF peut étudier les mailles locales du réseau électrique, ce qui amène à un nombre important de séries chronologiques à étudier. De plus, avec les changements d'habitude de consommation et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous adoptons ici une méthode semi-paramétrique à base de modèles additifs. L'objectif de ce travail est de présenter des procédures automatiques de sélection et d'estimation de composantes d'un modèle additif avec des estimateurs en plusieurs étapes. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en sélection, et des P-Splines, qui sont consistantes en estimation. Nos résultats théoriques de consistance en sélection et en estimation sont obtenus sans nécessiter l'hypothèse classique que les normes des composantes non nulles du modèle additif soient bornées par une constante non nulle. En effet, nous autorisons cette norme à pouvoir converger vers 0 à une certaine vitesse. Les procédures sont illustrées sur des applications pratiques de prévision de consommation électrique nationale et locale.Mots-clés: Group LASSO, Estimateurs en plusieurs étapes, Modèle Additif, Prévision de charge électrique, P-Splines, Sélection de variable

    Long-term outcomes of CLIPPERS (chronic lymphocytic inflammation with pontine perivascular enhancement responsive to steroids) in a consecutive series of 12 patients.

    Get PDF
    BACKGROUND: Chronic lymphocytic inflammation with pontine perivascular enhancement responsive to steroids (CLIPPERS) is a central nervous system inflammatory disease. OBJECTIVE: To describe the disease course of CLIPPERS. DESIGN: A nationwide study was implemented to collect clinical, magnetic resonance imaging, cerebrospinal fluid, and brain biopsy specimen characteristics of patients with CLIPPERS. SETTING: Academic research. PATIENTS: Twelve patients with CLIPPERS. MAIN OUTCOME MEASURES: The therapeutic management of CLIPPERS was evaluated. RESULTS: Among 12 patients, 42 relapses were analyzed. Relapses lasted a mean duration of 2.5 months, manifested frequent cerebellar ataxia and diplopia, and were associated with a mean Expanded Disability Status Scale (EDSS) score of 4. Besides typical findings of CLIPPERS, magnetic resonance imaging showed brainstem mass effect in 5 patients, extensive myelitis in 3 patients, and closed ring enhancement in 1 patient. Inconstant oligoclonal bands were found on cerebrospinal fluid investigation in 4 patients, with an increased T-cell ratio of CD4 to CD8. Among 7 available brain biopsy specimens, staining was positive for perivascular CD4 T lymphocytes in 5 samples. Thirty-eight of 42 relapses were treated with pulse corticosteroid therapy, which led to improvement, with a mean residual EDSS score of 1.9 (range, 0-7). In 1 patient with untreated relapses, scores on the EDSS progressively increased to a score of 10 at death. Among 5 patients without long-term corticosteroid therapy, the mean annualized relapse rate was 0.5 (range, 0.25-2.8). Among 7 patients taking oral corticosteroids, no relapses occurred in those whose daily dose was 20 mg or higher. No progressive course of CLIPPERS was observed. Four patients with a final EDSS score of 4 or higher had experienced previous severe relapses (EDSS score, ≥5) and brainstem and spinal cord atrophy. CONCLUSIONS: CLIPPERS is a relapsing-remitting disorder without progressive forms. Long-term disability is correlated with the severity of previous relapses. Further studies are needed to confirm that prolonged corticosteroid therapy prevents further relapses.journal article2012 Julimporte

    Estimation et selection pour les modeles additifset application a la prevision de la consommation electrique

    Get PDF
    Cette thèse a été réalisée au laboratoire de Mathématiques d'Orsay, EDF R&D et dans le laboratoire select InriaFrench electricity load forecasting encounters major changes since the past decade. These changes are, among others things, due to the opening of electricity market (and economical crisis), which asks development of new automatic time adaptive prediction methods. The advent of innovating technologies also needs the development of some automatic methods, because we have to study thousands or tens of thousands time series. We adopt for time prediction a semi-parametric approach based on additive models. We present an automatic procedure for covariate selection in a additive model. We combine Group LASSO, which is selection consistent, with P-Splines, which are estimation consistent. Our estimation and model selection results are valid without assuming that the norm of each of the true non-zero components is bounded away from zero and need only that the norms of non-zero components converge to zero at a certain rate. Real applications on local and agregate load forecasting are provided.This phd has been achived in Orsay Mathematic Laboratory, EDF R&D and select InriaL'electricite ne se stockant pas aisement, EDF a besoin d'outils de prevision de consommation et de production efficaces. Le developpement de nouvelles methodes automatiques de selection et d'estimation de modeles de prevision est necessaire. En effet, grace au developpement de nouvelles technologies, EDF peut etudier les mailles locales du reseau electrique, ce qui amene a un nombre important de series chronologiques a etudier. De plus, avec les changements d'habitude de consommation et la crise economique, la consommation electrique en France evolue. Pour cette prevision, nous adoptons ici une methode semi-parametrique a base de modeles additifs. L'objectif de ce travail est de presenter des procedures automatiques de selection et d'estimation de composantes d'un modele additif avec des estimateurs en plusieurs etapes. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en selection, et des P-Splines, qui sont consistantes en estimation. Nos resultats theoriques de consistance en selection et en estimation sont obtenus sans necessiter l'hypothese classique que les normes des composantes non nulles du modeles additifs soient bornees par une constante non nulle. En effet, nous autorisons cette norme a pouvoir converger vers 0 a une certaine vitesse. Les procedures sont illustrees sur des applications pratiques de prevision de consommation electrique nationale et locale

    Estimation and selection in additive models and application to load demand forecasting

    No full text
    L'électricité ne se stockant pas aisément, EDF a besoin d'outils de prévision de consommation et de production efficaces. Le développement de nouvelles méthodes automatiques de sélection et d'estimation de modèles de prévision est nécessaire. En effet, grâce au développement de nouvelles technologies, EDF peut étudier les mailles locales du réseau électrique, ce qui amène à un nombre important de séries chronologiques à étudier. De plus, avec les changements d'habitude de consommation et la crise économique, la consommation électrique en France évolue. Pour cette prévision, nous adoptons ici une méthode semi-paramétrique à base de modèles additifs. L'objectif de ce travail est de présenter des procédures automatiques de sélection et d'estimation de composantes d'un modèle additif avec des estimateurs en plusieurs étapes. Nous utilisons du Group LASSO, qui est, sous certaines conditions, consistant en sélection, et des P-Splines, qui sont consistantes en estimation. Nos résultats théoriques de consistance en sélection et en estimation sont obtenus sans nécessiter l'hypothèse classique que les normes des composantes non nulles du modèle additif soient bornées par une constante non nulle. En effet, nous autorisons cette norme à pouvoir converger vers 0 à une certaine vitesse. Les procédures sont illustrées sur des applications pratiques de prévision de consommation électrique nationale et locale.Mots-clés: Group LASSO, Estimateurs en plusieurs étapes, Modèle Additif, Prévision de charge électrique, P-Splines, Sélection de variablesFrench electricity load forecasting encounters major changes since the past decade. These changes are, among others things, due to the opening of electricity market (and economical crisis), which asks development of new automatic time adaptive prediction methods. The advent of innovating technologies also needs the development of some automatic methods, because we have to study thousands or tens of thousands time series. We adopt for time prediction a semi-parametric approach based on additive models. We present an automatic procedure for covariate selection in a additive model. We combine Group LASSO, which is selection consistent, with P-Splines, which are estimation consistent. Our estimation and model selection results are valid without assuming that the norm of each of the true non-zero components is bounded away from zero and need only that the norms of non-zero components converge to zero at a certain rate. Real applications on local and agregate load forecasting are provided.Keywords: Additive Model, Group LASSO, Load Forecasting, Multi-stage estimator, P-Splines, Variables selectio

    Variance-based importance measures for machine learning model interpretability

    No full text
    International audienceMachine learning algorithms benefit from an unprecedented boost in the industrial world, in particular in support of decision-making for critical systems. However, their lack of “interpretability” remains a challenge to leverage in order to make these tools fully intelligible and auditable. This paper aims to track and synthesize of a panel of interpretability metrics (called “importance measures”) whose aim is to quantify the impact of each predictor on the statistical model’s output variance. It is shown that the choice of a relevant metric has to be guided by proper constraints imposed by the data and the considered model (linear vs. nonlinear phenomenon of interest, input dimension, input dependency) together with taking the type of study the user wants to perform into consideration (detect influential variables, rank them, etc.). Finally, these metrics are estimated and analyzed on a public dataset so as to illustrate some of their theoretical and empirical properties.Les algorithmes statistiques d'apprentissage automatique (ou machine learning) connaissent un essor sans précédent dans le monde industriel, notamment pour l'aide à la décision en ingénierie des systèmes critiques. Toutefois, leur manque d'"interprétabilité" est un verrou à lever afin de rendre ces outils intelligibles et auditables. Ce papier vise à dresser une cartographie de certaines métriques d'interprétabilité (appelées "mesures d'importance") dont le but est de quantifier l'impact de chaque prédicteur sur la variance de la sortie du modèle statistique. Il est montré que le choix d'une métrique pertinente doit être guidé par les contraintes inhérentes aux données et au modèle considéré (caractère linéaire ou non du phénomène d'intérêt, dimension du problème, dépendance des prédicteurs) et par le type d'étude que l'utilisateur souhaite mener (détecter les variables influentes, les hiérarchiser, etc.). Enfin, ces métriques sont estimées et analysées sur un jeu de données public afin d'illustrer certaines de leurs propriétés théoriques et empiriques. Keywords-apprentissage statistique, interprétabilité, analyse de sensibilité, effets de Shapley, indices de Sobol' Abstract-Machine learning algorithms benefit from an unprecedented boost in the industrial world, in particular in support of decision-making for critical systems. However, their lack of "interpretability" remains a challenge to leverage in order to make these tools fully intelligible and auditable. This paper aims to track and synthesize of a panel of interpretability metrics (called "importance measures") whose aim is to quantify the impact of each predictor on the statistical model's output variance. It is shown that the choice of a relevant metric has to be guided by proper constraints imposed by the data and the considered model (linear vs. nonlinear phenomenon of interest, input dimension, input dependency) together with taking the type of study the user wants to perform into consideration (detect influential variables, rank them, etc.). Finally, these metrics are estimated and analyzed on a public dataset so as to illustrate some of their theoretical and empirical properties

    Variance-based importance measures for machine learning model interpretability

    No full text
    International audienceMachine learning algorithms benefit from an unprecedented boost in the industrial world, in particular in support of decision-making for critical systems. However, their lack of "interpretability" remains a challenge to leverage in order to make these tools fully intelligible and auditable. This paper aims to track and synthesize of a panel of interpretability metrics (called "importance measures") whose aim is to quantify the impact of each predictor on the statistical model's output variance. It is shown that the choice of a relevant metric has to be guided by proper constraints imposed by the data and the considered model (linear vs. nonlinear phenomenon of interest, input dimension, input dependency) together with taking the type of study the user wants to perform into consideration (detect influential variables, rank them, etc.). Finally, these metrics are estimated and analyzed on a public dataset so as to illustrate some of their theoretical and empirical properties

    Variance-based importance measures for machine learning model interpretability

    No full text
    Machine learning algorithms benefit from an unprecedented boost in the industrial world, in particular in support of decision-making for critical systems. However, their lack of “interpretability” remains a challenge to leverage in order to make these tools fully intelligible and auditable. This paper aims to track and synthesize of a panel of interpretability metrics (called “importance measures”) whose aim is to quantify the impact of each predictor on the statistical model’s output variance. It is shown that the choice of a relevant metric has to be guided by proper constraints imposed by the data and the considered model (linear vs. nonlinear phenomenon of interest, input dimension, input dependency) together with taking the type of study the user wants to perform into consideration (detect influential variables, rank them, etc.). Finally, these metrics are estimated and analyzed on a public dataset so as to illustrate some of their theoretical and empirical properties.Les algorithmes statistiques d'apprentissage automatique (ou machine learning) connaissent un essor sans précédent dans le monde industriel, notamment pour l'aide à la décision en ingénierie des systèmes critiques. Toutefois, leur manque d'"interprétabilité" est un verrou à lever afin de rendre ces outils intelligibles et auditables. Ce papier vise à dresser une cartographie de certaines métriques d'interprétabilité (appelées "mesures d'importance") dont le but est de quantifier l'impact de chaque prédicteur sur la variance de la sortie du modèle statistique. Il est montré que le choix d'une métrique pertinente doit être guidé par les contraintes inhérentes aux données et au modèle considéré (caractère linéaire ou non du phénomène d'intérêt, dimension du problème, dépendance des prédicteurs) et par le type d'étude que l'utilisateur souhaite mener (détecter les variables influentes, les hiérarchiser, etc.). Enfin, ces métriques sont estimées et analysées sur un jeu de données public afin d'illustrer certaines de leurs propriétés théoriques et empiriques. Keywords-apprentissage statistique, interprétabilité, analyse de sensibilité, effets de Shapley, indices de Sobol' Abstract-Machine learning algorithms benefit from an unprecedented boost in the industrial world, in particular in support of decision-making for critical systems. However, their lack of "interpretability" remains a challenge to leverage in order to make these tools fully intelligible and auditable. This paper aims to track and synthesize of a panel of interpretability metrics (called "importance measures") whose aim is to quantify the impact of each predictor on the statistical model's output variance. It is shown that the choice of a relevant metric has to be guided by proper constraints imposed by the data and the considered model (linear vs. nonlinear phenomenon of interest, input dimension, input dependency) together with taking the type of study the user wants to perform into consideration (detect influential variables, rank them, etc.). Finally, these metrics are estimated and analyzed on a public dataset so as to illustrate some of their theoretical and empirical properties

    Variance-based importance measures for machine learning model interpretability

    No full text
    International audienceMachine learning algorithms benefit from an unprecedented boost in the industrial world, in particular in support of decision-making for critical systems. However, their lack of "interpretability" remains a challenge to leverage in order to make these tools fully intelligible and auditable. This paper aims to track and synthesize of a panel of interpretability metrics (called "importance measures") whose aim is to quantify the impact of each predictor on the statistical model's output variance. It is shown that the choice of a relevant metric has to be guided by proper constraints imposed by the data and the considered model (linear vs. nonlinear phenomenon of interest, input dimension, input dependency) together with taking the type of study the user wants to perform into consideration (detect influential variables, rank them, etc.). Finally, these metrics are estimated and analyzed on a public dataset so as to illustrate some of their theoretical and empirical properties

    Sélection de variables dans les modèles additifs avec des estimateurs en plusieurs étapes

    No full text
    In this document, we present some multi-step nonparametric estimators used for additive models, whose components are approximated by their series developments in B-splines. We assume that the number of covariates can be larger than the number of observations, but that the number of influent covariates is less than the number of observations. In our work, the fact that a covariate has a significant effect does not mean that the norm of the corresponding component is bounded below by a constant positive bound as it is usually assumed in this context, since we only request that norms of significant components to be bounded below by a bound that may decrease to zero at an appropriate speed. We focus on selection and estimation of sparse additive models in this asymptotic context. Our multi-step estimators combine least squares or P-Splines estimators with Group LASSO. We discuss several model selection criteria (AIC, GCV or BIC) and we establish the proofs of selection and estimation consistency of one of our estimators. The behaviour of the resulting estimators is illustrated via simulations.Dans ce document, nous présentons des méthodes d'estimation non paramétrique en plusieurs étapes de modèles additifs dont les composantes sont approchées par leurs développements dans des bases de B-splines. Nous nous plaçons dans un contexte asymptotique dans lequel le nombre d'observations tend vers l'infini et le nombre de covariables candidates pour expliquer le modèle peut éventuellement être plus élevé que le nombre d'observations disponibles, mais pour lequel on suppose qu'il y a moins de covariables "influentes" que d'observations. Pour notre travail, la notion d'effet significatif d'une variable ne se traduit pas, comme il est habituel dans ce contexte, par une norme de la variable bornée inférieurement par une constante strictement positive, car nous supposons que la norme de chaque composante significative est minorée par une suite décroissante dépendant du nombre d'observations et pouvant tendre vers 0 asymptotiquement. Nous étudions ainsi les problèmes de sélection et d'estimation de modèles additifs creux. Nous combinons les techniques des moindres carrés ordinaires (MCO) ou les P-Splines avec le Group LASSO. Nous discutons aussi du choix du critère de sélection de modèle (AIC, GCV ou BIC). Nous établissons la la consistance en sélection et en estimation d'un de nos estimateurs, puis illustrons le bien fondé des méthodes développées par des simulations
    • …
    corecore