60 research outputs found

    Régression logistique sous contrainte avec standardisation en ligne pour flux de données

    Get PDF
    International audienceWe study a stochastic gradient algorithm for performing online a constrained binary logistic regression in the case of streaming or massive data. Assuming that observed data are realizations of a random vector, these data are standardized online in particular to avoid a numerical explosion or when a shrinkage method such as LASSO is used. We prove the almost sure convergence of a variable step-size constrained stochastic gradient process with averaging when a varying number of new data is introduced at each step. Several stochastic approximation processes with raw data or online standardized data are compared on observed or simulated datasets. The best results are obtained by processes with online standardized data.Nous étudions un algorithme de gradient stochastique pour réaliser une régression logistique sous contraintes dans le cas de données massives ou en ligne. En supposant que les données observées sont les réalisations d’un vecteur aléatoire, ces données sont standardisées en ligne pour éviter une explosion numérique ou lorsqu’une méthode de pénalisation telle que LASSO est utilisée. Nous démontrons la convergence presque sûre d’un processus de gradient stochastique moyenné à pas variable lorsqu’un nombre variable de nouvelles données sont introduites à chaque étape. Vingt-quatre processus d’approximation stochastique avec des données brutes ou standardisées en ligne sont comparés sur des données réelles ou simulées. Les meilleurs résultats sont obtenus pour des processus avec données standardisées

    Actualisation en ligne d'un score d'ensemble

    Get PDF
    International audienceBy constructing a collection of predictors (by varying samples, selection of variables, learning rules, etc.) whose predictions are then aggregated, ensemble methods obtain better results than individual predictors. In an online setting, where data arrives continuously, we want to update the parameters of a score constructed with an ensemble method. We consider the case where it is impossible to keep all the data obtained previously and to compute again the parameters on all the data at each new observation. We propose a method for updating an ensemble score online using Poisson bootstrap and stochastic algorithms.En construisant une collection de prédicteurs (en faisant varier les échantillons utilisés, les variables retenues, les règles d'apprentissage, ...) dont les prédictions sont en-suite agrégées, les méthodes d'ensemble permettent d'obtenir de meilleurs résultats que les prédicteurs individuels. Dans un contexte en ligne où des données arrivent de façon continue , on souhaite actualiser les paramètres d'un score construit à l'aide d'une méthode d'ensemble. On considère le cas où il est impossible de conserver toutes les données obtenues précédemment et de recalculer les paramètres sur l'ensemble des données à chaque nouvelle observation. Nous proposons une méthode d'actualisation en ligne d'un score d'ensemble à l'aide de bootstrap Poisson et d'algorithmes stochastiques. Mots-clés. Algorithmes stochastiques, apprentissage pour les données massives, médecine, méthode d'ensemble, score en ligne

    Convergence d'un score d'ensemble en ligne : Ă©tude empirique

    Get PDF
    International audienceIn an online setting, where data arrives continuously, we want to update the parameters of a "batch" score constructed with an ensemble method. To do so, we use stochastic approximation processes, the convergence of which has been theoretically established by the authors, so that parameter estimates can be updated when new observations are taken into account without the need to store all the data obtained previously. Here we study empirically the convergence of the online score to the "batch" score, using different datasets from which data streams are simulated and using different types of processes.Dans un contexte en ligne où des données arrivent de façon continue, on souhaite actualiser les paramètres d'un score "batch" construit à l'aide d'une méthode d'ensemble. On utilise pour cela des processus d'approximation stochastique, dont la convergence a été établie théoriquement par les auteurs, permettant d'actualiser les estimations des paramètres lors de la prise en compte de nouvelles observations sans avoir à conserver toutes les données obtenues précédemment. Nous étudions ici empiriquement la convergence du score en ligne vers le score "batch", en utilisant différents jeux de données a partir desquels on simule des flux de données et différents types de processus

    Construction d'un score d'événement à court terme pour les insuffisants cardiaques

    Get PDF
    International audienceL'insuffisance cardiaque (IC) est un problème majeur de santé publique. Afin d'identifier les patients à risque de décéder ou d'être hospitalisé pour progression de l'IC à court terme, nous avons construit un score d'événement d'IC par l'intermédiaire d'une méthode d'ensemble, en utilisant deux règles de classification différentes, la régression logistique et l'analyse discriminante linéaire de données mixtes, des échantillons bootstrap, et en introduisant un aléa dans la construction des prédicteurs par une sélection aléatoire de variables. L'intervalle de variation du score a été ramené sur une échelle de 0 à 100. Enfin, nous définissons une mesure du risque d'événement associé au score par un odds-ratio et mesurons l'importance des variables et des groupes de variables en utilisant les coefficients standardisés

    Score de risque d'événement et score en ligne pour des insuffisants cardiaques

    Get PDF
    International audienceOn présente la construction d'un score de risque d'événement à court terme pour des insuffisants cardiaques. On suppose ensuite que les données de patients arrivent de façon continue et que l'on veut actualiser en ligne la fonction de score. On étudie en particulier l'estimation en ligne des paramètres d'un mo-dèle de régression linéaire par un processus de gradient stochastique en utilisant des données standardisées en ligne au lieu des données brutes

    Streaming constrained binary logistic regression with online standardized data

    Get PDF
    International audienceOnline learning is a method for analyzing very large datasets ("big data") as well as data streams. In this article, we consider the case of constrained binary logistic regression and show the interest of using processes with an online standardization of the data, in particular to avoid numerical explosions or to allow the use of shrinkage methods. We prove the almost sure convergence of such a process and propose using a piecewise constant step-size such that the latter does not decrease too quickly and does not reduce the speed of convergence. We compare twenty-four stochastic approximation processes with raw or online standardized data on five real or simulated data sets. Results show that, unlike processes with raw data, processes with online standardized data can prevent numerical explosions and yield the best results

    Construction and update of an online ensemble score involving linear discriminant analysis and logistic regression

    Get PDF
    The present aim is to update, upon arrival of new learning data, the parameters of a score constructed with an ensemble method involving linear discriminant analysis and logistic regression in an online setting, without the need to store all of the previously obtained data. Poisson bootstrap and stochastic approximation processes were used with online standardized data to avoid numerical explosions, the convergence of which has been established theoretically. This empirical convergence of online ensemble scores to a reference "batch" score was studied on five different datasets from which data streams were simulated, comparing six different processes to construct the online scores. For each score, 50 replications using a total of 10N observations (N being the size of the dataset) were performed to assess the convergence and the stability of the method, computing the mean and standard deviation of a convergence criterion. A complementary study using 100N observations was also performed. All tested processes on all datasets converged after N iterations, except for one process on one dataset. The best processes were averaged processes using online standardized data and a piecewise constant step-size

    Régression logistique sous contrainte avec standardisation en ligne pour flux de données

    Get PDF
    International audienceWe study a stochastic gradient algorithm for performing online a constrained binary logistic regression in the case of streaming or massive data. Assuming that observed data are realizations of a random vector, these data are standardized online in particular to avoid a numerical explosion or when a shrinkage method such as LASSO is used. We prove the almost sure convergence of a variable step-size constrained stochastic gradient process with averaging when a varying number of new data is introduced at each step. Several stochastic approximation processes with raw data or online standardized data are compared on observed or simulated datasets. The best results are obtained by processes with online standardized data.Nous étudions un algorithme de gradient stochastique pour réaliser une régression logistique sous contraintes dans le cas de données massives ou en ligne. En supposant que les données observées sont les réalisations d’un vecteur aléatoire, ces données sont standardisées en ligne pour éviter une explosion numérique ou lorsqu’une méthode de pénalisation telle que LASSO est utilisée. Nous démontrons la convergence presque sûre d’un processus de gradient stochastique moyenné à pas variable lorsqu’un nombre variable de nouvelles données sont introduites à chaque étape. Vingt-quatre processus d’approximation stochastique avec des données brutes ou standardisées en ligne sont comparés sur des données réelles ou simulées. Les meilleurs résultats sont obtenus pour des processus avec données standardisées

    Sequential linear regression with online standardized data

    Get PDF
    International audienceThe present study addresses the problem of sequential least square multidimensional linear regression, particularly in the case of a data stream, using a stochastic approximation process. To avoid the phenomenon of numerical explosion which can be encountered and to reduce the computing time in order to take into account a maximum of arriving data, we propose using a process with online standardized data instead of raw data and the use of several observations per step or all observations until the current step. Herein, we define and study the almost sure convergence of three processes with online standardized data: a classical process with a variable step-size and use of a varying number of observations per step, an averaged process with a constant step-size and use of a varying number of observations per step, and a process with a variable or constant step-size and use of all observations until the current step. Their convergence is obtained under more general assumptions than classical ones. These processes are compared to classical processes on 11 datasets for a fixed total number of observations used and thereafter for a fixed processing time. Analyses indicate that the third-defined process typically yields the best results
    • …
    corecore