46 research outputs found
Analyse supervisée multibloc en grande dimension
Statistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a degenerate case of statistical analysis which needs specific tools. The regularization algorithms can deal with those drawbacks. Different types of regularization methods can be used which depends on the data set structure but also upon the question. In this work, the main objective was to use the available information with soft-thresholded empirical covariance matrix estimations through SVD decompositions. This solution is particularly efficient in terms of variable selection and computation time. Heterogeneous typed data sets (coming from different sources and also called multiblock data) were at the core of our methodology. Since some data set generations are expensive, it is common to down sample the population acquiring some types of data. This leads to multi-block missing data patterns. The second objective of our methodology is to deal with those missing values using the response values. But the response values are not present in the test data sets and so we have designed a methodology which permits to consider both the cases of missing values in the train or in the test data sets. Thanks to soft-thresholding, our methodology can regularize and select features. This estimator needs only two parameters to be fixed which are the number of components and the maximum number of features to be selected. The corresponding tuning is performed by cross-validation. According to simulations, the proposed method shows very good results comparing to benchmark methods, especially in terms of prediction and computation time. This method has also been applied to several real data sets associated with vaccine, thomboembolic and food researches.Lâapprentissage statistique consiste Ă apprendre Ă partir de donnĂ©es mesurĂ©es dans un Ă©chantillon dâindividus et cherche Ă prĂ©dire la grandeur dâintĂ©rĂȘt chez un nouvel individu. Dans le cas de la vaccination, ou dans dâautres cas dont certains prĂ©sentĂ©s dans ce manuscrit, le nombre de variables mesurĂ©es dĂ©passe le nombre dâindividus observĂ©s, câest un cas dĂ©gĂ©nĂ©rĂ© dâanalyse statistique qui nĂ©cessite lâutilisation de mĂ©thodes spĂ©cifiques. Les propriĂ©tĂ©s des algorithmes de rĂ©gularisation permettent de gĂ©rer ces cas. Il en existe plusieurs types en fonction de la structure des donnĂ©es considĂ©rĂ©es et du problĂšme qui sont Ă©tudiĂ©s. Dans le cas de ce travail, lâobjectif principal a Ă©tĂ© dâutiliser lâinformation disponible Ă lâissue de dĂ©compositions en Ă©lĂ©ments propres des matrices de covariances transformĂ©es via un opĂ©rateur de seuillage doux. Cette solution est particuliĂšrement peu coĂ»teuse en termes de temps de calcul et permet la sĂ©lection des variables dâintĂ©rĂȘt. Nous nous sommes centrĂ©s sur les donnĂ©es qualifiĂ©es dâhĂ©tĂ©rogĂšnes, câest Ă dire issues de jeux de donnĂ©es qui sont provenant de sources ou de technologies distinctes. On parle aussi de donnĂ©es multiblocs. Les coĂ»ts dâutilisation de certaines technologies pouvant ĂȘtre prohibitifs, il est souvent choisi de ne pas acquĂ©rir certaines donnĂ©es sur lâensemble dâun Ă©chantillon, mais seulement sur un sous-Ă©chantillon dâĂ©tude. Dans ce cas, le jeu de donnĂ©es se retrouve amputĂ© dâune partie non nĂ©gligeable de lâinformation. La structure des donnĂ©es associĂ©e Ă ces dĂ©fauts dâacquisition induit une rĂ©partition elle-mĂȘme multibloc de ces donnĂ©es manquantes, on parle alors de donnĂ©es manquantes par blocs. Le second objectif de notre mĂ©thode est de gĂ©rer ces donnĂ©es manquantes par blocs en sâappuyant sur lâinformation Ă prĂ©dire, ceci dans le but de crĂ©er un modĂšle prĂ©dictif qui puisse gĂ©rer les donnĂ©es manquantes aussi bien pour les donnĂ©es dâentraĂźnement que pour celles de test. Cette mĂ©thode emprunte au seuillage doux afin de sĂ©lectionner les variables dâintĂ©rĂȘt et ne nĂ©cessite que deux paramĂštres Ă rĂ©gler qui sont le nombre de composantes et le nombre de variables Ă sĂ©lectionner parmi les covariables. Ce paramĂ©trage est classiquement rĂ©alisĂ© par validation croisĂ©e. La mĂ©thode dĂ©veloppĂ©e a fait lâobjet de simulations la comparant aux principales mĂ©thodes existantes. Elle montre dâexcellents rĂ©sultats en prĂ©diction et en termes de temps de calcul. Elle a aussi Ă©tĂ© appliquĂ©e Ă plusieurs jeux de donnĂ©e
A Roadmap for HEP Software and Computing R&D for the 2020s
Particle physics has an ambitious and broad experimental programme for the coming decades. This programme requires large investments in detector hardware, either to build new facilities and experiments, or to upgrade existing ones. Similarly, it requires commensurate investment in the R&D of software to acquire, manage, process, and analyse the shear amounts of data to be recorded. In planning for the HL-LHC in particular, it is critical that all of the collaborating stakeholders agree on the software goals and priorities, and that the efforts complement each other. In this spirit, this white paper describes the R&D activities required to prepare for this software upgrade.Peer reviewe
Supervised analysis of high dimensional multibloc data
Lâapprentissage statistique consiste Ă apprendre Ă partir de donnĂ©es mesurĂ©es dans un Ă©chantillon dâindividus et cherche Ă prĂ©dire la grandeur dâintĂ©rĂȘt chez un nouvel individu. Dans le cas de la vaccination, ou dans dâautres cas dont certains prĂ©sentĂ©s dans ce manuscrit, le nombre de variables mesurĂ©es dĂ©passe le nombre dâindividus observĂ©s, câest un cas dĂ©gĂ©nĂ©rĂ© dâanalyse statistique qui nĂ©cessite lâutilisation de mĂ©thodes spĂ©cifiques. Les propriĂ©tĂ©s des algorithmes de rĂ©gularisation permettent de gĂ©rer ces cas. Il en existe plusieurs types en fonction de la structure des donnĂ©es considĂ©rĂ©es et du problĂšme qui sont Ă©tudiĂ©s. Dans le cas de ce travail, lâobjectif principal a Ă©tĂ© dâutiliser lâinformation disponible Ă lâissue de dĂ©compositions en Ă©lĂ©ments propres des matrices de covariances transformĂ©es via un opĂ©rateur de seuillage doux. Cette solution est particuliĂšrement peu coĂ»teuse en termes de temps de calcul et permet la sĂ©lection des variables dâintĂ©rĂȘt. Nous nous sommes centrĂ©s sur les donnĂ©es qualifiĂ©es dâhĂ©tĂ©rogĂšnes, câest Ă dire issues de jeux de donnĂ©es qui sont provenant de sources ou de technologies distinctes. On parle aussi de donnĂ©es multiblocs. Les coĂ»ts dâutilisation de certaines technologies pouvant ĂȘtre prohibitifs, il est souvent choisi de ne pas acquĂ©rir certaines donnĂ©es sur lâensemble dâun Ă©chantillon, mais seulement sur un sous-Ă©chantillon dâĂ©tude. Dans ce cas, le jeu de donnĂ©es se retrouve amputĂ© dâune partie non nĂ©gligeable de lâinformation. La structure des donnĂ©es associĂ©e Ă ces dĂ©fauts dâacquisition induit une rĂ©partition elle-mĂȘme multibloc de ces donnĂ©es manquantes, on parle alors de donnĂ©es manquantes par blocs. Le second objectif de notre mĂ©thode est de gĂ©rer ces donnĂ©es manquantes par blocs en sâappuyant sur lâinformation Ă prĂ©dire, ceci dans le but de crĂ©er un modĂšle prĂ©dictif qui puisse gĂ©rer les donnĂ©es manquantes aussi bien pour les donnĂ©es dâentraĂźnement que pour celles de test. Cette mĂ©thode emprunte au seuillage doux afin de sĂ©lectionner les variables dâintĂ©rĂȘt et ne nĂ©cessite que deux paramĂštres Ă rĂ©gler qui sont le nombre de composantes et le nombre de variables Ă sĂ©lectionner parmi les covariables. Ce paramĂ©trage est classiquement rĂ©alisĂ© par validation croisĂ©e. La mĂ©thode dĂ©veloppĂ©e a fait lâobjet de simulations la comparant aux principales mĂ©thodes existantes. Elle montre dâexcellents rĂ©sultats en prĂ©diction et en termes de temps de calcul. Elle a aussi Ă©tĂ© appliquĂ©e Ă plusieurs jeux de donnĂ©esStatistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a degenerate case of statistical analysis which needs specific tools. The regularization algorithms can deal with those drawbacks. Different types of regularization methods can be used which depends on the data set structure but also upon the question. In this work, the main objective was to use the available information with soft-thresholded empirical covariance matrix estimations through SVD decompositions. This solution is particularly efficient in terms of variable selection and computation time. Heterogeneous typed data sets (coming from different sources and also called multiblock data) were at the core of our methodology. Since some data set generations are expensive, it is common to down sample the population acquiring some types of data. This leads to multi-block missing data patterns. The second objective of our methodology is to deal with those missing values using the response values. But the response values are not present in the test data sets and so we have designed a methodology which permits to consider both the cases of missing values in the train or in the test data sets. Thanks to soft-thresholding, our methodology can regularize and select features. This estimator needs only two parameters to be fixed which are the number of components and the maximum number of features to be selected. The corresponding tuning is performed by cross-validation. According to simulations, the proposed method shows very good results comparing to benchmark methods, especially in terms of prediction and computation time. This method has also been applied to several real data sets associated with vaccine, thomboembolic and food researches
Supervised analysis of high dimensional multibloc data
Lâapprentissage statistique consiste Ă apprendre Ă partir de donnĂ©es mesurĂ©es dans un Ă©chantillon dâindividus et cherche Ă prĂ©dire la grandeur dâintĂ©rĂȘt chez un nouvel individu. Dans le cas de la vaccination, ou dans dâautres cas dont certains prĂ©sentĂ©s dans ce manuscrit, le nombre de variables mesurĂ©es dĂ©passe le nombre dâindividus observĂ©s, câest un cas dĂ©gĂ©nĂ©rĂ© dâanalyse statistique qui nĂ©cessite lâutilisation de mĂ©thodes spĂ©cifiques. Les propriĂ©tĂ©s des algorithmes de rĂ©gularisation permettent de gĂ©rer ces cas. Il en existe plusieurs types en fonction de la structure des donnĂ©es considĂ©rĂ©es et du problĂšme qui sont Ă©tudiĂ©s. Dans le cas de ce travail, lâobjectif principal a Ă©tĂ© dâutiliser lâinformation disponible Ă lâissue de dĂ©compositions en Ă©lĂ©ments propres des matrices de covariances transformĂ©es via un opĂ©rateur de seuillage doux. Cette solution est particuliĂšrement peu coĂ»teuse en termes de temps de calcul et permet la sĂ©lection des variables dâintĂ©rĂȘt. Nous nous sommes centrĂ©s sur les donnĂ©es qualifiĂ©es dâhĂ©tĂ©rogĂšnes, câest Ă dire issues de jeux de donnĂ©es qui sont provenant de sources ou de technologies distinctes. On parle aussi de donnĂ©es multiblocs. Les coĂ»ts dâutilisation de certaines technologies pouvant ĂȘtre prohibitifs, il est souvent choisi de ne pas acquĂ©rir certaines donnĂ©es sur lâensemble dâun Ă©chantillon, mais seulement sur un sous-Ă©chantillon dâĂ©tude. Dans ce cas, le jeu de donnĂ©es se retrouve amputĂ© dâune partie non nĂ©gligeable de lâinformation. La structure des donnĂ©es associĂ©e Ă ces dĂ©fauts dâacquisition induit une rĂ©partition elle-mĂȘme multibloc de ces donnĂ©es manquantes, on parle alors de donnĂ©es manquantes par blocs. Le second objectif de notre mĂ©thode est de gĂ©rer ces donnĂ©es manquantes par blocs en sâappuyant sur lâinformation Ă prĂ©dire, ceci dans le but de crĂ©er un modĂšle prĂ©dictif qui puisse gĂ©rer les donnĂ©es manquantes aussi bien pour les donnĂ©es dâentraĂźnement que pour celles de test. Cette mĂ©thode emprunte au seuillage doux afin de sĂ©lectionner les variables dâintĂ©rĂȘt et ne nĂ©cessite que deux paramĂštres Ă rĂ©gler qui sont le nombre de composantes et le nombre de variables Ă sĂ©lectionner parmi les covariables. Ce paramĂ©trage est classiquement rĂ©alisĂ© par validation croisĂ©e. La mĂ©thode dĂ©veloppĂ©e a fait lâobjet de simulations la comparant aux principales mĂ©thodes existantes. Elle montre dâexcellents rĂ©sultats en prĂ©diction et en termes de temps de calcul. Elle a aussi Ă©tĂ© appliquĂ©e Ă plusieurs jeux de donnĂ©esStatistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a degenerate case of statistical analysis which needs specific tools. The regularization algorithms can deal with those drawbacks. Different types of regularization methods can be used which depends on the data set structure but also upon the question. In this work, the main objective was to use the available information with soft-thresholded empirical covariance matrix estimations through SVD decompositions. This solution is particularly efficient in terms of variable selection and computation time. Heterogeneous typed data sets (coming from different sources and also called multiblock data) were at the core of our methodology. Since some data set generations are expensive, it is common to down sample the population acquiring some types of data. This leads to multi-block missing data patterns. The second objective of our methodology is to deal with those missing values using the response values. But the response values are not present in the test data sets and so we have designed a methodology which permits to consider both the cases of missing values in the train or in the test data sets. Thanks to soft-thresholding, our methodology can regularize and select features. This estimator needs only two parameters to be fixed which are the number of components and the maximum number of features to be selected. The corresponding tuning is performed by cross-validation. According to simulations, the proposed method shows very good results comparing to benchmark methods, especially in terms of prediction and computation time. This method has also been applied to several real data sets associated with vaccine, thomboembolic and food researches
Analyse supervisée multibloc en grande dimension
Statistical learning objective is to learn from observed data in order to predict the response for a new sample. In the context of vaccination, the number of features is higher than the number of individuals. This is a degenerate case of statistical analysis which needs specific tools. The regularization algorithms can deal with those drawbacks. Different types of regularization methods can be used which depends on the data set structure but also upon the question. In this work, the main objective was to use the available information with soft-thresholded empirical covariance matrix estimations through SVD decompositions. This solution is particularly efficient in terms of variable selection and computation time. Heterogeneous typed data sets (coming from different sources and also called multiblock data) were at the core of our methodology. Since some data set generations are expensive, it is common to down sample the population acquiring some types of data. This leads to multi-block missing data patterns. The second objective of our methodology is to deal with those missing values using the response values. But the response values are not present in the test data sets and so we have designed a methodology which permits to consider both the cases of missing values in the train or in the test data sets. Thanks to soft-thresholding, our methodology can regularize and select features. This estimator needs only two parameters to be fixed which are the number of components and the maximum number of features to be selected. The corresponding tuning is performed by cross-validation. According to simulations, the proposed method shows very good results comparing to benchmark methods, especially in terms of prediction and computation time. This method has also been applied to several real data sets associated with vaccine, thomboembolic and food researches.Lâapprentissage statistique consiste Ă apprendre Ă partir de donnĂ©es mesurĂ©es dans un Ă©chantillon dâindividus et cherche Ă prĂ©dire la grandeur dâintĂ©rĂȘt chez un nouvel individu. Dans le cas de la vaccination, ou dans dâautres cas dont certains prĂ©sentĂ©s dans ce manuscrit, le nombre de variables mesurĂ©es dĂ©passe le nombre dâindividus observĂ©s, câest un cas dĂ©gĂ©nĂ©rĂ© dâanalyse statistique qui nĂ©cessite lâutilisation de mĂ©thodes spĂ©cifiques. Les propriĂ©tĂ©s des algorithmes de rĂ©gularisation permettent de gĂ©rer ces cas. Il en existe plusieurs types en fonction de la structure des donnĂ©es considĂ©rĂ©es et du problĂšme qui sont Ă©tudiĂ©s. Dans le cas de ce travail, lâobjectif principal a Ă©tĂ© dâutiliser lâinformation disponible Ă lâissue de dĂ©compositions en Ă©lĂ©ments propres des matrices de covariances transformĂ©es via un opĂ©rateur de seuillage doux. Cette solution est particuliĂšrement peu coĂ»teuse en termes de temps de calcul et permet la sĂ©lection des variables dâintĂ©rĂȘt. Nous nous sommes centrĂ©s sur les donnĂ©es qualifiĂ©es dâhĂ©tĂ©rogĂšnes, câest Ă dire issues de jeux de donnĂ©es qui sont provenant de sources ou de technologies distinctes. On parle aussi de donnĂ©es multiblocs. Les coĂ»ts dâutilisation de certaines technologies pouvant ĂȘtre prohibitifs, il est souvent choisi de ne pas acquĂ©rir certaines donnĂ©es sur lâensemble dâun Ă©chantillon, mais seulement sur un sous-Ă©chantillon dâĂ©tude. Dans ce cas, le jeu de donnĂ©es se retrouve amputĂ© dâune partie non nĂ©gligeable de lâinformation. La structure des donnĂ©es associĂ©e Ă ces dĂ©fauts dâacquisition induit une rĂ©partition elle-mĂȘme multibloc de ces donnĂ©es manquantes, on parle alors de donnĂ©es manquantes par blocs. Le second objectif de notre mĂ©thode est de gĂ©rer ces donnĂ©es manquantes par blocs en sâappuyant sur lâinformation Ă prĂ©dire, ceci dans le but de crĂ©er un modĂšle prĂ©dictif qui puisse gĂ©rer les donnĂ©es manquantes aussi bien pour les donnĂ©es dâentraĂźnement que pour celles de test. Cette mĂ©thode emprunte au seuillage doux afin de sĂ©lectionner les variables dâintĂ©rĂȘt et ne nĂ©cessite que deux paramĂštres Ă rĂ©gler qui sont le nombre de composantes et le nombre de variables Ă sĂ©lectionner parmi les covariables. Ce paramĂ©trage est classiquement rĂ©alisĂ© par validation croisĂ©e. La mĂ©thode dĂ©veloppĂ©e a fait lâobjet de simulations la comparant aux principales mĂ©thodes existantes. Elle montre dâexcellents rĂ©sultats en prĂ©diction et en termes de temps de calcul. Elle a aussi Ă©tĂ© appliquĂ©e Ă plusieurs jeux de donnĂ©e
SĂ©lection de variables en rĂ©gression SIR par seuillage doux ou seuillage dur de la matrice dâintĂ©rĂȘt
International audienc
HoPSIR: Homogeneous Penalization of Sliced Inverse Regression
En régression, les approches purement paramétriques nécessitent un modÚle parfois complexe à mettre en place. Inversement, les méthodes non-paramétriques souffrent lorsque la dimension de la variable explicative augmente puisqu'alors les points de données sont isolés les uns des autres. Les approches semi-paramétriques ont été proposées afin d'allier les bénéfices des deux approches. La méthode SIR (Sliced Inverse Regression en anglais pour Régression Inverse par Tranches en français) est une d'entre elles, la partie paramétrique permettant une réduction de dimension. En grande dimension, SIR n'est cependant plus applicable car elle nécessite l'inversion de la matrice de covariance empirique. Différentes approches ont été proposées afin de pallier cette limitation technique mais aucune n'a intégré sa solution via un modÚle statistique, ce que propose ce travail. Au travers d'une classe de fonctions particuliÚres, les fonctions homogÚnes de degré positif, nous introduisons une famille de lois a priori qui permet de construire une version pénalisée de SIR par maximisation de la loi a posteriori. Cette approche montre un excellent comportement sur simulations par comparaisons aux approches actuelles.In regression, purely parametric approaches require a model that is sometimes complex to set up. Conversely, non-parametric methods suffer when the dimension of the covariate increases as the data points are isolated from each other. Semi-parametric approaches have been proposed to combine the benefits of both approaches. The SIR method is one of them, the parametric part allowing a reduction of dimension. In high dimension, however, SIR is no longer applicable as it requires the inversion of the empirical covariance matrix. Different approaches have been proposed to overcome this technical limitation but none of them has integrated its solution via a statistical model, which is precisely what is proposed in this work. Through a particular class of functions, the homogeneous functions of positive degree, we introduce a family of prior distributions which allows to build a penalized version of SIR by maximizing the posterior distribution. This approach shows an excellent behaviour on simulations compared to current approaches
DĂ©tection dâindividus atypiques en rĂ©gression SIR (sliced inverse regression)
International audienc
Computational outlier detection methods in sliced inverse regression
Sliced inverse regression (SIR) focuses on the relationship between a dependent variable y and a p-dimensional explanatory variable x in a semiparametric regression model in which the link relies on an index x ÎČ and link function f. SIR allows to estimate the direction of ÎČ that forms the effective dimension reduction (EDR) space. Based on the estimated index, the link function f can then be nonparametrically estimated using kernel estimator. This two-step approach is sensitive to the presence of outliers in the data. The aim of this paper is to propose computational methods to detect outliers in that kind of single-index regression model. Three outlier detection methods are proposed and their numerical behaviors are illustrated on a simulated sample. To discriminate outliers from "normal" observations, they use IB (in-bags) or OOB (out-of-bags) prediction errors from subsampling or resampling approaches. These methods, implemented in R, are compared with each other in a simulation study. An application on a real data is also provided