77 research outputs found

    Stabilité de la sélection de variables pour la classification de données en grande dimension

    No full text
    International audienceLes données à haut-débit ont motivé le développement de méthodes statistiques pour la sélection de variables. Ces données sont caractérisées par leur grande dimension et par leur hétérogénéité car le signal est souvent observé simultanément à plusieurs facteurs de confusion. Les approches habituelles sont ainsi remises en question car elles peuvent conduire à des décisions erronées. Efron (2007), Leek and Storey (2007, 2008), Friguet et al (2009) montrent l'impact négatif de l'hétérogénéité des données sur le nombre de faux-positifs des tests multiples. La sélection de variables est une étape importante de la construction d'un modèle de classification en grande dimension car elle réduit la dimension du problème aux variables les plus prédictives. On s'intéresse ici aux performances de classification de la sélection de variables, via la procédure LASSO (Tibshirani (1996)) et à la reproductibilité des ensembles de variables sélectionnés. Des simulations montrent que l'ensemble des variables sélectionnées par le LASSO n'est pas celui des meilleurs prédicteurs théoriques. Aussi, d'intéressantes performances de classification ne sont atteintes que pour un grand nombre de variables sélectionnées. Notre méthode s'appuie sur la description de la dépendance entre covariables grâce à un petit nombre de variables latentes (Friguet et al. (2009)). La stratégie proposée consiste à appliquer les procédures sur les données conditionnellement à cette structure de dépendance. Cette stratégie permet de stabiliser les variables sélectionnées : d'intéressantes performances de classification sont atteintes pour de plus petits ensembles de variables et les variables les plus prédictives sont détectées

    Table ronde : “pourquoi et comment enseigner l’analyse de données massives (big data)”

    Get PDF
    National audienceLes dernières années ont connu une grande effervescence autour du " big data " ou données massives. Celles-ci soulèvent de nouveaux enjeux scientifiques autour des problèmes de stockage des données (volume des données massives), de leur hétérogénéité (variété) et de leur traitement en temps réel (vélocité). Ces enjeux relèvent de l'informatique, mais aussi de la statistique. Face à ce défi, de nombreux établissements proposent aujourd'hui des modules, voire des formations entières dédiées au " big data " , la demande en spécialistes de ce nouveau domaine étant très forte. La table ronde proposée abordera les enjeux pédagogiques liés à ces nouvelles formations. Mots-clés. Enseignement de la statistique, données massives

    Factor Analysis for Multiple Testing (FAMT): An R Package for Large-Scale Significance Testing under Dependence

    Get PDF
    The R package FAMT (factor analysis for multiple testing) provides a powerful method for large-scale significance testing under dependence. It is especially designed to select differentially expressed genes in microarray data when the correlation structure among gene expressions is strong. Indeed, this method reduces the negative impact of dependence on the multiple testing procedures by modeling the common information shared by all the variables using a factor analysis structure. New test statistics for general linear contrasts are deduced, taking advantage of the common factor structure to reduce correlation and consequently the variance of error rates. Thus, the FAMT method shows improvements with respect to most of the usual methods regarding the non discovery rate and the control of the false discovery rate (FDR). The steps of this procedure, each of them corresponding to R functions, are illustrated in this paper by two microarray data analyses. We first present how to import the gene expression data, the covariates and gene annotations. The second step includes the choice of the optimal number of factors, the factor model fitting, and provides a list of selected gene according to a preset FDR control level. Finally, diagnostic plots are provided to help the user interpret the factors using a vailable external information on either genes or arrays

    Inferring gene networks using a sparse factor model approach, Statistical Learning and Data Science

    No full text
    The availability of genome-wide expression data to complement the measurements of a phenotypic trait opens new opportunities for identifying biologic processes and genes that are involved in trait expression. Usually differential analysis is a preliminary step to identify the key biological processes involved in the variability of the trait of interest. However, this variability shall be viewed as resulting from a complex combination of genes individual contributions. In other words, exploring the interactions between genes viewed in a network structure which vertices are genes and edges stand for inhibition or activation connections gives much more insight on the internal structure of expression profiles. Many currently available solutions for network analysis have been developed but an efficient estimation of the network from high-dimensional data is still a questioning issue. Extending the idea introduced for differential analysis by Friguet et al. (2009) [1] and Blum et al. (2010) [2], we propose to take advantage of a factor model structure to infer gene networks. This method shows good inferential properties and also allows an efficient testing strategy for the significance of partial correlations, which provides an interesting tool to explore the community structure of the networks. We illustrate the performance of our method comparing it with competitors through simulation experiments. Moreover, we apply our method in a lipid metabolism study that aims at identifying gene networks underlying the fatness variability in chickens

    Match-And-Deform: Time Series Domain Adaptation through Optimal Transport and Temporal Alignment

    Full text link
    While large volumes of unlabeled data are usually available, associated labels are often scarce. The unsupervised domain adaptation problem aims at exploiting labels from a source domain to classify data from a related, yet different, target domain. When time series are at stake, new difficulties arise as temporal shifts may appear in addition to the standard feature distribution shift. In this paper, we introduce the Match-And-Deform (MAD) approach that aims at finding correspondences between the source and target time series while allowing temporal distortions. The associated optimization problem simultaneously aligns the series thanks to an optimal transport loss and the time stamps through dynamic time warping. When embedded into a deep neural network, MAD helps learning new representations of time series that both align the domains and maximize the discriminative power of the network. Empirical studies on benchmark datasets and remote sensing data demonstrate that MAD makes meaningful sample-to-sample pairing and time shift estimation, reaching similar or better classification performance than state-of-the-art deep time series domain adaptation strategies

    Variable selection for correlated data in high dimension using decorrelation methods

    Get PDF
    International audienceThe analysis of high throughput data has renewed the statistical methodology for feature selection. Such data are both characterized by their high dimension and their heterogeneity, as the true signal and several confusing factors are often observed at the same time. In such a framework, the usual statistical approaches are questioned and can lead to misleading decisions as they are initially designed under independence assumption among variables. In this talk, I will present some improvements of variable selection methods in regression and supervised classification issues, by accounting for the dependence between selection statistics. The methods proposed in this talk are based on a factor model of covariates, which assumes that variables are conditionally independent given a vector of latent variables. During this talk, I will illustrate the impact of dependence on the stability on some usual selection procedures. Next, I will particularly focus on the analysis of event-related potentials data (ERP) which are widely collected in psychological research to determine the time courses of mental events. Such data are characterized by a temporal dependence pattern both strong and complex which can be modeled by the mentioned above factor model

    Les forêts aléatoires avec R de Robin GENUER et Jean-Michel POGGI (2019)

    No full text
    National audienceRobin Genuer, Maître de Conférences en Statistique à l'Université de Bordeaux, et Jean-Michel Poggi, Professeur en Statistique à l'Université Paris-Descartes, proposent à travers cet ouvrage de 112 pages de s'approprier une méthode d'apprentissage statistique essentielle pour tout-e praticien-ne des données : les forêts aléatoires (random forests). Comme la plupart des ouvrages de la collection Pratique de la Statistique des Presses Universitaires de Rennes dans laquelle celui-ci est paru en ce début 2019, la présentation des concepts se fait par le point de vue des applications, en particulier à travers un exemple « fil rouge » de données publiques traitant de la détection de pourriels dans la messagerie électronique de George, un employé de l'entreprise américaine HP. Cette approche permet de dérouler les différentes étapes de la méthode, pas à pas. Pour favoriser l'assimilation d'un concept, rien ne vaut la pratique : le logiciel , outil libre et open-source, offre un terrain tout trouvé pour reproduire-et s'approprier-la méthodologie des forêts aléatoires sur cet exemple, et d'autres. Ainsi, les données et les codes (formats : scripts et fichiers Rmarkdown) associés à ces exemples sont disponibles en ligne

    A general approach to account for dependence in large-scale multiple testing

    Get PDF
    International audienceThe data generated by high-throughput biotechnologies are characterized by their high-dimension and heterogeneity. Usual, tried and tested inference approaches are questioned in the statistical analysis of such data. Motivated by issues raised by the analysis of gene expressions data, I focus on the impact of dependence on the properties of multiple testing procedures in high-dimension. This article aims at presenting the main results: after introducing the issues brought by dependence among variables, the impact of dependence on the error rates and on the procedures developed to control them is more particularly studied. It results in the description of an innovative methodology based on a factor structure to model the data heterogeneity, which provides a general framework to deal with dependence in multiple testing. The proposed framework leads to less variability for error rates and consequently shows large improvements of power and stability of simultaneous inference with respect to existing multiple testing procedures. Besides, the model parameters estimation in a high-dimensional setting and the determination of the number of factors to be considered in the model are evoked. These results are then illustrated by real data from microarray experiments analyzed using the R package called FAMT. This paper is an extended written version of my oral presentation on the same topic at the 44th Journées de Statistique organized by the French Statistical Society (SFdS) in Bruxelles, Belgium, 2012, when being awarded the Marie-Jeanne Laurent-Duhamel prize

    Impact de la dépendance dans les procédures de tests multiples en grande dimension

    No full text
    Motivated by issues raised by the analysis of gene expressions data, this thesis focuses on the impact of dependence on the properties of multiple testing procedures for high-dimensional data. We propose a methodology based on a Factor Analysis model for the correlation structure. Model parameters are estimated thanks to an em algorithm and an ad hoc methodology allowing to determine the model that fits best the covariance structure is defined. Moreover, the factor structure provides a general framework to deal with dependence in multiple testing. Two main issues are more particularly considered : the estimation of the proportion of true null hypotheses, and the control of error rates. The proposed framework leads to less variability in the estimation of both the proportion of true null hypotheses and the number of false-positives. Consequently, it shows large improvements of power and stability of simultaneous inference with respect to existing multiple testing procedures. These results are illustrated by real data from microarray experiments and the proposed methodology is implemented in a R package called FAMT.Motivé par des applications dans le domaine de l'analyse de données génomiques, ce travail de thèse porte sur l'étude de l'impact de la dépendance sur les propriétés des procédures de tests multiples en grande dimension. Notre proposition consiste à considérer un modèle d'Analyse en Facteurs pour la structure de dépendance entre les variables. Un algorithme de type EM est présenté pour estimer les paramètres du modèle ainsi qu'une méthode ad hoc pour déterminer le nombre optimal de facteurs à inclure dans le modèle. De plus, ce modèle définit un cadre général pour la prise en compte de la dépendance dans les procédures de tests multiples. L'estimation du taux de faux-positifs (FDR) et de la proportion d'hypothèses nulles, paramètre important qui intervient dans le contrôle des taux d'erreurs, sont étudiés plus particulièrement. Ainsi, on montre que la dépendance entre tests entraîne une instabilité des procédures d'inférence simultanée. Une nouvelle approche est présentée : l'objectif est de réduire cette dépendance, procurant à la fois une augmentation de la puissance des tests et une diminution de la variabilité des taux d'erreurs. Enfin, ces résultats méthodologiques sont illustrés à partir de données génomiques et la procédure est implémentée dans le logiciel libre R au sein du package FAMT
    corecore