Search CORE

33 research outputs found

A sparse variable selection procedure in model-based clustering

Author: Maugis-Rabusseau Cathy
Meynet Caroline
Publication venue: HAL CCSD
Publication date: 21/09/2012
Field of study

Au vu de l'augmentation du nombre de jeux de données de grande dimension, la sélection de variables pour la classification non supervisée est un enjeu important. Dans le cadre de la classification par mélanges gaussiens, nous reformulons le problème de sélection de variables en un problème général de sélection de modèle. Dans un premier temps, notre procédure consiste à construire une sous-collection de modèles grâce à une méthode de régularisation l1. Puis, l'estimateur du maximum de vraisemblance est déterminé via un algorithme EM pour chaque modèle. Enfin un critère pénalisé non asymptotique est proposé pour sélectionner à la fois le nombre de composants du mélange et l'ensemble des variables informatives pour la classification. D'un point de vue théorique, un théorème général de sélection de modèles dans le cadre de l'estimation par maximum de vraisemblance avec une collection aléatoire de modèles est établi. Il permet en particulier de justifier la forme de la pénalité de notre critère, forme qui dépend de la complexité de la collection de modèles. En pratique, ce critère est calibré grâce à la méthode dite de l'heuristique de pente. Cette procédure est illustrée sur deux jeux de données simulées. Finalement, une extension, associée à une modélisation plus générale des variables non informatives pour la classification, est proposée

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Multidimensional two-component Gaussian mixtures detection

Author: Laurent Béatrice
Marteau Clément
Maugis-Rabusseau Cathy
Publication venue: Institut Henri Poincaré (IHP)
Publication date: 01/01/2017
Field of study

International audienceLet

(X_1,\ldots,X_n)

be a

d

-dimensional i.i.d sample from a distribution with density

f

. The problem of detection of a two-component mixture is considered. Our aim is to decide whether

f

is the density of a standard Gaussian random

d

-vector (

f=\phi_d

) against

f

is a two-component mixture:

f=(1-\varepsilon)\phi_d +\varepsilon \phi_d (.-\mu)

where

(\varepsilon,\mu)

are unknown parameters. Optimal separation conditions on

\varepsilon, \mu, n

and the dimension

d

are established, allowing to separate both hypotheses with prescribed errors. Several testing procedures are proposed and two alternative subsets are considered

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Selective inference after convex clustering with $\ell_1$ penalization

Author: Bachoc François
Maugis-Rabusseau Cathy
Neuvial Pierre
Publication venue
Publication date: 04/09/2023
Field of study

Classical inference methods notoriously fail when applied to data-driven test hypotheses or inference targets. Instead, dedicated methodologies are required to obtain statistical guarantees for these selective inference problems. Selective inference is particularly relevant post-clustering, typically when testing a difference in mean between two clusters. In this paper, we address convex clustering with

\ell_1

penalization, by leveraging related selective inference tools for regression, based on Gaussian vectors conditioned to polyhedral sets. In the one-dimensional case, we prove a polyhedral characterization of obtaining given clusters, than enables us to suggest a test procedure with statistical guarantees. This characterization also allows us to provide a computationally efficient regularization path algorithm. Then, we extend the above test procedure and guarantees to multi-dimensional clustering with

\ell_1

penalization, and also to more general multi-dimensional clusterings that aggregate one-dimensional ones. With various numerical experiments, we validate our statistical guarantees and we demonstrate the power of our methods to detect differences in mean between clusters. Our methods are implemented in the R package poclin.Comment: 40 pages, 8 figure

arXiv.org e-Print Archive

Clustering high-throughput sequencing data with Poisson mixture models

Author: Celeux Gilles
Martin-Magniette Marie-Laure
Maugis-Rabusseau Cathy
Rau Andrea
Publication venue: HAL CCSD
Publication date: 01/01/2011
Field of study

In recent years gene expression studies have increasingly made use of next generation sequencing technology. In turn, research concerning the appropriate statistical methods for the analysis of digital gene expression has flourished, primarily in the context of normalization and differential analysis. In this work, we focus on the question of clustering digital gene expression profiles as a means to discover groups of co-expressed genes. We propose two parameterizations of a Poisson mixture model to cluster expression profiles of high-throughput sequencing data. A set of simulation studies compares the performance of the proposed models with that of an approach developed for a similar type of data, namely serial analysis of gene expression. We also study the performance of these approaches on two real high-throughput sequencing data sets. The R package HTSCluster used to implement the proposed Poisson mixture models is available on CRAN.De plus en plus, les études d'expression de gènes utilisent les techniques de séquençage de nouvelle génération, entraînant une recherche grandissante sur les méthodes les plus appropriées pour l'exploitation des données digitales d'expression, à commencer pour leur normalisation et l'analyse différentielle. Ici, nous nous intéressons à la classification non supervisée des profils d'expression pour la découverte de groupes de gènes coexprimés. Nous proposons deux paramétrisations d'un modèle de mélange de Poisson pour classer des données de séquençage haut-débit. Par des simulations, nous comparons les performances de ces modèles avec des méthodes similaires conçus pour l'analyse en série de l'expression des gènes (SAGE). Nous étudions aussi les performances de ces modèles sur deux jeux de données réelles. Le package R HTSCluster associé à cette étude est disponible sur le CRAN

HAL Evry

Scientific Publications of the University of Toulouse II Le Mirail

INRIA a CCSD electronic archive server

HAL-INSA Toulouse

ProdInra

Hal-Diderot