32 research outputs found

    A new approach for merging gene expression datasets

    No full text
    International audienceWe propose a new approach for merging gene expression data originating from independent microarray experiments. The proposed approach is based upon a model assuming dataset-independent gene expression distribution, and dataset-dependent observation noise and nonlinear observation functions. The estimation algorithm combines smoothing spline estimation for the observation functions with an iterative method for gene expression estimation. The approach is illustrated by numerical results on simulation studies and real data originating from prostate cancer datasets

    A Bayesian model for microarray datasets merging

    No full text
    The aggregation of microarray datasets originating from different studies is still a difficult open problem. Currently, best results are generally obtained by the so-called meta-analysis approach, which aggregates results from individual datasets, instead of analyzing aggre-gated datasets. In order to tackle such aggregation problems, it is necessary to correct for interstudy variability prior to aggregation. The goal of this paper is to present a new approach for microarray datasets merging, based upon explicit modeling of interstudy variability and gene variability. We develop and demonstrate a new algorithm for microarray datasets merging. The underlying model assumes normally distributed intrinsic gene expressions, distorted by a study-dependent nonlinear transformation, and study dependent (normally distributed) observation noise. The algorithm addresses both parameter estimation (the parameters being gene expression means and variances, observation noise variances and the nonlinear transformations) and data adjustment, and yields as a result adjusted datasets suitable for aggregation. The method is validated on two case studies. The first one concerns E. Coli expression data, artificially distorted by given nonlinear transformations and additive observation noise. The proposed method is able to correct for the distortion, and yields adjusted datasets from which the relevant biological effects can be recovered, as shown by a standard differential analysis. The second case study concerns the aggregation of two real prostate cancer datasets. After adjustment using the proposed algorithm, a differential analysis performed on adjusted datasets yields a larger number of differentially expressed genes (between control and tumor data). The proposed method has been implemented using the statistical software R 1 , and Bioconductor packages 2. The source code (valid for merging two datasets), as well as the datasets used for the validation, and some complementary results, are made available on the web sit

    Approche variationnelle pour la fusion de jeux de données d'expression génique

    No full text
    International audienceL'analyse conjointe de multiples jeux de données de même nature pour en dégager l'information pertinente est un problème complexe. Ce problème est rencontré notamment dans la comparaison des résultats obtenus sur différentes plateformes bio-puces dans la recherche de gènes différentiellement exprimés ou l'inférence de réseaux de régulation géniques. Souvent les analyses sont d'abord effectuées indépendamment sur chacun des jeux de données et les résultats obtenus sont ensuite croisés pour en dégager une information commune. Mais ceci est clairement sous-optimal et il serait souvent préférable d'exploiter simultanément les jeux de données. Le problème inhérent est alors celui de la calibration, c'est à dire le pré-traitement destiné à les rendre comparables. Cette présentation se focalise sur la question primordiale: comment homogénéiser différents jeux de données de même nature pour les rendre comparables? Une méthode basée sur une approche variationnelle est proposée. Des fonctions de "rectification" non-linéaires (une par jeu de données) sont estimées à partir de jeux multiples, par optimisation numérique d'une fonctionnelle. Cette dernière est constituée d'un terme d'attache aux données et d'un terme de régularisation par pénalisation de la dérivée seconde de la fonction de rectification. L'optimisation est effectuée numériquement par un algorithme itératif. L'approche proposée est illustrée sur une simulation, dans laquelle des jeux artificiels sont constitués à partir d'un jeu de données réel d'expression de E. Coli

    FINDING EEG SPACE-TIME-SCALE LOCALIZED FEATURES USING MATRIX-BASED PENALIZED DISCRIMINANT ANALYSIS

    No full text
    International audienceThis paper proposes a new method for constructing and selecting of discriminant space-time-scale features for electroencephalogram (EEG) signal classification, suitable for Error Related Potentials (ErrP)detection in brain-computer interface (BCI). The method rests on a new variant of matrix-variate Linear Discriminant Analysis (LDA), and differs from previously proposed approaches in mainly three ways. First, a discrete wavelet expansion is introduced for mapping time-courses to time-scale coefficients, yielding time-scale localized features. Second, the matrix-variate LDA is modified in such a way that it yields an interesting duality property, that makes interpretation easier. Third, a space penalization is introduced using a surface Laplacian, so as to enforce spatial smoothness. The proposed approaches, termed D-MLDA and D-MPDA are tested on EEG signals, with the goal of detecting ErrP. Numerical results show that D-MPDA outperforms D-MLDA and other matrix-variate LDA techniques. In addition this method produces relevant features for interpretation in ErrP signals

    Analyse discriminante matricielle descriptive. Application a l'\'etude de signaux EEG

    Full text link
    We focus on the descriptive approach to linear discriminant analysis for matrix-variate data in the binary case. Under a separability assumption on row and column variability, the most discriminant linear combinations of rows and columns are determined by the singular value decomposition of the difference of the class-averages with the Mahalanobis metric in the row and column spaces. This approach provides data representations of data in two-dimensional or three-dimensional plots and singles out discriminant components. An application to electroencephalographic multi-sensor signals illustrates the relevance of the method.Comment: in French, Journ{\'e}es de statistique de la SFDS, Jun 2015, Lille, Franc

    Analyse discriminante matricielle descriptive. Application a l'Ă©tude de signaux EEG

    No full text
    National audienceWe focus on the descriptive approach to linear discriminant analysis for matrix-variate data in the binary case. Under a separability assumption on row and column variability, the most discriminant linear combinations of rows and columns are determined by the singular value decomposition of the difference of the class-averages with the Mahalanobis metric in the row and column spaces. This approach provides data representations of data in two-dimensional or three-dimensional plots and singles out discriminant components. An application to electroencephalographic multi-sensor signals illustrates the relevance of the method.Nous nous intéressons à l'approche descriptive de l'analyse discriminante linéaire de données matricielles dans le cas binaire. Sous l'hypothèse de séparabilité de la variabilité des lignes de celle des colonnes, les combinaisons linéaires des lignes et des colonnes les plus discriminantes sont déterminées par la décomposition en valeurs singulières de la différence des moyennes des deux classes en munissant les espaces des lignes et des colonnes de la métrique de Mahalanobis. Cette approche permet d'obtenir des représentations des données dans des plans factoriels et de dégager des composantes discriminantes. Une application a des signaux d'électroencéphalographie multi-capteurs illustre la pertinence de la méthode

    Séparation de Sources pour l'Analyse de Données d'Expression

    Get PDF
    National audienceWe present a new approach for analyzing gene expression data, based upon blind source separation techniques. This approach yields " elementary expression patterns " , or " sources " , which may be interpreted as potential regulation channels. Further analysis of the so-obtained sources show that they are generally characterized by a small numbers of specific co-regulated genes. The results obtained on two datasets show that some of the obtained gene families correspond to well known families of co-regulated genes, which validates our approach.Nous décrivons une nouvelle approche pour l'analyse de données issues du transcriptome, basée sur les techniques de séparation de sources en aveugle. Cette approche fournit en sortie des " profils d'expression élémen-taires " , ou " sources " , éventuellement interprétables comme de possibles voies de régulation. Une analyse plus fine des sources ainsi obtenues montre qu'elles sont généralement caractérisées par une sur-expression (resp. sous-expression) significative d'un petit nombre de gènes, parfois accompagnée d'une sous-expression (resp. sur-expression) d'une famille complémentaire de gènes. Les résultats obtenus sur deux jeux de données d'expression montrent que certaines des familles ainsi détectées correspondent à des familles connues de gènes co-régulés, ce qui valide l'approche
    corecore