17 research outputs found

    Supervised component-based generalized linear regression for the joint response modeling

    No full text
    Dans cette thèse, une matrice réponse est supposée dépendre d'un ensemble de variables explicatives et d'un ensemble de covariables additionnelles. Les variables explicatives sont supposées nombreuses et redondantes, demandant ainsi réduction de dimension et régularisation. Au contraire, les covariables additionnelles contiennent quelques variables sélectionnées qui sont forcées dans le modèle de régression sans subir de régularisation. À l'origine, la Régression Linéaire Généralisée sur Composantes Supervisées (SCGLR) et son extension au multi-tableaux, THEME-SCGLR, sont créés pour extraire dans les variables explicatives plusieurs composantes conjointement supervisées par l'ensemble des réponses. Cependant, cette méthodologie a toujours des limitations que nous proposons de surpasser dans cette thèse. La première limitation vient de l'hypothèse que toutes les réponses sont prédites par le même espace explicatif. Cependant, dans de nombreuses situations pratiques, il est peu probable que de grands ensembles de réponses dépendent exactement des mêmes dimensions explicatives. Comme deuxième limitation, les précédents travaux impliquant SCGLR supposent que les réponses sont indépendantes conditionnellement aux variables explicatives. Encore une fois, cela est peu probable dans la pratique, spécialement dans des situations telles que l'écologie où une part non-négligeable des variables explicatives ne peuvent pas être mesurées. Pour surpasser la première limitation, nous supposons que les réponses sont partitionnées en plusieurs groupes inconnus. Nous supposons que les réponses dans chaque groupe sont prédites par un nombre approprié de composantes supervisées orthogonales spécifiques dans les variables explicatives. Nous développons une extension de SCGLR basée sur un modèle de mélange fini des réponses. Le deuxième travail relâche l'hypothèse d'indépendance conditionnelle. Comme pour THEME-SCGLR, la matrice réponse est modélisée par un partitionnement thématique des variables explicatives, nommés ``thèmes''. Ainsi, la régularisation est effectuée afin de chercher, dans chacun des thèmes, un nombre approprié de composantes qui contribuent à la fois à la prédiction de la matrice réponse et à la capture d'informations pertinentes des thèmes. Un ensemble de quelques facteurs latents modélise la covariance ``résiduelle'' des réponses conditionnellement aux composantes. Les approches présentées dans ce travail sont testées sur de nombreux schémas de simulation et ensuite appliquées à des jeux de données issus de l'écologie.In this thesis, a response matrix is assumed to depend on a set of explanatory variables, and a set of additional covariates. Explanatory variables are supposed many and redundant, thus demanding dimension reduction and regularization. By contrast, additional covariates contain few selected variables which are forced into the regression model, as they demand no regularization. Originally, the Supervised Component-based Generalized Linear Regression (SCGLR), a Partial Least Squares-type method, and its extension to multiple explanatory variable-blocks, THEME-SCGLR, are designed to extract from the explanatory variables several components jointly supervised by the set of responses. However, this methodology still has some limitations we aim to overcome in this thesis. The first limitation comes from the assumption that all the responses are predicted by the same explanatory space. However, in many practical situations, large sets of responses are not likely to depend exactly on the same explanatory dimensions. As a second limitation, the previous works involving SCGLR assume the responses independent conditional on the explanatory variables. Again, this is not very likely in practice, especially in situations like those in ecology, where a non-negligible part of the explanatory variables could not be measured. To overcome the first limitation, we assume that the responses are partitioned into several unknown groups. We suppose that the responses in each group are predictable from an appropriate number of specific orthogonal supervised components of the explanatory variables. We develop an extension of SCGLR based on a finite mixture model of the responses. The second work relaxes the conditional independence assumption. As in THEME-SCGLR, the response matrix is modeled by a thematic partitioning of the explanatory variables, named ``themes''. Thus, regularization is performed searching each theme for an appropriate number of components that both contribute to predict the response matrix and capture relevant structural information in themes. A set of few latent factors models the ``residual'' covariance matrix of the responses conditional on the components. The approaches presented in this work are tested on many simulation schemes, and then applied on ecology datasets

    Régression linéaire généralisée sur composantes supervisées pour la modélisation jointe des réponses

    No full text
    In this thesis, a response matrix is assumed to depend on a set of explanatory variables, and a set ofadditional covariates. Explanatory variables are supposed many and redundant, thus demanding dimensionreduction and regularization. By contrast, additional covariates contain few selected variables which areforced into the regression model, as they demand no regularization. Originally, the Supervised ComponentbasedGeneralized Linear Regression (SCGLR), a Partial Least Squares-type method, and its extensionto multiple explanatory variable-blocks, THEME-SCGLR, are designed to extract from the explanatoryvariables several components jointly supervised by the set of responses. However, this methodology still hassome limitations we aim to overcome in this thesis. The first limitation comes from the assumption that allthe responses are predicted by the same explanatory space. However, in many practical situations, large setsof responses are not likely to depend exactly on the same explanatory dimensions. As a second limitation,the previous works involving SCGLR assume the responses independent conditional on the explanatoryvariables. Again, this is not very likely in practice, especially in situations like those in ecology, where anon-negligible part of the explanatory variables could not be measured. To overcome the first limitation,we assume that the responses are partitioned into several unknown groups. We suppose that the responsesin each group are predictable from an appropriate number of specific orthogonal supervised componentsof the explanatory variables. We develop an extension of SCGLR based on a finite mixture model of theresponses. The second work relaxes the conditional independence assumption. As in THEME-SCGLR,the response matrix is modeled by a thematic partitioning of the explanatory variables, named “themes”.Thus, regularization is performed searching each theme for an appropriate number of components that bothcontribute to predict the response matrix and capture relevant structural information in themes. A set offew latent factors models the “residual” covariance matrix of the responses conditional on the components.The approaches presented in this work are tested on many simulation schemes, and then applied on ecologydatasets.Dans cette thèse, une matrice réponse est supposée dépendre d’un ensemble de variables explicativeset d’un ensemble de covariables additionnelles. Les variables explicatives sont supposées nombreuseset redondantes, demandant ainsi réduction de dimension et régularisation. Au contraire, les covariablesadditionnelles contiennent quelques variables sélectionnées qui sont forcées dans le modèle derégression sans subir de régularisation. À l’origine, la Régression Linéaire Généralisée sur ComposantesSupervisées (SCGLR) et son extension au multi-tableaux, THEME-SCGLR, sont créés pour extraire dansles variables explicatives plusieurs composantes conjointement supervisées par l’ensemble des réponses.Cependant, cette méthodologie a toujours des limitations que nous proposons de surpasser dans cette thèse.La première limitation vient de l’hypothèse que toutes les réponses sont prédites par le même espace explicatif.Cependant, dans de nombreuses situations pratiques, il est peu probable que de grands ensemblesde réponses dépendent exactement des mêmes dimensions explicatives. Comme deuxième limitation, lesprécédents travaux impliquant SCGLR supposent que les réponses sont indépendantes conditionnellementaux variables explicatives. Encore une fois, cela est peu probable dans la pratique, spécialement dans dessituations telles que l’écologie où une part non-négligeable des variables explicatives ne peuvent pas êtremesurées. Pour surpasser la première limitation, nous supposons que les réponses sont partitionnées enplusieurs groupes inconnus. Nous supposons que les réponses dans chaque groupe sont prédites par un nombreapproprié de composantes supervisées orthogonales spécifiques dans les variables explicatives. Nousdéveloppons une extension de SCGLR basée sur un modèle de mélange fini des réponses. Le deuxième travailrelâche l’hypothèse d’indépendance conditionnelle. Comme pour THEME-SCGLR, la matrice réponseest modélisée par un partitionnement thématique des variables explicatives, nommés “thèmes”. Ainsi, larégularisation est effectuée afin de chercher, dans chacun des thèmes, un nombre approprié de composantesqui contribuent à la fois à la prédiction de la matrice réponse et à la capture d’informations pertinentes desthèmes. Un ensemble de quelques facteurs latents modélise la covariance “résiduelle” des réponses conditionnellementaux composantes. Les approches présentées dans ce travail sont testées sur de nombreuxschémas de simulation et ensuite appliquées à des jeux de données issus de l’écologie

    Extension de la régression linéaire généralisée sur composantes supervisées à la modélisation jointe des réponses

    No full text
    National audienceDans ce travail, nous proposons d'étendre la méthode SCGLR, pour la rendre capable d'identifier des groupes de réponses expliquées par des composantes communes. À l'origine, SCGLR vise la construction de composantes explicatives dans un grand nombre de covariables, éventuellement fortement redondantes. Ces composantes sont supervisées conjointement par l'ensemble des réponses. Désormais, nous cherchons à identifier des groupes de réponses partageant les mêmes dimensions explicatives. Dans un cadre écologique par exemple, des communautés d'espèces devraient pouvoir être modélisées par des composantes propres à chaque communauté. Un algorithme est proposé afin d'estimer le modèle

    Towards numerical prediction of red blood cells dynamics within a cytometer

    No full text
    International audienceIn the present study, we aim at developing a numerical method to handle any complex flows with red blood cells, including non-physiological ones. An extensive validation of its accuracy is performed through numerous test cases

    Attractive carbon black dispersions: structural and mechanical responses to shear

    No full text
    International audienceThe rheological behavior of colloidal dispersions is of paramount importance in a wide range of applications, includingconstruction materials, energy storage systems and food industry products. These dispersions consistently exhibitnon-Newtonian behaviors, a consequence of intricate interplays involving colloids morphology, volume fraction, andinter-particle forces. Understanding how colloids structure under flow remains a challenge, particularly in the presenceof attractive forces leading to clusters formation. In this study, we adopt a synergistic approach, combining rheologywith ultra small-angle X-ray scattering (USAXS), to probe the flow-induced structural transformations of attractivecarbon black (CB) dispersions and their effects on the viscosity. Our key findings can be summarized as follow. First,testing different CB volume fractions, in the high shear rate hydrodynamic regime, CB particles aggregate to formfractal clusters. Their size conforms to a power law of the shear rate, ξc ∝ γ˙ −m, with m ≃ 0.5. Second, drawing insights from the fractal cluster structure, we compute an effective volume fraction φeff and find that the microstructuralKrieger-Dougherty model adeptly accounts for the hydrodynamic stress contributions. We identify a critical shear rateγ˙∗ and a critical volume fraction φ ∗ eff, at which the clusters percolate to form a dynamical networks. Third, we showthat the apparent yield stress measured at low shear rates inherits its properties from the percolation point. Finally,through data scaling and the integration of the Einstein’s viscosity equation, we revisit and discuss the CaggioniTrappe-Spicer model, revealing a significant connection between its empirical parameters and the structural properties of CB dispersions under flow

    Response mixture models based on supervised components: Clustering floristic taxa

    No full text
    International audienceIn this paper, we propose to cluster responses in order to identify groups predicted by specific explanatory components. A response matrix is assumed to depend on a set of explanatory variables, and a set of additional covariates. Explanatory variables are supposed many and redundant, which implies some dimension reduction and regularization. By contrast, additional covariates contain few selected variables which are forced into the regression model, as they demand no regularization. The response matrix is assumed partitioned into several unknown groups of responses. We suppose that the responses in each group are predictable from an appropriate number of specific orthogonal supervised components of explanatory variables. The classification is based on a mixture model of the responses. To estimate the model, we propose a criterion extending that of Supervised Component-based Generalized Linear Regression, a Partial Least Squares-type method, and develop an algorithm combining component-based model and Expectation Maximization estimation. This new methodology is tested on simulated data and then applied to a floristic ecology dataset

    Response mixture models based on supervised components: clustering floristic taxa

    No full text
    In this paper, we propose to cluster outcomes in order to identify groups predicted by specific explanatory components. A response matrix Y is assumed to depend on a set X of explanatory variables, and a set A of additional covariates. Variables in X are supposed many and redundant, which implies some dimension reduction and regularization. By contrast, A contains few selected variables which are forced into the regression model, as they demand no regularization. The matrix Y is assumed partitioned into G unknown groups of responses. We suppose that the outcomes in each group are predictable from an appropriate number of specific orthogonal supervised components of X. The classification is based on a mixture model of the responses. To estimate the model, we propose a criterion extending that of Supervised Component-based Generalized Linear Regression (SCGLR), a PLS-type method, and develop an algorithm combining those of SCGLR and EM estimation: response mixture SCGLR (rmSCGLR). This new methodology is tested on simulated data and then applied to a floristic ecology dataset
    corecore