30 research outputs found

    Régression pénalisée de type Lasso pour l'analyse de données biologiques de grande dimension : application à la charge virale du VIH censurée par une limite de quantification et aux données compositionnelles du microbiote

    Get PDF
    In clinical studies and thanks to technological advances, the amount of information collected from the same patient is constantly increasing, leading to situations where the number of explanatory variables is greater than the number of individuals. The Lasso method has proven to be appropriate in the face of over-adjustment problems encountered in high-dimensional settings. This thesis is devoted to the application and development of penalized Lasso-type regressions for clinical data with particular structures. First, in patients with human immunodeficiency virus, mutations in the genes of the virus may be related to the development of resistance to particular treatments. Viral load prediction based on (potentially large number of) mutations helps to guide the choice of treatments. Below a threshold, the viral load is undetectable; we are talking about left-censored data. We propose two new Lasso approaches to the iterative Buckley-James algorithm consisting in imputing censored values with a conditional expectation. By reversing the answer, we can reduce this to a problem of right-censorship, for which non-parametric estimates of conditional expectation have been proposed in survival analysis. Second, we propose a parametric estimate based on a Gaussian hypothesis. Secondly, we are interested in the role of the microbiota in the deterioration of respiratory health. The microbiota data are in the form of relative abundances (proportion of each species per individual, called compositional data) and they have a phylogenetic structure. We have established state of the art methods of statistical analysis of microbiota data. Due to the novelty, few recommendations exist on the applicability and effectiveness of the proposed methods. A simulation study allowed us to compare the selection capacity of penalization methods proposed specifically for this type of data. Then we apply this research to the analysis of the association between bacteria / fungi andthe decline in lung function in cystic fibrosis patients of the MucoFong project.Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s’est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension. Cette thèse est consacrée à l’application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières. Premièrement, chez des patients atteints du virus de l’immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement. La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d’orienter le choix des traitements. En dessous d’un seuil, la charge virale est indétectable, on parle de données censurées à gauche. Nous proposons deux nouvelles approches Lasso de l’algorithme itératif Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelles. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l’espérance conditionnelle ont été proposées en analyse de survie. En deuxième, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne. Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d’abondances relatives (proportion de chaque espèce par individu, dites données de compositions) et elles présentent une structure phylogénétique. Nous avons dressé un état de l’art des méthodes d’analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l’applicabilité et l’efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données. Puis nous appliquons ces recherches à l’analyse de l’association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong

    Estimateur de type Lasso pour modèle mixte non-paramétrique

    Get PDF
    National audienceLa vraisemblance pénalisée par une norme L1 est devenue relativement standard en grande dimension quand le modèle est supposé basé sur n observations indépendantes et identiquement distribuées. Ces techniques peuvent améliorer la capacité de prédiction (la régularisation implique une réduction de la variance) tout en restant in-terprétable (la sparsité identifie un sous ensemble de variable avec des effets forts). D'un point de vue computationnel, ces pénalités sont attractives et leurs propriétés théoriques ontétéontété largementétudiéeslargementétudiées cesdernì eres années. Plusieurs auteurs ont récemment suggérer des méthodes pour analyser les données lon-gitudinales ou groupées de grandes dimensions utilisant une pénalisation L 1 dans des modèles mixtes. Ces approches ontétéontété développées pour la sélection de variables dans le cas modèle linéaire mixte et modèle linéaire mixte généralisé mais moins dans le cas de modèle non linéaire mixte. Peu de travaux ont considéré leprobì eme de sélection de fonctions non linéaire utilisant une méthode de pénalisation de type L 1 dans un modèle mixte non paramétrique avec ou non des covariables. Dans ce cas, les fonctions non linéaire sont approximées par une com-binaison linéaire de fonction de lissage (spline, wavelet ou bases de Fourier) possiblement combinéescombinéesà des fonctionsirrégulì eres (bases de Spiky). Abstract. The penalization of likelihoods by L1-norms has become a relatively standard technique for high-dimensional data when the assumed models are based on n independent and identically distributed observations. These techniques may improve prediction accuracy (since regularization leads to variance reduction) together with interpretabil-ity (since sparsity identifies a subset of variables with strong effects). Computationally, these penalties are attractive and their theoretical properties have been intensively studied during the last years. Several authors have recently developed suggestions to analyze high-dimensional clustered

    A new molecular classification to drive precision treatment strategies in primary Sjögren’s syndrome

    Get PDF
    There is currently no approved treatment for primary Sjögren's syndrome, a disease that primarily affects adult women. The difficulty in developing effective therapies is -in part- because of the heterogeneity in the clinical manifestation and pathophysiology of the disease. Finding common molecular signatures among patient subgroups could improve our understanding of disease etiology, and facilitate the development of targeted therapeutics. Here, we report, in a cross-sectional cohort, a molecular classification scheme for Sjögren's syndrome patients based on the multi-omic profiling of whole blood samples from a European cohort of over 300 patients, and a similar number of age and gender-matched healthy volunteers. Using transcriptomic, genomic, epigenetic, cytokine expression and flow cytometry data, combined with clinical parameters, we identify four groups of patients with distinct patterns of immune dysregulation. The biomarkers we identify can be used by machine learning classifiers to sort future patients into subgroups, allowing the re-evaluation of response to treatments in clinical trials

    Penalized Lasso regression for the analysis of high-dimensional biological data : application to HIV viral load censored by a limit of quantification and to microbiota compositional data

    No full text
    Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s'est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension.Cette thèse est consacrée à l'application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières.Premièrement, chez des patients atteints du virus de l'immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement.La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d'orienter le choix des traitements.En dessous d'un seuil, la charge virale est indétectable, on parle de données censurées à gauche.Nous proposons deux nouvelles approches Lasso basées sur l'algorithme Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelle. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l'espérance conditionnelle ont été proposées en analyse de survie. Enfin, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne.Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d'abondances relatives (proportion de chaque espèce par individu, dites données compositionnelles) et elles présentent une structure phylogénétique.Nous avons dressé un état de l'art des méthodes d'analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l'applicabilité et l'efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données.Puis nous appliquons ces recherches à l'analyse de l'association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong.In clinical studies and thanks to technological progress, the amount of information collected in the same patient continues to grow leading to situations where the number of explanatory variables is greater than the number of individuals. The Lasso method proved to be appropriate to circumvent over-adjustment problems in high-dimensional settings.This thesis is devoted to the application and development of Lasso-penalized regression for clinical data presenting particular structures.First, in patients with the human immunodeficiency virus, mutations in the virus's genetic structure may be related to the development of drug resistance. The prediction of the viral load from (potentially large) mutations allows guiding treatment choice.Below a threshold, the viral load is undetectable, data are left-censored. We propose two new Lasso approaches based on the Buckley-James algorithm, which imputes censored values ​​by a conditional expectation. By reversing the response, we obtain a right-censored problem, for which non-parametric estimates of the conditional expectation have been proposed in survival analysis. Finally, we propose a parametric estimation based on a Gaussian hypothesis.Secondly, we are interested in the role of the microbiota in the deterioration of respiratory health. The microbiota data are presented as relative abundances (proportion of each species per individual, called compositional data) and they have a phylogenetic structure.We have established a state of the art methods of statistical analysis of microbiota data. Due to the novelty, few recommendations exist on the applicability and effectiveness of the proposed methods. A simulation study allowed us to compare the selection capacity of penalization methods proposed specifically for this type of data.Then we apply this research to the analysis of the association between bacteria / fungi and the decline of pulmonary function in patients with cystic fibrosis from the MucoFong project

    Penalized Lasso regression for the analysis of high-dimensional biological data : application to HIV viral load censored by a limit of quantification and to microbiota compositional data

    No full text
    Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s'est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension.Cette thèse est consacrée à l'application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières.Premièrement, chez des patients atteints du virus de l'immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement.La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d'orienter le choix des traitements.En dessous d'un seuil, la charge virale est indétectable, on parle de données censurées à gauche.Nous proposons deux nouvelles approches Lasso basées sur l'algorithme Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelle. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l'espérance conditionnelle ont été proposées en analyse de survie. Enfin, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne.Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d'abondances relatives (proportion de chaque espèce par individu, dites données compositionnelles) et elles présentent une structure phylogénétique.Nous avons dressé un état de l'art des méthodes d'analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l'applicabilité et l'efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données.Puis nous appliquons ces recherches à l'analyse de l'association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong.In clinical studies and thanks to technological progress, the amount of information collected in the same patient continues to grow leading to situations where the number of explanatory variables is greater than the number of individuals. The Lasso method proved to be appropriate to circumvent over-adjustment problems in high-dimensional settings.This thesis is devoted to the application and development of Lasso-penalized regression for clinical data presenting particular structures.First, in patients with the human immunodeficiency virus, mutations in the virus's genetic structure may be related to the development of drug resistance. The prediction of the viral load from (potentially large) mutations allows guiding treatment choice.Below a threshold, the viral load is undetectable, data are left-censored. We propose two new Lasso approaches based on the Buckley-James algorithm, which imputes censored values ​​by a conditional expectation. By reversing the response, we obtain a right-censored problem, for which non-parametric estimates of the conditional expectation have been proposed in survival analysis. Finally, we propose a parametric estimation based on a Gaussian hypothesis.Secondly, we are interested in the role of the microbiota in the deterioration of respiratory health. The microbiota data are presented as relative abundances (proportion of each species per individual, called compositional data) and they have a phylogenetic structure.We have established a state of the art methods of statistical analysis of microbiota data. Due to the novelty, few recommendations exist on the applicability and effectiveness of the proposed methods. A simulation study allowed us to compare the selection capacity of penalization methods proposed specifically for this type of data.Then we apply this research to the analysis of the association between bacteria / fungi and the decline of pulmonary function in patients with cystic fibrosis from the MucoFong project

    Régression pénalisée de type Lasso pour l'analyse de données biologiques de grande dimension : application à la charge virale du VIH censurée par une limite de quantification et aux données compositionnelles du microbiote

    Get PDF
    In clinical studies and thanks to technological advances, the amount of information collected from the same patient is constantly increasing, leading to situations where the number of explanatory variables is greater than the number of individuals. The Lasso method has proven to be appropriate in the face of over-adjustment problems encountered in high-dimensional settings. This thesis is devoted to the application and development of penalized Lasso-type regressions for clinical data with particular structures. First, in patients with human immunodeficiency virus, mutations in the genes of the virus may be related to the development of resistance to particular treatments. Viral load prediction based on (potentially large number of) mutations helps to guide the choice of treatments. Below a threshold, the viral load is undetectable; we are talking about left-censored data. We propose two new Lasso approaches to the iterative Buckley-James algorithm consisting in imputing censored values with a conditional expectation. By reversing the answer, we can reduce this to a problem of right-censorship, for which non-parametric estimates of conditional expectation have been proposed in survival analysis. Second, we propose a parametric estimate based on a Gaussian hypothesis. Secondly, we are interested in the role of the microbiota in the deterioration of respiratory health. The microbiota data are in the form of relative abundances (proportion of each species per individual, called compositional data) and they have a phylogenetic structure. We have established state of the art methods of statistical analysis of microbiota data. Due to the novelty, few recommendations exist on the applicability and effectiveness of the proposed methods. A simulation study allowed us to compare the selection capacity of penalization methods proposed specifically for this type of data. Then we apply this research to the analysis of the association between bacteria / fungi andthe decline in lung function in cystic fibrosis patients of the MucoFong project.Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s’est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension. Cette thèse est consacrée à l’application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières. Premièrement, chez des patients atteints du virus de l’immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement. La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d’orienter le choix des traitements. En dessous d’un seuil, la charge virale est indétectable, on parle de données censurées à gauche. Nous proposons deux nouvelles approches Lasso de l’algorithme itératif Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelles. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l’espérance conditionnelle ont été proposées en analyse de survie. En deuxième, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne. Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d’abondances relatives (proportion de chaque espèce par individu, dites données de compositions) et elles présentent une structure phylogénétique. Nous avons dressé un état de l’art des méthodes d’analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l’applicabilité et l’efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données. Puis nous appliquons ces recherches à l’analyse de l’association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong

    Méthodes d’apprentissage statistique pour des données longitudinales : une revue systématique

    No full text
    National audienceContexte: L’analyse de grands volumes de données ou données de grande dimension est devenue une problématique clé en recherche clinique (Thiébaut et collab., L’analyse des “Big Data” en recherche clinique, Rev Epidemiol Sante Publique, 2014). Des méthodes issues de l’apprentissage statistique ont été proposées dans ce domaine afin de faire face aux problèmes liés à la grande dimension, dans un premier temps, pour desobservations indépendantes. Les études longitudinales, courantes en recherche clinique, permettent d’étudier l’évolution d’une réponse biologique ou clinique pour différents individus au cours du temps et l’influence des caractéristiques des sujets sur cette évolution. Lors de l’analyse des données longitudinales, la corrélation entre les mesures d’une caractéristique provenant d’un même sujet doit être prise en compte. L’objectif de cetteétude est d’établir un état de l’art des méthodes prédictives, adaptées aux problèmes de la grande dimension, et tenant compte de la nature longitudinale des données via des modèles à effets mixtes. Méthode: Des critères de recherche ont été développés et trois bases de données bibliographiques ont été consultées: Medline (base en biologie et en médecine), MathSciNet (spécialisée en mathématiques) et Google Scholar (un outil de recherche plus généraliste, regroupant des articles scientifiques approuvés ou non par des comités de lecture, des thèses universitaires, des citations ou des livres scientifiques). De façon sommaire, un motclé du thème “données longitudinales”, associé à un mot clé du thème “grande dimension” à l’aide de l’opérateur logique “et”, ont été recherchés dans le titre ou le résumé. Les articles ont été ensuite relus afin de vérifier leur pertinence et les inclure, le cas échéant, dans notre revue. Résultats: Au total 36 articles ont été répertoriés pour répondre à la problématique posée. 24 articles font référence aux modèles mixtes pénalisées par Lasso. Parmi eux, 14 proposent des algorithmes d’estimation et 10 sont des applications directes sur des données génomiques ou d’imagerie. Trois articles utilisent les arbres de régression ou forêts aléatoires, trois utilisent des séparateurs à vaste marge (SVM), deux appliquent des analysesen composantes principales (ACP), deux font appel à la régression par moindres carrés partiels (PLS) et deux proposent des méthodes bayésiennes. Au total, huit travaux ont fourni un code implémenté (R ou Matlab). Conclusion: Nous constatons un intérêt et un développement croissant des méthodes permettant de proposer des solutions aux problèmes liés à la grande dimension et à la nature longitudinale des données, de façon simultanée. Il reste à évaluer si les algorithmes proposés sont suffisamment efficaces et adaptés au contexte de la recherche clinique, fournissant par exemple, des résultats interprétables par les cliniciens

    Données longitudinales en grande dimension : état des lieux des packages R

    No full text
    National audienceLes données longitudinales constituent un domaine important de la statistique. On entend par données longitudinales des données telles que, pour chaque individu considéré, on dispose d’observations à différents instants, autrement dit répétées dans le temps. Les principaux domaines d’application de ce type de données sont la médecine ou la biologie. On peut prendre comme exemple des données de séquençage pour rechercher l’efficacité d’un vaccin sur une maladie, des données d’imagerie au cours du temps pour rechercher la localisation d’un tumeur dans le cerveau, mais également des données sportives pour étudier la performance suivant les entrainements des athlètes.L’analyse de ces données longitudinales requiert des méthodes statistiques adaptées. En effet, les séries des données de chaque sujet sont supposées indépendantes les unes des autres, mais les données d’un même sujet sont vraisemblablement corrélées dans le temps. Les modèles àeffets mixtes permettent de tenir compte de cette corrélation (Verbeke et Molenberghs, 2000). Ces modèles permettent d’expliquer la variabilité d’une suite d’observations par deux types d’effets : les effets fixes de population et les effets individuels, considérés comme aléatoires puisqu’ils varient d’un individu à l’autre. Quand le nombre d’observations est faible par rapport au nombre d’effets fixes, les modèles mixtes classiques présentent des limites.Nous présentons ici une revue des méthodes prédictives issues du champ de l’apprentissage statistique (ou machine learning) qui ont été proposées dans la littérature permettant de tenir compte de la nature dépendante des données longitudinales par des adaptations des modèles à effets mixtes. Nous effectuons également une revue et une évaluation des différents packages R implémentant ces méthodes. Nous étudions leurs capacités et leurs limites

    High-dimensional longitudinal genomic data: a survey and evaluation of publicly available implementations of machine learning methods

    No full text
    International audienceProblems related to high–dimensionality arise nowadays in many fields of biomedical and clinical trials research, in which longitudinal studies are usually conducted. In these fields, high–dimensional data have lead to the publication of an increasing number of related articles. However, methods appropriate for high-dimensional data analysis, accounting simultaneously for the longitudinal dimension of the data, have been proposed only recently. We performed a review of articles proposing these appropriate methods when assuming a mixed effects model. We evaluated by simulations those methods that are implemented through publicly available codes. L1 regularization methods were the most common approaches. We discuss capacities and limitations with a view to analyzing the DALIA-1 trial data, a therapeutic HIV vaccine clinical trial in which 19 patients were vaccinated. This trial evaluated the administration of a dendritic cell based vaccine to HIV infected patients as a way to boost their immune response against HIV infection. A huge number of data were collected : longitudinal gene expression in the blood was repeatedly measured with microarrays over the course of the trial, as well as blood cell markers that were measured with flow cytometry and multiplex technologies
    corecore