5 research outputs found

    Cross-validation and Peeling Strategies for Survival Bump Hunting using Recursive Peeling Methods

    Full text link
    We introduce a framework to build a survival/risk bump hunting model with a censored time-to-event response. Our Survival Bump Hunting (SBH) method is based on a recursive peeling procedure that uses a specific survival peeling criterion derived from non/semi-parametric statistics such as the hazards-ratio, the log-rank test or the Nelson-Aalen estimator. To optimize the tuning parameter of the model and validate it, we introduce an objective function based on survival or prediction-error statistics, such as the log-rank test and the concordance error rate. We also describe two alternative cross-validation techniques adapted to the joint task of decision-rule making by recursive peeling and survival estimation. Numerical analyses show the importance of replicated cross-validation and the differences between criteria and techniques in both low and high-dimensional settings. Although several non-parametric survival models exist, none addresses the problem of directly identifying local extrema. We show how SBH efficiently estimates extreme survival/risk subgroups unlike other models. This provides an insight into the behavior of commonly used models and suggests alternatives to be adopted in practice. Finally, our SBH framework was applied to a clinical dataset. In it, we identified subsets of patients characterized by clinical and demographic covariates with a distinct extreme survival outcome, for which tailored medical interventions could be made. An R package `PRIMsrc` is available on CRAN and GitHub.Comment: Keywords: Exploratory Survival/Risk Analysis, Survival/Risk Estimation & Prediction, Non-Parametric Method, Cross-Validation, Bump Hunting, Rule-Induction Metho

    Effective use of data mining technologies on biological and clinical data

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH

    Advances in Evolutionary Algorithms

    Get PDF
    With the recent trends towards massive data sets and significant computational power, combined with evolutionary algorithmic advances evolutionary computation is becoming much more relevant to practice. Aim of the book is to present recent improvements, innovative ideas and concepts in a part of a huge EA field

    Outils statistiques pour la sélection de variables\ud et l'intégration de données "omiques"

    Get PDF
    Les récentes avancées biotechnologiques permettent maintenant de mesurer une\ud énorme quantité de données biologiques de différentes sources (données génomiques,\ud protémiques, métabolomiques, phénotypiques), souvent caractérisées par un petit nombre\ud d'échantillons ou d'observations.\ud L'objectif de ce travail est de développer ou d'adapter des méthodes statistiques\ud adéquates permettant d'analyser ces jeux de données de grande dimension, en proposant\ud aux biologistes des outils efficaces pour sélectionner les variables les plus pertinentes.\ud Dans un premier temps, nous nous intéressons spécifiquement aux données de\ud transcriptome et à la sélection de gènes discriminants dans un cadre de classification\ud supervisée. Puis, dans un autre contexte, nous cherchons a sélectionner des variables de\ud types différents lors de la réconciliation (ou l'intégration) de deux tableaux de données\ud omiques.\ud Dans la première partie de ce travail, nous proposons une approche de type\ud wrapper en agrégeant des méthodes de classification (CART, SVM) pour sélectionner\ud des gènes discriminants une ou plusieurs conditions biologiques. Dans la deuxième\ud partie, nous développons une approche PLS avec pénalisation l1 dite de type sparse\ud car conduisant à un ensemble "creux" de paramètres, permettant de sélectionner des\ud sous-ensembles de variables conjointement mesurées sur les mêmes échantillons biologiques.\ud Un cadre de régression, ou d'analyse canonique est propose pour répondre\ud spécifiquement a la question biologique.\ud Nous évaluons chacune des approches proposées en les comparant sur de nombreux\ud jeux de données réels a des méthodes similaires proposées dans la littérature.\ud Les critères statistiques usuels que nous appliquons sont souvent limitée par le petit\ud nombre d'échantillons. Par conséquent, nous nous efforcons de toujours combiner nos\ud évaluations statistiques avec une interprétation biologique détaillee des résultats.\ud Les approches que nous proposons sont facilement applicables et donnent des\ud résultats très satisfaisants qui répondent aux attentes des biologistes.------------------------------------------------------------------------------------Recent advances in biotechnology allow the monitoring of large quantities of\ud biological data of various types, such as genomics, proteomics, metabolomics, phenotypes...,\ud that are often characterized by a small number of samples or observations.\ud The aim of this thesis was to develop, or adapt, appropriate statistical methodologies\ud to analyse highly dimensional data, and to present ecient tools to biologists\ud for selecting the most biologically relevant variables. In the rst part, we focus on\ud microarray data in a classication framework, and on the selection of discriminative\ud genes. In the second part, in the context of data integration, we focus on the selection\ud of dierent types of variables with two-block omics data.\ud Firstly, we propose a wrapper method, which agregates two classiers (CART\ud or SVM) to select discriminative genes for binary or multiclass biological conditions.\ud Secondly, we develop a PLS variant called sparse PLS that adapts l1 penalization and\ud allows for the selection of a subset of variables, which are measured from the same\ud biological samples. Either a regression or canonical analysis frameworks are proposed\ud to answer biological questions correctly.\ud We assess each of the proposed approaches by comparing them to similar methods\ud known in the literature on numerous real data sets. The statistical criteria that\ud we use are often limited by the small number of samples. We always try, therefore, to\ud combine statistical assessments with a thorough biological interpretation of the results.\ud The approaches that we propose are easy to apply and give relevant results that\ud answer the biologists needs
    corecore