    Mining microarray data to predict the histological grade of a breast cancer

    BACKGROUND: The aim of this study was to develop an original method to extract sets of relevant molecular biomarkers (gene sequences) that can be used for class prediction and can be included as prognostic and predictive tools. MATERIALS AND METHODS: The method is based on sequential patterns used as features for class prediction. We applied it to classify breast cancer tumors according to their histological grade. RESULTS: We obtained very good recall and precision for grades 1 and 3 tumors, but, like other authors, our results were less satisfactory for grade 2 tumors. CONCLUSIONS: We demonstrated the interest of sequential patterns for class prediction of microarrays and we now have the material to use them for prognostic and predictive applications

    Co2Vis: A Visual Analytics Tool for Mining Co-Expressed and Co-Regulated Genes Implied in HIV Infections

    International audienceOne of the key challenges in human health is the identification of disease-causing genes like AIDS (Acquired ImmunoDeficiency Syndrome). Numerous studies have addressed this challenge through gene expression analysis. Due to the amount of data available, processing DNA microarrays in a way that makes biomedical sense is still a major issue.Statistical methods and data mining techniques play a key role in discovering previously unknown knowledge. However, applying such techniques in this context is difficult because the number of measurement points (i.e., gene expression levels) is much higher than the number of samples resulting in the well-known curse of dimensionality problem also called the high feature-to-sample ratio.We propose a combination of data mining and visual analytics methods to identify and render groups of genes implied in HIV infections and sharing common behaviors

    Fouille de données de santé

    Dans le domaine de la santé, les techniques d’analyse de données sont de plus en plus populaires et se révèlent même indispensables pour gérer les gros volumes de données produits pour un patient et par le patient. Deux thématiques seront abordées dans cette présentation d'HDR.La première porte sur la définition, la formalisation, l’implémentation et la validation de méthodes d’analyse permettant de décrire le contenu de bases de données médicales. Je me suis particulièrement intéressée aux données séquentielles. J’ai fait évoluer la classique notion de motif séquentiel pour y intégrer des composantes contextuelles, spatiales et sur l’ordre partiel des éléments composant les motifs. Ces nouvelles informations enrichissent la sémantique initiale de ces motifs.La seconde thématique se focalise sur l’analyse des productions et des interactions des patients au travers des médias sociaux. J’ai principalement travaillé sur des méthodes permettant d’analyser les productions narratives des patients selon leurs temporalités, leurs thématiques, les sentiments associés ou encore le rôle et la réputation du locuteur s’étant exprimé dans les messages