research

Analyse différentielle de puces à ADN. Comparaison entre méthodes wrapper et filter.

Abstract

13Dans le cadre de données d'expression génétique, nous nous intéressons aux méthodes qui permettent d'identifier les gènes significativement différentiellement exprimés entre deux situations biologiques. Nous allons comparer une méthode classique d'analyse par tests d'hypothèses à des méthodes d'analyse différentielle par régression régularisée. La difficulté de ce genre de jeu de données est la profusion de variables (les gènes) pour assez peu d'individus (les profils d'expression). La stratégie usuelle consiste à mettre en oeuvre autant de tests qu'il y a de variables et de considérer que les variables principales sont celles qui ont la « meilleure »p-value. Une stratégie alternative pourrait consister à choisir de classer les variables non plus en fonction de leur significativité (pour un test), mais plutôt de le classer suivant leur poids dans le modèle régularisé obtenu. Dans la bibliographie, les premières méthodes sont dites filter1, les deuxièmes sont plutôt dites wrapper2. Un bon aperçu de ce que sont les méthodes wrapper et filter est donné dans [9]. Le cadre ressemble à celui de l'apprentissage supervisé, car on dispose de profils d'expression géniques pour si possible l'ensemble du génome d'un organisme, chaque puce appartenant à une classe- situation biologique particulière (par exemple malade vs sain). L'implémentation des méthodes évoquées dans ce rapport a été effectuée sous R [16]

    Similar works