Traitement des données scRNA-seq issues de la technologie Drop-Seq : application à l’étude des réseaux transcriptionnels dans le cancer du sein

Abstract

Les technologies récentes de séquençage de l’ARN de cellules uniques (scRNA-seq, pour single cell RNA-seq) ont permis de quantifier le niveau d’expression des gènes au niveau de la cellules, alors que les technologies standards de séquençage de l’ARN (RNA-seq, ou bulk RNA-seq) ne permettaient de quantifier que l’expression moyenne des gènes dans un échantillon de cellules. Cette résolution supérieure a permis des avancées majeures dans le domaine de la recherche biomédicale, mais a également posé de nouveaux défis, notamment computationnels. Les données qui découlent des technologies de scRNA-seq sont en effet complexes et plus bruitées que les données de bulk RNA-seq. En outre, les technologies sont nombreuses et leur nombre explose, nécessitant chacune un prétraitement plus ou moins différent. De plus en plus de méthodes sont ainsi développées, mais il n’existe pas encore de norme établie (gold standard) pour le prétraitement et l’analyse de ces données. Le laboratoire du Dr. Mader a récemment fait l’acquisition de la technologie Drop-Seq (une technologie haut débit de scRNA-seq), nécessitant une expertise nouvelle pour le traitement des données qui en découlent. Dans ce mémoire, différentes étapes du prétraitement des données issues de la technologie Drop-Seq sont donc passées en revue et le fonctionnement de certains outils dédiés à cet effet est étudié, permettant d’établir des lignes directrices pour de futures expériences au sein du laboratoire du Dr. Mader. Cette étude est menée sur les premiers jeux de données générés avec la technologie Drop-Seq du laboratoire, issus de lignées cellulaires du cancer du sein. Les méthodes d’analyses, moins spécifiques à la technologie, ne sont pas étudiées dans ce mémoire, mais une analyse exploratoire des jeux de données du laboratoire pose les bases pour une analyse plus poussée.Recent single cell RNA sequencing technologies (scRNA-seq) have enabled the quantification of gene expression levels at the cellular level, while standard RNA sequencing technologies (RNA-seq, or bulk RNA-seq) have only been able to quantify the average gene expression in a sample of cells. This higher resolution has allowed major advances in biomedical research, but has also raised new challenges, in particular computational ones. The data derived from scRNA-seq technologies are indeed complex and noisier than bulk RNA-seq data. In addition, the number of scRNA-seq technologies is exploding, each of them requiring a rather different pre-processing. More and more methods are thus being developed, but there is still no gold standard for the preprocessing and analysis of these data. Dr. Mader’s laboratory has recently invested in the Drop-Seq technology (a high-throughput scRNAseq technology), requiring new expertise for the processing of the resulting data. In this thesis, different steps for the pre-processing of Drop-Seq data are reviewed and the behavior of some of the dedicated tools are studied, allowing to establish guidelines for future experiments in Dr. Mader’s laboratory. This study is conducted on the first data sets generated with the Drop-Seq technology of the laboratory, derived from breast cancer cell lines. Analytical methods, less specific to the technology, are not investigated in this thesis, but an exploratory analysis of the lab’s datasets lays the foundation for further analysis

    Similar works

    Full text

    thumbnail-image