3 research outputs found

    Comparaison de novo de données de séquençage issues de très grands échantillons métagénomiques (application sur le projet Tara Oceans)

    Get PDF
    La métagénomique vise à étudier le contenu génétique et génomique d'un échantillon provenant d'un environnement naturel. Cette discipline récente s'attache à étudier les génomes de différents organismes provenant d'un même milieu. La métagénomique pose de nouvelles questions, tant d'un point de vue biologique qu'informatique. Les masses de données générées par les études métagénomiques et la complexité des milieux étudiés, nécessitent de développer de nouvelles structures de données et de nouveaux algorithmes dédiés. Parmi les différentes approches existantes en métagénomique, la métagénomique comparative consiste à comparer plusieurs métagénomes afin d'en connaître les divers degrés de similarité. Lorsque cette comparaison se base uniquement sur le contenu brut des échantillons, sans faire appel à des connaissances externes, on parle de métagénomique comparative de novo. L'objectif des travaux que nous proposons est de développer une méthode permettant d'extraire les séquences similaires de deux jeux de données métagénomiques, où chaque jeu peut être composé de centaines de millions de courtes séquences. La comparaison proposée consiste à identifier les séquences d'un premier jeu similaires à au moins une séquence d'un second jeu. Afin d'être rapide et économe en mémoire, l'implémentation de notre méthode a nécessité la conception d'une nouvelle structure d'indexation, basée sur le filtre de bloom. Le logiciel final, nommé Compareads, a une consommation mémoire faible (de l'ordre de quelques go) et peut calculer l'intersection de deux échantillons de 100 millions de séquences chacun en une dizaine d'heures. Notre méthode est une heuristique qui génère un faible taux de faux positifs. Le logiciel Compareads est dédié à l'analyse de grands jeux de données métagénomiques. À l'heure actuelle, il est le seul outil capable de comparer de tels jeux. Compareads a été appliqué sur plusieurs projets métagénomiques. Notre outil produit des résultats robustes, biologiquement exploitables et en accord avec diverses méthodes fondamentalement différentes. Il est actuellement utilisé de manière intensive sur les échantillons provenant de l'expédition tara oceans. Sur ce projet, notre méthode à permis de mettre en évidence que les grands systèmes océaniques influent sur la répartition globale des micro-organismes marins.Metagenomics studies overall genomic information of multiple organisms coming from the same biotope. The information is generally provided by next generation sequencing technologies (NGS). Typical data are samples of short reads (i.e. reads of few hundred base pairs). To study such metagenomics information, we developed an original method for extracting similarities between two samples of reads. More precisely, this approach locates the set of common reads present in two samples. In order to fit with current memory capacities and to be time efficient, we used a modified Bloom filter data structure. Finding the common reads between multiple samples and crossing this information with the location of samples leads to visualize some biological processes like ubiquitous species or effect of water stream caring some species. Finally, the tool can also be used as a filter on metagenomics datas to remove for example only one specie. Our software, Compareads, is actually used on the Tara Oceans project where it shows that global dynamic of oceans seems to play a part on the dispersion of marine microorganisms.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

    Esca et vigne : compréhension des mécanismes de défense précoces du bois de la vigne Vitis vinifera L. suite à la maladie, colonisation des champignons in planta et proposition de moyens de lutte pour une viticulture durable

    Get PDF
    L’esca est une maladie du bois de la vigne complexe et mal connue, contre laquelle aucun moyen de lutte efficace n’existe à ce jour. Ce travail s’est concentré sur les interactions précoces entre Vitis vinifera L. et les champignons associés au « young esca » P. chlamydospora et P. aleophilum dans deux types de tissus lignifiés : l’entre-nœud et le nœud (modèle plaie de taille). La colonisation 6 et 12 semaines après traitement des souches transformées P. aleophilum::gfp7 et P. chlamydospora::gfp1 a été observée. Les deux espèces coloniseraient différents tissus dans les premières semaines suivant l’infection. Les fibres du xylème constitueraient un tissu essentiel lors de l’interaction précoce entre P. aleophilum et la vigne, tandis que P. chlamydospora::gfp1 a seulement colonisé les vaisseaux du xylème après 12 semaines. Le bois de la vigne présenterait des réponses spécifiques à la présence de P. aleophilum 6 semaines après traitement, puis générales à la blessure 12 semaines après traitement, en microscopie. L’hypothèse de la spécificité de la réponse induite dans le bois de la vigne par ces deux espèces a été confirmée en étudiant l’expression de 11 gènes associés à la défense 10 h, 24 h, 48 h et 120 hpi. La réponse précoce du bois de la vigne serait spécifique suivant l’identité des pathogènes. Les tissus de l’entre-nœud ont été induits différemment par la blessure par rapport aux tissus dans la région nodale. Un modèle pour le criblage d’agents de biocontrôle ou d’éliciteurs contre l’esca en quelques mois en conditions de laboratoire a permis le développement d’un moyen de lutte durable et novateur, l’eau ozonée. L’eau ozonée présente des propriétés sporicides remarquables contre P. aleophilum in vitro. In planta l’application d’eau ozonée sur une blessure infectée en modèle plaie de taille a réduit de moitié la quantité de mycélium capable de se développer dans le bois 9 semaines après inoculation

    Méthodes statistiques pour l’analyse différentielle de données RNA-seq en masse et en cellule unique appliquées en immunologie

    Get PDF
    RNA-seq technology is the new standard for measuring gene expression. Its variations can be linked to many pathologies or phenotypes and can be detected by statistical methods called differential analysis. The purpose of differential analysis is to identify genes whose expression is significantly associated with a set of variables. The increasing complexity of experimental designs requires more flexible approaches, in terms of the nature of the variables to be tested and the covariates to take into account, while controlling the false discovery rate. We introduce a new differential analysis method for bulk RNA-seq data based on a linear mixed effects model and a variance component score test. Through a simulation study and the analysis of a real-world Tuberculosis data set, it is shown that our method retains good statistical power and limits the number of potential false positives, compared to the most popular methods. While bulk RNA-seq data represent the average expression of a cell population, the recent development of single-cell RNA-seq technology allows to measure gene expression at the cell level, providing a new biological resolution. The specificity of this type of data lies in the large number of zeros and the heterogeneity of the distributions, often multimodal, making modelling difficult. In order to combine flexibility and distribution-free tool, we propose an approach based on a conditional independence test which relies on an original estimation of conditional cumulative distribution functions using multiple regressions. We apply it to a real data set of SARS-CoV-2 reactive CD8+ T cells, in order to identify genes differentially expressed in three COVID-19 severity groups while considering seven different cell subpopulations.La technologie RNA-seq s’impose comme le nouveau standard pour la mesure de l’expression génique. Ses variations peuvent être mises en lien avec de nombreuses pathologies ou phénotypes et peuvent être détectées par des méthodes statistiques dites d’analyse différentielle. L’objectif de l’analyse différentielle est d’identifier les gènes dont le niveau d’expression est significativement associé à un ensemble de variables. La complexité grandissante des schémas expérimentaux exige des approches plus flexibles, par la nature des variables à tester et par la prise en compte de covariables, tout en maîtrisant le taux de fausses découvertes. Nous introduisons une nouvelle méthode d’analyse différentielle pour données RNA-seq en masse reposant sur un modèle linéaire à effets mixtes et un test du score en composante de variance. Par une étude de simulations et une analyse d’un jeu de données réelles sur la Tuberculose, il apparaît que notre méthode conserve une bonne puissance statistique et limite le nombre de potentiels faux positifs, comparativement aux méthodes les plus populaires. Tandis que les données RNA-seq en masse correspondent à l’expression moyenne d’une population cellulaire, l’émergence récente de la technologie RNA-seq en cellule unique a permis de mesurer le niveau d’expression des gènes à l’échelle de la cellule offrant ainsi une résolution biologique inédite. La particularité de ce nouveau type de données réside dans le nombre important de zéros et l’hétérogénéité des distributions, souvent multimodales, rendant la modélisation difficile. Afin d’allier flexibilité et absence d’hypothèse distributionnelle, nous proposons une approche basée sur un test d’indépendance conditionnelle qui s’appuie sur une estimation originale des fonctions de distribution conditionnelles par des régressions multiples. Nous l’appliquons à un jeu de données réelles de cellules T CD8+ réactives au SARS-CoV-2, afin d’identifier les gènes différentiellement exprimés dans trois groupes de gravité COVID-19 tout en tenant compte de sept sous-populations cellulaires différentes
    corecore