Méthodes d’inférence des variations structurelles à l’échelle du génome dans les données séquençage basse profondeur à l’aide du graphe de pangénome

Dang, Thi Minh Nguyet

Méthodes d’inférence des variations structurelles à l’échelle du génome dans les données séquençage basse profondeur à l’aide du graphe de pangénome

Authors: Thi Minh Nguyet Dang
Publication date: 20 September 2022
Publisher: HAL CCSD

Abstract

To compare multiple genomes, a linear reference genome was often used as a coordination system to describe genes, variations and other functional annotations across individuals. However, this single reference was shown not to be sufficient to grasp every existing genomic variation such as copy number variations (CNV), presence/absence variations (PAV) or more general structural variations (SV). To overcome this limitation, the concept pangenome composing a core-genome and a dispensable genome was applied to investigate a group of genomes. Graph-based data model generated by incrementally incorporating genome-to-graph alignment information was one of the novel approaches to represent pangenome information. A sequence graph contains nodes that are labelled with nucleotides sequences and the linkages among nodes serve as edges. The chain of successive nodes in a genome graph is considered as a path. Generally, the sequence graph is bidirected. Genome graph is suitable for representing a pangenome since each path can demonstrate an individual in the studied population. For studying structural variation in a pangenome, several methods were developed including: GraphTyper, BayesTyper, and vg toolkit. These tools mostly focus on genotyping problems. Correspondingly, these tools function depending on a graph built from known variants then genotyping based on mapped read realignment, k-mer distribution, read coverage and whole-genome alignment graph. However, there are still some limitations in presenting nested structural variants or identification of orthologs. In this presentation, I would like to briefly discuss different approach to generate a genome graph and how we can use it in structural variations prediction. I will also introduce a workflow to handle genome graph data in gfa format outputted from minigraph. In my PhD, I would like to develop a method to predict structural variant for low-coverage sequencing data based on genome graph. Firstly, a population of high-quality sequenced data can be used to generate a genome graph. At the moment, the number of tools usable for genome graph is limited. Hence, I will extract the most representative linear path from the graph to take advantages of well-developed available conventional tools. This linear path will be used as a reference when I align read from low-coverage individual to identify mapped and unmapped regions. The unmapped regions on low-coverage individual will be classified into two cases. If unmapped reads aligned with bubbles in the graph genome, the path of the low-coverage individual will follow those bubbles. In other cases, the low-coverage individuals will follow of the profile of the most similar high-coverage individual.Pour comparer plusieurs génomes, un génome de référence linéaire a souvent été utilisé comme système de coordonnées pour décrire les gènes, les variations et autres annotations fonctionnelles entre individus. Cependant, il a été démontré que cette référence unique n'était pas suffisante pour appréhender toutes les variations génomiques existantes telles que les variations du nombre de copies (CNV), les variations de présence/absence (PAV) ou les variations structurelles de manière (SV) plus générale. Pour surmonter cette limitation, le concept de pangénome, composé d'un génome central et d'un génome accessoire, a été appliqué pour étudier un groupe de génomes. Le modèle de données basé sur le graphe généré par l'incorporation incrémentale des informations d'alignement de génomes est l'une des nouvelles approches pour représenter les informations du pangénome. Un graphe de séquences contient des nœuds qui sont étiquetés avec des séquences de nucléotides, les liens entre les nœuds servant d'arêtes. La chaîne de nœuds successifs dans un graphe de génome est considérée comme un chemin. En général, le graphe de séquence est bidirectionnel. Le graphe génomique est approprié pour représenter un pangénome puisque chaque chemin peut démontrer un individu dans la population étudiée. Pour étudier la variation structurelle d'un pangénome, plusieurs méthodes ont été développées dont : GraphTyper, BayesTyper, ou vg toolkit. Ces outils se concentrent principalement sur les problèmes de génotypage. En conséquence, ces outils fonctionnent en fonction d'un graphe construit à partir de variants connus puis du génotypage basé sur le réalignement des lectures cartographiées, la distribution des k-mer, la couverture des lectures et le graphe d'alignement du génome entier. Cependant, il existe encore certaines limitations dans la présentation des variants structurels imbriqués ou l'identification des orthologues. Dans cette présentation, j'aimerais discuter brièvement des différentes approches pour générer un graphe du génome et comment nous pouvons l'utiliser dans la prédiction des variations structurelles. Je présenterai également une approche méthodologique permettant de traiter les données du graphe du génome au format gfa provenant de minigraph. Dans le cadre de mon doctorat, je souhaite développer une méthode de prédiction des variations structurelles pour les données de séquençage à faible couverture basée sur le graphe du génome. Tout d'abord, un set de séquencées de haute qualité peut être utilisé pour générer un graphe génomique. Pour l'instant, le nombre d'outils utilisables pour le graphe génomique est limité. Par conséquent, j'extrais le chemin linéaire le plus représentatif du graphe pour tirer parti des outils conventionnels disponibles et bien développés. Ce chemin linéaire sera utilisé comme référence lorsque j'alignerai les lectures des individus à faible couverture pour identifier les régions cartographiées et non cartographiées. Les régions non cartographiées sur les individus à faible couverture seront classées en deux cas. Si une bulle du graphe est couverte par au moins une lecture, cette bulle sera incorporée au chemin de l'individu. Dans les autres cas, les individus à faible couverture suivront le profil de l'individu à forte couverture le plus similaire

Similar works

Full text

Available Versions

HAL-CIRAD

oai:HAL:tel-04067063v1

Last time updated on 02/05/2023