Bioinformatic characterization and analysis of polymorphic inversions in the human genome

Abstract

Within the great interest in the characterization of genomic structural variants (SVs) in the human genome, inversions present unique challenges and have been little studied. This thesis has developed "GRIAL", a new algorithm focused specifically in detect and map accurately inversions from paired-end mapping (PEM) data, which is the most widely used method to detect SVs. GRIAL is based on geometrical rules to cluster, merge and refine both breakpoints of putative inversions. That way, we have been able to predict hundreds of inversions in the human genome. In addition, thanks to the different GRIAL quality scores, we have been able to identify spurious PEM-patterns and their causes, and discard a big fraction of the predicted inversions as false positives. Furthermore, we have created â ˘ AIJInvFESTâ˘A˙I, the first database of human polymorphic inversions, which represents the most reliable catalogue of inversions and integrates all the associated information from multiple sources. Currently, InvFEST combines information from 30 different studies and contains 1092 candidate inversions, which are categorized based on internal scores and manual curation. Finally, the analysis of all the data generated has provided information on the genomic patterns of inversions, contributing decisively to the understanding of the map of human polymorphic inversions.Dentro del estudio de las variantes estructurales en el genoma humano, las inversiones han sido las menos han consolidado sus resultados y constituye uno de los principales retos en la actualidad. Esta tesis aborda el tema a través de la implementación de "GRIAL" un nuevo algoritmo específicamente diseñado para la detección más precisa posible de las inversiones usando el mapeo de secuencias apareadas (del inglés PEM) que es el método más utilizado para estudiar la variación estructural. GRIAL se basa en reglas geométricas para agrupar los patrones de PEM que señalan un posible punto de rotura (del inglés breakpoint) de inversión, además une cada breakpoint correspondientes a inversiones independientes y refina lo más exacto posible su localización. Su uso nos permitió predecir cientos de inversiones. Un gran aporte de nuestro método es la creación de índices (del inglés score) de fiabilidad para las predicciones mediante los cuales identificamos patrones de inversión incorrectos y sus causas. Esto nos permitió filtrar nuestro resultado eliminando un gran número de predicciones posiblemente falsas. Además se creó "InvFEST", la primera base de datos especialmente dedicada a inversiones polimórficas en el genoma humano la cual representa el catálogo más fiable de inversiones, integrando además a cada inversión conocida la información asociada disponible. Actualmente InvFEST contiene (y mantiene la clasificación según el nivel de certeza) un catálogo de 1092 inversiones clasificadas, a partir de datos de 30 estudios diferentes. Finalmente el análisis de toda la información generada nos permitió describir algunos patrones de las inversiones polimórficas en el genoma humano contribuyendo de este modo a la comprensión de esta variante estructural y el estado de su información en los estudios del genoma humano.Inversió genòmic

    Similar works