Within the great interest in the characterization of genomic structural variants
(SVs) in the human genome, inversions present unique challenges and
have been little studied. This thesis has developed "GRIAL", a new algorithm
focused specifically in detect and map accurately inversions from
paired-end mapping (PEM) data, which is the most widely used method
to detect SVs. GRIAL is based on geometrical rules to cluster, merge and
refine both breakpoints of putative inversions. That way, we have been
able to predict hundreds of inversions in the human genome. In addition,
thanks to the different GRIAL quality scores, we have been able to
identify spurious PEM-patterns and their causes, and discard a big fraction
of the predicted inversions as false positives. Furthermore, we have created
â ˘ AIJInvFESTâ˘A˙I, the first database of human polymorphic inversions,
which represents the most reliable catalogue of inversions and integrates
all the associated information from multiple sources. Currently, InvFEST
combines information from 30 different studies and contains 1092 candidate
inversions, which are categorized based on internal scores and manual
curation. Finally, the analysis of all the data generated has provided information
on the genomic patterns of inversions, contributing decisively to
the understanding of the map of human polymorphic inversions.Dentro del estudio de las variantes estructurales en el genoma humano,
las inversiones han sido las menos han consolidado sus resultados y constituye
uno de los principales retos en la actualidad. Esta tesis aborda el
tema a través de la implementación de "GRIAL" un nuevo algoritmo específicamente
diseñado para la detección más precisa posible de las inversiones
usando el mapeo de secuencias apareadas (del inglés PEM) que es
el método más utilizado para estudiar la variación estructural. GRIAL se
basa en reglas geométricas para agrupar los patrones de PEM que señalan
un posible punto de rotura (del inglés breakpoint) de inversión, además une
cada breakpoint correspondientes a inversiones independientes y refina lo
más exacto posible su localización. Su uso nos permitió predecir cientos de
inversiones. Un gran aporte de nuestro método es la creación de índices
(del inglés score) de fiabilidad para las predicciones mediante los cuales
identificamos patrones de inversión incorrectos y sus causas. Esto nos
permitió filtrar nuestro resultado eliminando un gran número de predicciones
posiblemente falsas. Además se creó "InvFEST", la primera base de
datos especialmente dedicada a inversiones polimórficas en el genoma humano
la cual representa el catálogo más fiable de inversiones, integrando
además a cada inversión conocida la información asociada disponible. Actualmente
InvFEST contiene (y mantiene la clasificación según el nivel de
certeza) un catálogo de 1092 inversiones clasificadas, a partir de datos de
30 estudios diferentes. Finalmente el análisis de toda la información generada
nos permitió describir algunos patrones de las inversiones polimórficas
en el genoma humano contribuyendo de este modo a la comprensión de
esta variante estructural y el estado de su información en los estudios del
genoma humano.Inversió genòmic