Análisis de variación estructural en cáncer mediante secuenciación de lecturas largas

Abstract

Trabajo Fin de Máster en Bioinformática y Biología ComputacionalEl cáncer es una enfermedad compleja, originada como resultado de cambios que pueden darse a distintos niveles del genoma celular. Los avances en las técnicas destinadas a su estudio han abierto las puertas al conocimiento de las mutaciones y los genes implicados en el proceso cancerígeno. Entre ellas, las tecnologías de secuenciación de segunda generación han desempeñado un papel fundamental, al ser capaces de secuenciar el genoma completo de las células presentes en la muestra de un tumor particular. Esto ha permitido la construcción de estándares de referencia tumorales, tanto somáticos como germinales, aunque las mutaciones somáticas constituyen la causa predominante de su desarrollo. Durante los últimos años, las tecnologías de secuenciación de tercera generación han surgido como solución a algunas de las limitaciones intrínsecas de las anteriores. Entre otras, la capacidad de generar lecturas de kilobases a megabases de longitud ha permitido estudiar de forma adecuada regiones del genoma humano más desconocidas (ricas en GC y repetitivas), cuyas características impedían su correcta resolución con lecturas cortas. Estas regiones suponen una fuente de generación activa de ciertos tipos de variantes, de forma que al menos un 70 % de las variantes estructurales del genoma humano había resultado difícil de caracterizar con lecturas cortas. El desarrollo reciente de estas tecnologías de tercera generación presenta la necesidad de describir sus competencias y obstáculos, de lograr su optimización y de desarrollar aproximaciones bioinformáticas para aprovechar al máximo su potencial. Con el objetivo de estudiar las capacidades y limitaciones concretas de las tecnologías de secuenciación de ambas generaciones en la detección y el estudio de variantes estructurales en cáncer, este proyecto ha trabajado sobre datos de secuenciación de genoma completo de las líneas celulares COLO829 y COLO829BL (un tipo de melanoma y su contraparte sana). Para ello, se ha desarrollando un flujo de trabajo utilizando cada una de las dos generaciones de tecnología. Respecto al flujo de trabajo desarrollado basado en lecturas cortas, éste permitió identificar más de un 90 % de las variantes presentes en la referencia somática disponible para COLO829. El flujo de trabajo basado en lecturas largas permitió por su parte identificar más de 30 000 variantes de tipo indel y estructurales. Los resultados obtenidos en este trabajo no sólo han contribuido a demostrar y reforzar el papel clave de las regiones repetitivas en la generación de los tipos de variantes de interés, sino también a la detección específica de tipos complejos. De las variantes identificadas con lecturas largas, destaca una de significancia clínica contrastada en el supresor tumoral PTEN. También resultan interesantes otras dos que, aunque no disponen del mismo estatus, permiten plantear hipótesis sobre el cáncer de estudio, al afectar a genes participantes en rutas de potencial relevancia (TP53TG3B, RPH3AL). De hecho, entre las variantes identificadas y sometidas a una filtración preliminar, 558 de ellas afectan a 243 genes implicados en el desarrollo del cáncer, de forma que las posibles hipótesis a plantear y corroborar podrían ser muchas más. Finalmente, los cruces entre las variantes identificadas por cada flujo de trabajo permitieron proponer nuevas variantes a validar e incluir en la referencia somática de COLO829. Además, entre ellas se encontraron algunas que afectan a 8 genes implicados en el desarrollo cancerígeno

    Similar works

    Full text

    thumbnail-image

    Available Versions