Construcción de una plataforma computacional para la identificación de relaciones sinténicas entre subregiones genómicas asociadas al sistema inmune innato del organismo D. vexillum y otros tunicados

Abstract

This works presents protocols and results associated to identify sintenic relationships between subgenomics regions associated with the innate immune system of the organism Didemnum vexillum and other Tunicates. In order to achive these comparisons, was necessary to reassemble the genome of the organism by combining two sequencing technologies: PacBio and Illumina. Additionally, fitted computational protocols were incorporated to overcome two technical problems: first the state of fragmentation of the isolated genome and sequencing by PacBio technology and second the need to correct sequencing errors and increase genomic assembly deep by using Illumina reads. The di-hybrid assembly was run using Celera Assembler Approach Version 8.3rc2. Subsequently to corrections of sequencing errors, SSPACE-Long was used to genome scaffolding. The final assembly resulted in 517.5 Mb comprised of 109,769 scaffolds with an N50 of 6.54 kb. Additionally, in order to identify genomic regions with the potential to encode genes associated with the innate immune system, the de novo transcriptome assembly was run using Trinity v2.4.0 producing a total of 90,938 putative transcripts. Subsequently, the structural annotation was performed using Maker using two training rounds. First round using reference models of the species Ciona intestinalis(today know as Ciona robusta) and the second consecutive round incorporates non-assembled transcriptome data from textit D. vexillum. Functional annotation was assigned with GO terms using Uniref90 from Uniprot and PFAM. Once genome re-assembly and transcriptome assembly , pair-wise genome comparison was achieved between the genome of D. vexillum and four other tunicate species and with a cephalocordado by using the algorith SatSuma. Finally, those syntenic regions associated with GO terms of the immune system were detected. Genomic and transcriptomic nformation are shown on the platform GMOD database ajusted for this purpose.En el presente trabajo se presentan los protocolos y resultados asociados a la identificación de relaciones sinténicas entre subregiones genómicas asociadas al sistema inmune innato de Didemnum vexillum y otros Tunicados. Para poder realizar estas comparaciones se requirió reensamblar el genoma combinando dos tecnologías de secuenciamiento: PacBio e Illumina. Adicionalmente, se incorporaron protocolos computacionales ajustados para superar dos problemas técnicos: primero el estado de fragmentación del genoma aislado y su secuenciamiento por tecnología PacBio y segundo la necesidad de corregir errores del secuenciamiento e incrementar profundidad del ensamblaje genómico usando lecturas de Illumina. El ensamblaje dihibrido se hizo usando Celera Assembler Approach Version 8.3rc2. Posteriormente a las correciones propias de errores de secuenciamiento se usó SSPACE-Long. El ensamble final resultó en 517.5 Mb compuesto de 109.769 scaffolds con un N50 de 6.54 kb. Adicionalmente para poder identificar regiones genómicas con potencial de codificar genes asociados al sistema inmune innato se ensambló de novo el transcriptoma usando Trinity v2.4.0 produciendo un total de 90,938 transcritos putativos. Posteriormente se realizó la anotación estructural utilizando Maker en dos rondas de entrenamiento que incluyeron los transcritos ensamblados: La primera usó modelos de genes de la especie Ciona intestinalis(hoy conocida como Ciona robusta) y la posterior ronda incorporó modelos de genes entrenados con las secuencias de Didemnum vexillum. La anotación funcional se realizó usando términos del Gene Ontology(GO) obtenidos por homología a las bases de datos Uniref90 de Uniprot y PFAM. Una vez obtenido el re-ensamblaje del genoma y el del transcriptoma de la especie se procedió a realizar la comparación genómica pareada entre el genoma de D. vexillum y los ensamblajes de genómicos de otras 4 especies de tunicados y de un cephalocordado utilizando el software SatSuma. Finalmente, sobre las regiones sinténicas obtenidas se asociaron aquellas que tienen genes asociados al sistema inmune según los términos GO. La información genómica y transcriptómica se visualiza en la plataforma base de datos GMOD ajustada para tal fín.Magíster en BioinformáticaMaestrí

    Similar works