2 research outputs found

    Análisis automatizado de Dominios ancestrales asociados al sistema inmune en cordados basales dentro de un contexto evolutivo

    No full text
    Esta tesis tiene como objetivo la construcción de un flujo automatizado de trabajo que integre diferentes procesos, la información de bases de datos y los modelos computacionales requeridos para identificar dominios asociados al Sistema Inmune (SI) presente en los tunicados que se conoce como un repertorio de genes principalmente asociado al Sistema Inmune Innato(SII). La importancia bioinformática de este trabajo se fundamenta en la necesidad de reconstruir un modelo de ganancia y perdida de dominios del SI en los tunicados bajo una aproximación de procesos automatizados aplicados sobre los genomas de algunas especies. Como grupo cercano a los vertebrados el screening promete revelar información de interés sobre la evolución del SI debido a que los tunicados se encuentran justo antes del bigbang inmunológico que es un proceso que se considera dio origen a la complejidad del Sistema Inmune Adaptativo. Por tanto desde el punto de vista de la rama de la bioinformática de anotación de genes, este trabajo propone una alternativa para la reconstrucción de regiones codificantes en especies no modelo que carecen de información de datos de expresión centrada en homología de dominios. La mayoria de las herramientas disponibles en anotación son altamente dependientes de la información transcriptómica o proteómica aunque existen métodos ab initio que se fudamentan en la búsqueda de señales propias de las secuencias de los genes procariotes y eucariotes. Por otro lado, en particular, la anotación de los genes del Sistema Inmune tampoco es sencilla ya que se debe atacar el problema computacional de identificar homología entre secuencias que pueden estar cargadas de ganancia, perdida y rearreglos de dominios. Es por esto que se propone en este trabajo esta estrategia que combina arquitecturas de dominios canónicos de genes del SII para una eficiente detección de dominios ultraconservados entre las especies de estudio. La estrategia se diseña con el fin identificar tractos de dominios en especies de tunicados que carecen de datos de transcriptómica o proteómica y por tanto se propone un modelo de identificación de posibles regiones genomicas putativas asociadas a codificar para dominios del SII en el genoma borrador de una especie carente de anotación y de datos de expresión como el tunicado Didemnum vexillum Finalmente, se implementa un modelo evolutivo de ganancia y perdida de dominios ultraconservados de genes putativos del SII. Dicha pipeline fue aplicada sobre la totalidad de los genomas de cinco especies de tunicados y de un grupo externo conformado por un cefalocordado y dos vertebrados. Las características de los genomas evaluados durante esta tesis, en especial la de los tunicados, representaron retos computacionales importantes de tres tipos: primero genomas con peculiares historias evolutivas, segundo para algunas de estas especies los ensambles de los genomas se encuentran altamente fragmentados y como no son todos ellos organismos modelo no cuentan con información experimental amplia que permita entrenar y utilizar programas de anotación de genes ampliamente usados en Cordados como la pipeline de Ensembl y tercero existe complejidad en la arquitectura génica de los genes del SI ya que en ellos se presentan duplicaciones de dominios, rearreglos de los mismos y perdidas. Estos problemas fueron resueltos en el Capítulo 1 mediante un análisis focalizado en el amplio repertorio de la arquitectura de genes existentes en dos bases de datos principales InnateDB y Insect Innate Immunity Database (IIID) usado para definir un sistema de dominios ``Gold Standard'' sobre las especies articuladas en el Ensembl usando BioMart para ser mapeados sobre las especies Ciona intestinalis, Ciona savignyi, Petromyzon marinus, Latimeria chalumnae y Danio rerio logrando así identificar el conjunto de dominios del SII de cordados inferiores. Posteriormente para las especies de tunicados Oikopleura dioica y Botryllus schlosseri y el protocordado Branchiostoma floridaeo que carecen de anotación de la pipeline del Ensembl se usaron las secuencias de sus proteínas reportadas, como blancos para la identificación de dominios canónicos asociados al SII previamente establecido. En el capitulo 2 se presenta la estrategia utilizada para identificar dominios en especies que carecen de evidencia experimental de expresión y anotación como el tunicado D. vexillum. Esta restricción en el número de dominios evaluados permitió de forma rápida, precisa y eficiente establecer conjuntos de dominios con arquitecturas proteicas similares a las reportadas en la literatura, siendo éstas el punto de partida para la búsqueda de relaciones de homología, principalmente de ortología y paralogía y de un modelo de ganancias y perdidas de dominios ultraconservados del SII descrito en el Capítulo 3.This survey is aimed at to build an automated workflow that integrates different processes, database information and computational models required to identify domains associated with the Immune System (IS) present in the tunicates that is known as a repertoire of genes mainly associated with the Innate Immune System (IIS). The bioinformatic importance of this work is based on the need of build a model of gain and loss of domains of the IS in tunicates following an approach which relies on an automated processes applied to the genomes of some species. As a group close to vertebrates, the screening on tunicates promises to reveal information of interest on the evolution of the IS because the tunicates are located just before the immunological big bang which is a process considered to have given rise to the complexity of the Adaptive Immune System. Therefore, from the point of view of the bioinformatics branch of gene annotation, this work proposes an alternative approach to reconstruct coding regions in non-model species that lack gene expression data centered on domain homology search since most of the tools available for gene annotation are highly dependent on the transcriptomic or proteomic information, although there are methods ab initio centered on the search for signals of the prokaryotic and eukaryotic genes sequences. On the other hand, in particular, the annotation of the genes of the Immune System is not a simple task either, since must be tackled the computational problem of identifying homology between sequences that can be built of gain, loss and rearrangements of domains. This is why this strategy combines architectures of canonical domains of IIS genes for an efficient detection of ultraconserved domains between the study species. The strategy is designed to identify tracts of domains in tunicated species that lack of transcriptomics or proteomics data. Therefore we propose a model to identify possible putative genomic regions associated with coding for IIS domains in the draft genome of a species without annotation and expression data such as the tunicate Didemnum vexillum. Finally, an evolutionary model of gain and loss of ultraconserved domains of putative ISS genes is implemented. This pipeline was applied to all the genomes of five species of tunicates and of an external group consisting of other chordates. The characteristics of the genomes evaluated during this thesis, especially in tunicates, represented three types of important computational challenges. First genomes with peculiar evolutionary histories, second for some of these species the assembled genomes are highly fragmented and since they are non-model organisms they do not have extensive experimental information that allows us to train and use gene annotation programs widely used in chordates as the Ensembl pipeline and third there is complexity in the gene architecture of the genes of the IS since they present duplications of domains, rearrangements and losses. These problems were solved in Chapter 1 through an analysis focused in the wide repertoire of the existing gene architecture in two main databases InnateDB and Insect Innate Immunity Database (IIID) that let us to define a system of “Gold Standard”domains which was mapped into species articulated in the Ensembl using BioMart, which included the species Ciona intestinalis, Ciona savignyi, Petromyzon marinus, Latimeria chalumnae and Danio rerio to identify a set of canonical architectures of the IIS of lower chordates. Later on, were used protein sequences annotated by other systems as targets for the identification of canonical domains associated with the “Gold Standard”previously established for the species of tunicates Oikopleura dioica and Botryllus schlosseri and the protocordado Branchiostoma floridaeo. In chapter 2 we present the strategy used to identify domains in species that lack of experimental evidence of expression and annotation such as the tunicate D. vexillum. This restriction in the number of evaluated domains allowed quickly, accurately and efficiently to establish sets of putative domains of protein architectures similar to those reported in the literature. This approach could be used as the starting point for the search of homology relationships, mainly of orthology and paralogy and as a model of gains and losses of ultraconserved ISS domains as is described in the Chapter 3.Maestrí
    corecore