4 research outputs found

    An optimized procedure greatly improves EST vector contamination removal

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>The enormous amount of sequence data available in the public domain database has been a gold mine for researchers exploring various themes in life sciences, and hence the quality of such data is of serious concern to researchers. Removal of vector contamination is one of the most significant operations to obtain accurate sequence data containing only a cDNA insert from the basecalls output by an automatic DNA sequencer. Popular bioinformatics programs to accomplish vector trimming include LUCY, cross_match and SeqClean.</p> <p>Results</p> <p>In a recent study, where the program SeqClean was used to remove vector contamination from our test set of EST data compiled through various library construction systems, however, a significant number of errors remained after preliminary trimming. These errors were later almost completely corrected by simply using a re-linearized form of the cloning vector to compare against the target ESTs. The modified trimming procedure for SeqClean was also compared with the trimming efficiency of the other two popular programs, LUCY2, and cross_match. Using SeqClean with a re-linearized form of the cloning vector significantly surpassed the other two programs in all tested conditions, while the performance of the other two programs was not influenced by the modified procedure. Vector contamination in dbEST was also investigated in this study: 2203 out of the 48212 ESTs sampled from dbEST (2007-04-18 freeze) were found to match sequences in UNIVEC.</p> <p>Conclusion</p> <p>Vector contamination remains a serious concern to the data quality in the public sequence database nowadays. Based on the results presented here, we feel that our modified procedure with SeqClean should be recommended to all researchers for the task of vector removal from EST or genomic sequences.</p

    Construcción de un índice de genes con anotaciones funcionales consistentes para la interpretación de experimentos de expresión génica en girasol

    Get PDF
    Los proyectos genómicos desarrollados durante la última década han incrementado exponencialmente el número de secuencias disponibles en bases de datos públicas tanto de genomas completos como de ESTs, incluido el girasol. Para esta especie se dispone de más de 130.000 secuencias en GenBank, y existen pocos estudios desarrollados y disponibles para determinar la identidad funcional de dichas secuencias. Dado que esta información es clave para interpretar los resultados de los análisis conducidos a nivel transcripcional, el objetivo de este trabajo es el análisis bioinformático de secuencias parciales expresadas (ESTs) que serán objeto de posteriores estudios de expresión génica para caracteres de importancia agronómica a partir del diseño de un microarreglo de oligonucleótidos. Para ello, inicialmente se realizó un proceso de depuración de EST, ensamblado, anotación y re-evaluación de contigs para filtrar aquellos que presentaban redundancia y podrían conducir a la observación de patrones de expresión difíciles de interpretar durante el análisis del microarreglo. De manera exploratoria, se analizó un subconjunto de unigenes a través de un análisis de expresión digital diferencial a partir de la abundancia de transcriptos correspondientes presentes en diferentes clonotecas, para evaluar de manera preliminar la información contenida en el chip de girasol. Los resultados de estos análisis tendrán impacto en el conocimiento de expresión diferencial de posibles genes que serán genuinamente validados a posteriori de manera experimental bajo la utilización de la micromatriz de Helianthus annuus L. sintetizada y en proceso de validación.Plant genome projects developed during the last decade allowed the exponentially increased of public sequences in web databases not only of whole-sequenced genomes but also ESTs sequence for different species, including sunflower. Although more than 130,000 public ESTs sequences are available in GenBank, there are few preliminary studies aimed to elucidate the functional identity of these anonymous sequences. Considering that this information is important to carry out robust interpretation of transcriptional studies, we propose to obtain a reliable set of sunflower unigenes by applying different bioinformatic cleaning procedures to public ESTs databases. This unigene data base represents the start point in the design of an oligonucleotide microarray for transcriptomic studies. As a preliminary exploratory assay, a subset of these unigenes derived from different cDNA libraries was analyzed using automatic annotation methodologies and a digital expression analysis was conducted. The outcome results will help to have additional information about the data contained in the unigene database for further application to Helianthus annuus L transcriptomic analysis using an oligonucleotide microarray which is already printed and synthesized and in the process of validation.Sociedad Argentina de Informática e Investigación Operativ

    Analysis of RNA-seq data from the interaction of Coffea spp. - Colletotrichum kahawae

    Get PDF
    Tese de mestrado em Bioinformática e Biologia Computacional (Bioinformática), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2014O café e um dos produtos mais comercializados no mundo, com extrema importância económica e social, influenciando milhões de pessoas que dependem direta ou indiretamente desta industria. No entanto, a cultura do café e extremamente afetada por agentes patogénicos, nomeadamente fungos. Colletotrichum kahawae Waller and Bridge e um desses agentes, sendo responsável pela antracnose dos frutos verdes do cafeeiro, conhecida como “Coffee Berry Disease”. Esta doença afeta a espécie Coffea arabica L., a espécie de maior importância no mercado, apresentando os maiores volumes de produção. Atualmente, a antracnose dos frutos verdes do cafeeiro incide sobretudo em zonas de alta altitude, encontrando-se confinada ao continente africano. Contudo tal não significa que não se possa dispersar para outras zonas de cultivo onde as condições de desenvolvimento, tanto para a planta como para o fungo, sejam favoráveis. Foram desenvolvidas várias estratégias de melhoramento para o combate a doença, levando ao desenvolvimento de algumas variedades resistentes no Quénia. Apesar de já serem atualmente conhecidos vários genótipos com um caracter de resistência a esta doença, as bases genéticas e moleculares da mesma são ainda desconhecidas. Com o intuito de compreender as bases subjacentes ao processo de resistência, recorreu-se a sequenciação comparativa do transcriptoma de dois genótipos de cafeeiro, um susceptível (Caturra) e outro resistente (Catimor 88) durante as primeiras horas de interacção de C. kahawae, através da plataforma Illumina. A análise destes dados visou a identificação de genes diferencialmente expressos, envolvidos na resistência da planta a doença. Os dados desta sequenciação foram previamente analisados pela empresa ARK genomics (UK), embora utilizando softwares e parâmetros padronizados, normalmente aplicados para todo o tipo de analises deste género, desde bactérias a plantas. Com o objetivo de melhorar e aprofundar a analise, foi desenvolvida uma nova analise customizada, que aqui se apresenta, em comparação com a analise anterior. Varias ferramentas e abordagens foram aplicadas nesta nova analise, tendo em conta a inexistência de um genoma de referencia. Neste trabalho foi possível identificar vários problemas e cuidados a ter desde o tratamento das “reads”, ate ao cálculo de diferenças de expressão, bem como simples diferenças entre softwares. Neste novo estudo de expressão teve-se ainda em conta análises comparativas a diferentes níveis que não tinham sido efetuadas na analise anterior. A anotação de “unigenes” diferencialmente expressos indica uma tendência para categorias funcionais diretamente relacionadas com a produção de energia, envolvida no crescimento e desenvolvimento da planta, e com processos ja identificados como envolvidos na resposta de defesa a agentes patogénicos tais como o metabolismo de açúcares ou a biossíntese de fenilalanina e fenilpropanoides. De um modo geral, os objetivos deste trabalho foram cumpridos, tendo-se desenvolvido uma linha de análise que permitiu uma melhor e mais adequada exploração dos dados gerados por sequenciação de transcriptoma. Espera-se assim que os resultados obtidos venha a contribuir para o aumento do conhecimento científico sobre a resposta de defesa por parte da planta, gerando informações uteis para o estabelecimento de programas de melhoramento que apoiem a produção sustentável de uma cultura tao relevante a nível económico e social. Por outro lado, espera-se que este trabalho mostre a necessidade de uma analise cuidada de dados de “next generation sequencing”, em especial dados resultantes da sequenciação de RNA, tecnologia ainda bastante recente e sem um processo universalmente aceite para a analise correta dos dados gerados.Coffee is one of the most traded products in the world, with extremely social and economic importance, and millions of people who depend directly or indirectly on it. Coffee berry disease (CBD), caused by the fungus Colletotrichum kahawae Waller & Bridge, is considered the biggest threat to Arabica coffee production in Africa at high altitude. In Coffea arabica L. plantations, CBD can cause up to 20-50% of crop losses, reaching 80% in years of severe epidemics if chemical control is not applied. In order to control this disease, several coffee improvement strategies were developed which leaded to the selection of few hybrid commercial resistant varieties in Kenya. Therefore, breeding for coffee resistance remains a powerful strategy to fight CBD, in an economic and sustainable manner. With the purpose of gaining some insights on coffee resistance process, a RNA Illumina sequencing approach was used to characterize the transcriptional profile of two coffee genotypes, respectively susceptible (Caturra) and resistant (Catimor 88) to C. kahawae, during the early stages of the infection process. The differential expression analysis of this data aimed to identify genes putatively involved in the resistance process. Although a previous analysis was made by the sequencing company ARK genomics (UK), this was only based on non-specific methods generally applied to a wide range of organisms. To improve the analysis and consequently the results obtained, a new approach was taken aiming to produce a more customized workflow. Comparatively with the previous analysis, the present approach showed some improvement regarding the transcriptome assembly quality and size, or the level of confidence of the differential expression results, despite the CPU and RAM limitations. It was possible to account for additional comparative analyses for the differential expression assessment and to identify the enriched functional categories representing the differential expressed unigenes. Regarding the biological results, the resistant genotype showed a high effective response to the infection while the susceptible genotype showed an early stress-leaded response by the infection. The KOG and KEGG annotation of the differential expressed unigenes, was able to identify two main domains: plant development and defense response. It is expected that the results obtained here will contribute to increase the scientific knowledge on the plant defense response , generating useful information able to guide the establishment of breeding programs that support sustainable production. Moreover, it is expected that this study show the necessity of careful analysis of next generation sequencing data, especially when dealing with recent methods like RNA-seq, for which there is no clear consensus about the best analysis practices

    Correlation-based methods for data cleaning, with application to biological databases

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH
    corecore