12 research outputs found

    Alignment-free sequence comparison with spaced k-mers

    Get PDF
    Alignment-free methods are increasingly used for genome analysis and phylogeny reconstruction since they circumvent various difficulties of traditional approaches that rely on multiple sequence alignments. In particular, they are much faster than alignment-based methods. Most alignment-free approaches work by analyzing the k-mer composition of sequences. In this paper, we propose to use \u27spaced k-mers\u27, i.e. patterns of deterministic and \u27don\u27t care\u27 positions instead of contiguous k-mers. Using simulated and real-world sequence data, we demonstrate that this approach produces better phylogenetic trees than alignment-free methods that rely on contiguous k-mers. In addition, distances calculated with spaced k-mers appear to be statistically more stable than distances based on contiguous k-mers

    A Coverage Criterion for Spaced Seeds and its Applications to Support Vector Machine String Kernels and k-Mer Distances

    Get PDF
    Spaced seeds have been recently shown to not only detect more alignments, but also to give a more accurate measure of phylogenetic distances (Boden et al., 2013, Horwege et al., 2014, Leimeister et al., 2014), and to provide a lower misclassification rate when used with Support Vector Machines (SVMs) (On-odera and Shibuya, 2013), We confirm by independent experiments these two results, and propose in this article to use a coverage criterion (Benson and Mak, 2008, Martin, 2013, Martin and No{\'e}, 2014), to measure the seed efficiency in both cases in order to design better seed patterns. We show first how this coverage criterion can be directly measured by a full automaton-based approach. We then illustrate how this criterion performs when compared with two other criteria frequently used, namely the single-hit and multiple-hit criteria, through correlation coefficients with the correct classification/the true distance. At the end, for alignment-free distances, we propose an extension by adopting the coverage criterion, show how it performs, and indicate how it can be efficiently computed.Comment: http://online.liebertpub.com/doi/abs/10.1089/cmb.2014.017

    A Coverage Criterion for Spaced Seeds and its Applications to Support Vector Machine String Kernels and k-Mer Distances

    Get PDF
    Spaced seeds have been recently shown to not only detect more alignments, but also to give a more accurate measure of phylogenetic distances (Boden et al., 2013, Horwege et al., 2014, Leimeister et al., 2014), and to provide a lower misclassification rate when used with Support Vector Machines (SVMs) (On-odera and Shibuya, 2013), We confirm by independent experiments these two results, and propose in this article to use a coverage criterion (Benson and Mak, 2008, Martin, 2013, Martin and No{\'e}, 2014), to measure the seed efficiency in both cases in order to design better seed patterns. We show first how this coverage criterion can be directly measured by a full automaton-based approach. We then illustrate how this criterion performs when compared with two other criteria frequently used, namely the single-hit and multiple-hit criteria, through correlation coefficients with the correct classification/the true distance. At the end, for alignment-free distances, we propose an extension by adopting the coverage criterion, show how it performs, and indicate how it can be efficiently computed.Comment: http://online.liebertpub.com/doi/abs/10.1089/cmb.2014.017

    Representação de grandes conjuntos de dados de sequências biológicas em vetores compactos em linguagem R no estudo de proteomas virais

    Get PDF
    Orientador: Roberto Tadeu RaittzCoorientadora: Camilla Reginatto de PierriMonografia (Bacharelado) - Universidade Federal do Paraná. Setor de Ciências Biológicas. Curso de Graduação em Ciências Biológicas

    Representações vetoriais de proteomas : um estudo de caso com sequências mitocondriais

    Get PDF
    Orientador : Prof. Dr. Roberto Tadeu RaittzCoorientador : Prof. Dr. Mauro Antônio Alves CastroDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa: Curitiba, 15/05/2017Inclui referências : f. 67-77Resumo: Grande parte dos estudos evolutivos para inferir ancestralidade são conduzidos utilizando apenas alguns genes mitocondriais. Filogenias baseadas em um único gene podem não conter informações suficientes para construir história evolutiva de determinados organismos. Utilizar genomas mitocondriais completos para análises evolutivas fornecem mais informações que a utilização de proteínas individuais, porém, dependendo do número de organismos, gera alto custo computacional. Não existem propostas até o momento referentes a filogenias derivadas de projeções em espaços vetoriais com redução de dimensão que representem o proteoma de organismos. A abordagem proposta neste trabalho, desenvolvida em ambiente MatLab® é inovadora e resolve problemas associados ao custo computacional na execução de filogenias. Utilizando os dados de 6.811 organismos depositados no RefSeq, realizamos inicialmente a clusterização dos dados, utilizando a ferramenta RAFTS3groups. Após tratamento dos dados, propomos uma estratégia de representação vetorial baseada em k-mers espaçados, utilizando janela deslizante com tamanho de 5 aminoácidos com 1 descontinuado. A partir disso, foi gerada uma matriz de co-ocorrência de 400x400 para cada organismo, representando o proteoma mitocondrial. Esta matriz foi disposta em um vetor de 160.000 atributos, o qual é utilizado para gerar representações vetoriais com redução de dimensão de 100, 400 e 800 coordenadas. Essas vetorizações são representadas em árvores filogenéticas e comparada com filogenia de alinhamento. Elaboramos um algoritmo baseado em UPGMA para realizar árvores filogenéticas e analisamos o proteoma mitocondrial dos Jakobidas e dos Homínidios. A estratégia de extração de atributos e representação vetorial do proteoma se mostrou eficiente para evidenciar relações de parentesco, sendo as filogenias vetorizadas correlacionadas com a filogenia de alinhamento. Palavras-chave: Proteoma Mitocondrial, Filogenia, Bioinformática.Abstract: Much of the evolutionary studies to infer ancestry are conducted using only a few mitochondrial genes. Phylogenies based on a single gene may not contain enough information to construct evolutionary history of certain organisms. Using complete mitochondrial genomes for evolutionary analysis provides more information than the use of individual proteins, however, depending on the number of organisms, it generates a high computational cost. There are no proposals to date regarding phylogenies derived from projections in vector spaces with size reduction that represent the proteome of organisms. The approach proposed in this work, developed in MatLab® environment, is innovative and solves problems associated with computational cost in the execution of phylogenies. Using data from 6,811 organisms deposited in the RefSeq, we initially performed data clustering using the RAFTS3groups tool. After data processing, we propose a vector representation strategy based on spaced k-mers, using sliding window with size of 5 amino acids with 1 discontinued. From this, a co-occurrence matrix of 400x400 was generated for each organism, representing the mitochondrial proteome. This matrix was arranged in a vector of 160,000 attributes, which is used to generate vector representations with size reduction of 100, 400 and 800 coordinates. These vectorizations are represented in phylogenetic trees and compared with phylogeny of alignment. We developed an algorithm based on UPGMA to perform phylogenetic trees and analyzed the mitochondrial proteome of Jakobids and Hominids. The strategy of attribute extraction and vector representation of the proteome proved to be efficient to evidence kinship relations, with the phylogenies vectored correlated with the phylogeny of alignment. Keywords: Mitochondrial Proteome, Phylogeny, Bioinformatics

    Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas

    Get PDF
    Orientador: Profº Drº Roberto Tadeu RaittzCoorientador: Profº Drº Luciano Fernandes HuergoDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa : Curitiba, 30/05/2019Inclui referências: p. 78-92Área de concentração: BioinformáticaResumo: O nitrogênio é um elemento essencial para a manutenção da vida na Terra. Apesar disso sua maior concentração está presente na atmosfera. Algumas proteobactérias possuem o sistema Ntr, que é responsável pelo processo de regulação do metabolismo do nitrogênio. Dentro do Ntr, encontra-se o sistema NtrBC, que regula a expressão de genes envolvidos com a utilização de fontes alternativas de nitrogênio. Nele encontramos a proteína NtrC, que atua como um ativador de transcrição se ligando a sítios específicos no DNA e ativando promotores dependentes do fator sigma 54 ([sigma]54), tipicamente relacionados à transcrição de genes ligados ao metabolismo de nitrogênio. Os métodos mais comuns para detectar regiões de ligação da proteína NtrC ao DNA consiste em análises experimentais em laboratório, o que pode ser um processo caro e demorado. Para auxiliar nessa tarefa propomos uma ferramenta preditora de regiões relacionadas ao sitio de ligação da proteína NtrC a partir de um arquivo de genoma completo. A ferramenta contém uma rede neuronal artificial que passou pelo processo de treinamento supervisionado. Referente aos dados para o treinamento, utilizamos conjuntos de regiões promotoras de NtrC já confirmadas anteriormente e disponibilizadas em bancos de dados abertos para compor o conjunto de dados verdadeiros. Para compor o conjunto de regiões falsas utilizamos regiões geradas aleatoriamente, regiões retiradas de organismos modelo, e regiões provenientes de outros fatores de transcrição. A fim de selecionar qual é o melhor processo de extração de características e o modelo de rede neuronal mais adequado para solucionar o problema utilizamos janelas móvel e bases ortonormais de tamanhos variados. Esses conjuntos previamente classificados foram agrupados e embaralhados e passaram pelos modelos de classificadores MLP, SVM, RBF, DT, KNN, NB, RF (sendo os 3 primeiros utilizados no software MATLAB e o restante utilizando a biblioteca sklearn em Python 3), e por um modelo baseado em FAN com o software EasyFan. Após efetuar testes com arquivos de genoma da base de dados do NCBI e comparar com dados disponíveis em bancos de dados voltados à fatores de transcrição, a rede foi disponibilizada em uma ferramenta web para que possa ser utilizada pelo público.Abstract: Nitrogen is an essential element for the maintenance of life on Earth. However its greater concentration is present in the atmosphere. Some proteobacteria have the Ntr system, which is responsible for the regulation process of nitrogen metabolism. Within the Ntr, is the NtrBC system, which regulates the expression of genes involved with the use of alternative sources of nitrogen. In it we find the NtrC protein, which acts as a transcriptional activator binding to specific sites in the DNA and activating promoters dependent on the sigma factor 54 ([sigma]54), typically related to the transcription of genes linked to nitrogen metabolism. The most common methods for detecting binding regions of NtrC protein to DNA are experimental laboratory analyzes, which can be an expensive and time-consuming process. To assist in this task, we propose a predictor tool for regions related to the NtrC protein binding site from whole-genome. The tool contains an artificial neural network that has gone through the supervised training process. About the training data, we used sets of NtrC promoter regions previously confirmed and available in open databases to compose the true data set. To compose the set of false regions we use randomly generated regions, regions taken from model organisms, and regions from other transcription factors. In order to select which is the best feature extraction process and the most appropriate neural network model to solve the problem we use different and sliding windows and orthonormal bases. These previously classified sets were grouped and shuffled and went through the classification models MLP, SVM, RBF, DT, KNN, NB, and RF using the sklearn package (Python 3) and software MATLAB, and a FAN based model with EasyFan software. After testing NCBI database genomes and comparing it with data available in transcription factor databases, the network is available in a web tool so it could be used by the publi
    corecore