13 research outputs found

    Finding approximate palindromes in strings

    Full text link
    We introduce a novel definition of approximate palindromes in strings, and provide an algorithm to find all maximal approximate palindromes in a string with up to kk errors. Our definition is based on the usual edit operations of approximate pattern matching, and the algorithm we give, for a string of size nn on a fixed alphabet, runs in O(k2n)O(k^2 n) time. We also discuss two implementation-related improvements to the algorithm, and demonstrate their efficacy in practice by means of both experiments and an average-case analysis

    Palindromic Decompositions with Gaps and Errors

    Full text link
    Identifying palindromes in sequences has been an interesting line of research in combinatorics on words and also in computational biology, after the discovery of the relation of palindromes in the DNA sequence with the HIV virus. Efficient algorithms for the factorization of sequences into palindromes and maximal palindromes have been devised in recent years. We extend these studies by allowing gaps in decompositions and errors in palindromes, and also imposing a lower bound to the length of acceptable palindromes. We first present an algorithm for obtaining a palindromic decomposition of a string of length n with the minimal total gap length in time O(n log n * g) and space O(n g), where g is the number of allowed gaps in the decomposition. We then consider a decomposition of the string in maximal \delta-palindromes (i.e. palindromes with \delta errors under the edit or Hamming distance) and g allowed gaps. We present an algorithm to obtain such a decomposition with the minimal total gap length in time O(n (g + \delta)) and space O(n g).Comment: accepted to CSR 201

    Finding Approximate Palindromes in DNA Sequences

    Get PDF
    Práca sa zaoberá problematikou vyhľadávania presných a približných palindrómov. V súvislosti s vyhľadávaním presných palindrómov analyzuje naivný postup vyhľadávania ako aj postupy založené na sufixových stromoch, ktorých konštrukcia je tiež rozobraná.  Vyhľadávanie približných palindrómov je realizované za pomoci princípov dynamického programovania. Samotné vyhľadávanie je rozdelené na tri časti: vyhľadanie palindrómov, filtrácia výsledkov a ich rekonštrukcia. Každá časť je popísaná algoritmom a implementovaná programom v prílohe práce.This work discusses problematics of exact and approximate palindrome searching. In relation with exact palindrome searching, native algorithm and algorithm using suffix trees, which construction is also analyzed, is presented. Approximate palindrome search is implemented with application of dynamic programming principles. The search itself is dividded into three parts: palidnrome search, result filter and reconstruction of palindromes. Each part is described by an algorithm and implemented in a program, contained in attachment.

    Gene Detection in DNA Sequences

    Get PDF
    Práce se zaobírá návrhem metody na predikci prokaryotických genů, která pak bude odzkoušená a prezentována na genome Escherichie coli. Jednotlivé kapitoly postupně pojednávají o problematice spojené s tímto návrhem, stručným úvodem do molekulární biologie začínajíc, představením použí-vaných metod detekce respektive predikce genů pokračujíc, až samotným návrhem metody založené především na pozičně specifických maticích končíc.The main goal of this work is to create a method for gene prediction in prokaryotic genomes, which will be later demonstrated and tested on Escherichia coli. The first chapter contains a short introduc-tion into molecular biology. In the second one, we take a closer look on current methods of gene de-tection and prediction and the work ends with an application of acquired knowledge on gene predic-tion mostly using position weight matrices.

    Acceleration of Methods for Searching Palindroms and Repetitive Structures

    Get PDF
    Veškerá genetická informace živých organismů je uložena v DNA. Zkoumání její struktury a funkce představuje důležitou oblast výzkumu moderní biologie. Jednou ze zajímavých struktur, vyskytujících se v sekvencích DNA, jsou také palindromy. Na základě jejich výzkumu se předpokládá, že hrají důležitou roli při interpretaci informace uložené v DNA, jelikož se často vyskytují v okolí důležitých genů. Jejich hledání je složitější díky výskytu mutací (změn v posloupnosti prvků DNA), což zvyšuje časovou složitost algoritmů. Proto má smysl zabývat se jejich paralelizací a akcelerací. Rozborem metod pro hledání palindromů a návrhem akcelerační architektury se zabývá tato práce. Výpočet pomocí hardwarové jednotky implementované v čipu FPGA na kartě ml555 může být až 6 667krát rychlejší oproti nejlepšímu známému softwarovému řešení využívajícímu sufixová pole.Genetic information of all living organisms is stored in DNA. Exploring of its structure and function represents an important area of research in modern biology. One of the interesting structures occurring in DNA are palindromes. Based on the research they are expected to play an important role in interpreting the information stored in DNA, because they are often observed near important genes. Palindromes searching is complicated by the presence of mutations (changes in sequences of DNA elements), which increases the time complexity of algorithms. Therefore it is reasonable to study their parallelization and acceleration. The objective of this work is a study of palindromes searching methods and acceleration architecture design. The hardware unit implemented in a chip with FPGA technology placed on ml555 board can speed up the calculation up to 6 667 times in comparison with the best-known software method relying on suffix arrays.

    Approximate Palindrome Detection in DNA Sequences

    Get PDF
    Tato práce se zabývá návrhem a implementací nástroje pro vyhledávání přibližných palindromů v sekvencích DNA. Zaměřuje se na popis DNA struktury, významu palindromů v DNA sekvencích a na popis metod pro vyhledávání přibližných palindromů. Hlavní část práce je zaměřena na návrh a popis implementace nástroje pro vyhledávání přibližných palindromů.This work deals with conception and implemetation of tools for finding approximate palindromes in DNA sequences. The work focuses on the description of DNA structure, and on the function of palindromes in DNA sequences, and on the description of methods for finding approximate palindromes. Main part of thesis is focused on conclusion and description of implementation approximate palidromes finding tool.

    Infinitude of palindromic almost-prime numbers

    Full text link
    It is proven that, in any given base, there are infinitely many palindromic numbers having at most six prime divisors, each relatively large. The work involves equidistribution estimates for the palindromes in residue classes to large moduli, offering upper bounds for moments and averages of certain products closely related to exponential sums over palindrome
    corecore