23 research outputs found

    Genome analysis with inter-nucleotide distances

    Get PDF
    Motivation: DNA sequences can be represented by sequences of four symbols, but it is often useful to convert the symbols into real or complex numbers for further analysis. Several mapping schemes have been used in the past, but they seem unrelated to any intrinsic characteristic of DNA. The objective of this work was to find a mapping scheme directly related to DNA characteristics and that would be useful in discriminating between different species. Mathematical models to explore DNA correlation structures may contribute to a better knowledge of the DNA and to find a concise DNA description

    Characterization of DNA methylation as a function of biological complexity via dinucleotide inter-distances

    Full text link
    We perform a statistical study of the distances between successive occurrencies of a given dinucleotide in the DNA sequence for a number of organisms of different complexity. Our analysis highlights peculiar features of the dinucleotide CG distribution in mammalian DNA, pointing towards a connection with the role of such dinucleotide in DNA methylation. While the CG distributions of mammals exhibit exponential tails with comparable parameters, the picture for the other organisms studied (e.g., fish, insects, bacteria and viruses) is more heterogeneous, possibly because in these organisms DNA methylation has different functional roles. Our analysis suggests that the distribution of the distances between dinucleotides CG provides useful insights in characterizing and classifying organisms in terms of methylation functionalities.Comment: 13 pages, 5 figures. To be published in the Philosophical Transactions A theme issue "DNA as information

    An analysis of symmetric words in human DNA: adjacent vs non-adjacent word distances

    Get PDF
    It is important to develop methods for nding DNA sites with high potencial for the formation of hairpin/cruciform structures. In a previous work, we studied the distances between adjacent reversed complement words (symmetric words), and we observed that for some words some distances were favored. In the work presented here, we extended the study to the distance between non-adjacent reversed complement words and we observed strong periodicity in the distance distribution of some words. This may be an indication of potential for the formation of hairpin/cruciform structures.publishe

    Segmentation of DNA into coding and noncoding regions based on inter-STOP symbols distances

    Get PDF
    In this study we set to explore the potentialities of the inter-genomic symbols distance for finding the coding regions in DNA sequences. We use the distance between STOP symbols in the DNA sequence and a chi-square statistic to evaluate the nonhomogeneity of the three possible reading frames. The results of this exploratory study suggest that inter-STOP symbols distance has strong ability to discriminate coding regions.publishe

    Comparing reverse complementary genomic words based on their distance distributions and frequencies

    Get PDF
    In this work we study reverse complementary genomic word pairs in the human DNA, by comparing both the distance distribution and the frequency of a word to those of its reverse complement. Several measures of dissimilarity between distance distributions are considered, and it is found that the peak dissimilarity works best in this setting. We report the existence of reverse complementary word pairs with very dissimilar distance distributions, as well as word pairs with very similar distance distributions even when both distributions are irregular and contain strong peaks. The association between distribution dissimilarity and frequency discrepancy is explored also, and it is speculated that symmetric pairs combining low and high values of each measure may uncover features of interest. Taken together, our results suggest that some asymmetries in the human genome go far beyond Chargaff's rules. This study uses both the complete human genome and its repeat-masked version.Comment: Post-print of a paper accepted to publication in "Interdisciplinary Sciences: Computational Life Sciences" (ISSN: 1913-2751, ESSN: 1867-1462

    Nucleotide spacing distribution analysis for human genome

    Get PDF

    О мерах сходства расположения компонентов в массивах естественно упорядоченных данных

    Get PDF
    At present, adequate mathematical tools are not used to analyze the arrangement of components in arrays of naturally ordered data of a different nature, including words or letters in texts, notes in musical compositions, symbols in sign sequences, monitoring data, numbers representing ordered measurement results, components in genetic texts. Therefore, it is difficult or impossible to measure and compare the order of messages allocated in long information chains. The main approaches for comparing symbol sequences are using probabilistic models and statistical tools, pairwise and multiple alignment, which makes it possible to determine the degree of similarity of sequences using edit distance measures. The application of pseudospectral and fractal representation of symbolic sequences is somewhat exotic. "The curse of a priori unconscious knowledge" of the obvious orderliness of the sequence should be especially noticed, as it is widespread in mathematical linguistics, bioinformatics (mathematical biology), and other similar fields of science. The noted approaches almost do not pay attention to the study and detection of the patterns of the specific arrangement of all symbols, words, and components of data sets that constitute a separate sequence. The object of study in our works is a specifically organized numerical tuple – the arrangement of components (order) in symbolic or numerical sequence. The intervals between the closest identical components of the order are used as the basis for the quantitative representation of the chain arrangement. Multiplying all the intervals or summing their logarithms allows one to get numbers that uniquely reflect the arrangement of components in a particular sequence. These numbers, allow us to obtain a whole set of normalized characteristics of the order, among which the geometric mean interval and its logarithm. Such characteristics surprisingly accurately reflect the arrangement of the components in the symbolic sequences. In this paper, we present an approach for quantitative comparing the arrangement of arrays of naturally ordered data (information chains) of an arbitrary nature. The measures of similarity/distinction and procedure of comparison of the chain order, based on the selection of a list of equal and similar by the order characteristics of the subsequences (components), are proposed. Rank distributions are used for faster selection of a list of matching components. The paper presents a toolkit for comparing the order of information chains and demonstrates some of its applications for studying the structure of nucleotide sequences.В настоящее время не используются адекватные математические средства для анализа расположения компонентов в массивах естественно упорядоченных данных различной природы, в том числе – слов или букв в текстах, нотных знаков в записях музыкальных произведений, символов в знаковых последовательностях, данных мониторинга, чисел, отображающих упорядоченные результаты измерений, компонентов в генетических текстах. Поэтому затруднены или невозможны измерение и сравнение порядка следования сообщений, выделенных в длинных информационных цепях. Основные подходы при сравнении символьных последовательностей используют вероятностные модели и статистический инструментарий, попарное и множественное выравнивание, позволяющее определить степень сходства цепей с помощью мер редакционного расстояния. В некотором роде экзотическим являются использование псевдоспектрального и фрактального представления символьных последовательностей. Следует особо отметить «проклятие априорного неосознаваемого знания» об очевидной упорядоченности цепи, которое широко распространено в математической лингвистике, биоинформатике (математической биологии) и других аналогичных областях науки. Отмеченные подходы почти не уделяют внимания исследованию и обнаружению закономерностей конкретного расположения всех знаков, слов, компонентов массивов данных, составляющих отдельную целостную последовательность. Объектом исследования в наших работах является специальным образом организованный числовой кортеж – расположение компонентов (строй) в символьных или числовых последовательностях. При этом в качестве основы для количественного отображения строя цепи используются интервалы между ближайшими одинаковыми её компонентами. Перемножение всех интервалов или суммирование их логарифмов позволяет получить числа, которые однозначно отображают расположение компонентов в конкретной последовательности. Эти числа, в свою очередь, позволяют получить целый набор нормированных характеристик строя, среди которых средний геометрический интервал и его логарифм. Такие характеристики на удивление точно отражают расположение компонентов в знаковых последовательностях. В данной работе представлен подход для количественного сравнения построений массивов естественно упорядоченных данных (информационных цепей) произвольной природы. Предложены меры сходства-расхождения и процедура сравнения строя цепей, основанные на выделении списка совпадающих и сходных по характеристикам строя подпоследовательностей (компонентов). При этом для быстрого выделения списка совпадающих компонентов используются ранговые распределения. В работе представлен инструментарий для сравнения построений информационных цепей и продемонстрированы некоторые его возможности при исследовании строя нуклеотидных последовательностей

    О мерах сходства расположения компонентов в массивах естественно упорядоченных данных

    Get PDF
    В настоящее время не используются адекватные математические средства для анализа расположения компонентов в массивах естественно упорядоченных данных различной природы, в том числе – слов или букв в текстах, нотных знаков в записях музыкальных произведений, символов в знаковых последовательностях, данных мониторинга, чисел, отображающих упорядоченные результаты измерений, компонентов в генетических текстах. Поэтому затруднены или невозможны измерение и сравнение порядка следования сообщений, выделенных в длинных информационных цепях. Основные подходы при сравнении символьных последовательностей используют вероятностные модели и статистический инструментарий, попарное и множественное выравнивание, позволяющее определить степень сходства цепей с помощью мер редакционного расстояния. В некотором роде экзотическим являются использование псевдоспектрального и фрактального представления символьных последовательностей. Следует особо отметить «проклятие априорного неосознаваемого знания» об очевидной упорядоченности цепи, которое широко распространено в математической лингвистике, биоинформатике (математической биологии) и других аналогичных областях науки. Отмеченные подходы почти не уделяют внимания исследованию и обнаружению закономерностей конкретного расположения всех знаков, слов, компонентов массивов данных, составляющих отдельную целостную последовательность. Объектом исследования в наших работах является специальным образом организованный числовой кортеж – расположение компонентов (строй) в символьных или числовых последовательностях. При этом в качестве основы для количественного отображения строя цепи используются интервалы между ближайшими одинаковыми её компонентами. Перемножение всех интервалов или суммирование их логарифмов позволяет получить числа, которые однозначно отображают расположение компонентов в конкретной последовательности. Эти числа, в свою очередь, позволяют получить целый набор нормированных характеристик строя, среди которых средний геометрический интервал и его логарифм. Такие характеристики на удивление точно отражают расположение компонентов в знаковых последовательностях. В данной работе представлен подход для количественного сравнения построений массивов естественно упорядоченных данных (информационных цепей) произвольной природы. Предложены меры сходства-расхождения и процедура сравнения строя цепей, основанные на выделении списка совпадающих и сходных по характеристикам строя подпоследовательностей (компонентов). При этом для быстрого выделения списка совпадающих компонентов используются ранговые распределения. В работе представлен инструментарий для сравнения построений информационных цепей и продемонстрированы некоторые его возможности при исследовании строя нуклеотидных последовательностей

    Leis que governam a estrutura primária do ADN dos seres vivos

    Get PDF
    Sem resumo disponível.publishe
    corecore