1,065 research outputs found
Detection and characterization of local inverted repeats regularities
To explore the inverted repeats regularities along the genome sequences, we propose a sliding window method to extract the concentration scores of inverted repeats periodic regularities and the total mass of possible inverted repeats pairs. We apply the method to the human genome and locate the regions with the potential for the formation of large number of hairpin/cruciform structures. The number of found windows with periodic regularities is small and the patterns of occurrence are chromosome specific.publishe
Application of machine learning techniques on the discovery and annotation of transposons in genomes
Tese de mestrado integrado. Engenharia Informática e computação. Faculdade de Engenharia. Universidade do Porto. 201
Compressão e análise de dados genómicos
Doutoramento em InformáticaGenomic sequences are large codi ed messages describing most of the structure
of all known living organisms. Since the presentation of the rst genomic
sequence, a huge amount of genomics data have been generated,
with diversi ed characteristics, rendering the data deluge phenomenon a
serious problem in most genomics centers. As such, most of the data are
discarded (when possible), while other are compressed using general purpose
algorithms, often attaining modest data reduction results.
Several speci c algorithms have been proposed for the compression of genomic
data, but unfortunately only a few of them have been made available
as usable and reliable compression tools. From those, most have been developed
to some speci c purpose. In this thesis, we propose a compressor
for genomic sequences of multiple natures, able to function in a reference
or reference-free mode. Besides, it is very
exible and can cope with diverse
hardware speci cations. It uses a mixture of nite-context models (FCMs)
and eXtended FCMs. The results show improvements over state-of-the-art
compressors.
Since the compressor can be seen as a unsupervised alignment-free method
to estimate algorithmic complexity of genomic sequences, it is the ideal
candidate to perform analysis of and between sequences. Accordingly, we
de ne a way to approximate directly the Normalized Information Distance,
aiming to identify evolutionary similarities in intra- and inter-species. Moreover,
we introduce a new concept, the Normalized Relative Compression,
that is able to quantify and infer new characteristics of the data, previously
undetected by other methods. We also investigate local measures, being
able to locate speci c events, using complexity pro les. Furthermore, we
present and explore a method based on complexity pro les to detect and
visualize genomic rearrangements between sequences, identifying several insights
of the genomic evolution of humans.
Finally, we introduce the concept of relative uniqueness and apply it to the
Ebolavirus, identifying three regions that appear in all the virus sequences
outbreak but nowhere in the human genome. In fact, we show that these
sequences are su cient to classify di erent sub-species. Also, we identify
regions in human chromosomes that are absent from close primates DNA,
specifying novel traits in human uniqueness.As sequências genómicas podem ser vistas como grandes mensagens codificadas, descrevendo a maior parte da estrutura de todos os organismos
vivos. Desde a apresentação da primeira sequência, um enorme número de
dados genómicos tem sido gerado, com diversas caracterÃsticas, originando
um sério problema de excesso de dados nos principais centros de genómica.
Por esta razão, a maioria dos dados é descartada (quando possÃvel), enquanto
outros são comprimidos usando algoritmos genéricos, quase sempre
obtendo resultados de compressão modestos.
Têm também sido propostos alguns algoritmos de compressão para
sequências genómicas, mas infelizmente apenas alguns estão disponÃveis
como ferramentas eficientes e prontas para utilização. Destes, a maioria
tem sido utilizada para propósitos especÃficos. Nesta tese, propomos
um compressor para sequências genómicas de natureza múltipla, capaz de
funcionar em modo referencial ou sem referência. Além disso, é bastante
flexÃvel e pode lidar com diversas especificações de hardware. O compressor
usa uma mistura de modelos de contexto-finito (FCMs) e FCMs estendidos.
Os resultados mostram melhorias relativamente a compressores estado-dearte.
Uma vez que o compressor pode ser visto como um método não supervisionado,
que não utiliza alinhamentos para estimar a complexidade
algortÃmica das sequências genómicas, ele é o candidato ideal para realizar
análise de e entre sequências. Em conformidade, definimos uma maneira
de aproximar directamente a distância de informação normalizada (NID),
visando a identificação evolucionária de similaridades em intra e interespécies. Além disso, introduzimos um novo conceito, a compressão relativa
normalizada (NRC), que é capaz de quantificar e inferir novas caracterÃsticas
nos dados, anteriormente indetectados por outros métodos. Investigamos
também medidas locais, localizando eventos especÃficos, usando perfis de
complexidade. Propomos e exploramos um novo método baseado em perfis de complexidade para detectar e visualizar rearranjos genómicos entre
sequências, identificando algumas caracterÃsticas da evolução genómica humana.
Por último, introduzimos um novo conceito de singularidade relativa e
aplicamo-lo ao Ebolavirus, identificando três regiões presentes em todas
as sequências do surto viral, mas ausentes do genoma humano. De facto,
mostramos que as três sequências são suficientes para classificar diferentes
sub-espécies. Também identificamos regiões nos cromossomas humanos que
estão ausentes do ADN de primatas próximos, especificando novas caracterÃsticas da singularidade humana
Change blindness: eradication of gestalt strategies
Arrays of eight, texture-defined rectangles were used as stimuli in a one-shot change blindness (CB) task where there was a 50% chance that one rectangle would change orientation between two successive presentations separated by an interval. CB was eliminated by cueing the target rectangle in the first stimulus, reduced by cueing in the interval and unaffected by cueing in the second presentation. This supports the idea that a representation was formed that persisted through the interval before being 'overwritten' by the second presentation (Landman et al, 2003 Vision Research 43149–164]. Another possibility is that participants used some kind of grouping or Gestalt strategy. To test this we changed the spatial position of the rectangles in the second presentation by shifting them along imaginary spokes (by ±1 degree) emanating from the central fixation point. There was no significant difference seen in performance between this and the standard task [F(1,4)=2.565, p=0.185]. This may suggest two things: (i) Gestalt grouping is not used as a strategy in these tasks, and (ii) it gives further weight to the argument that objects may be stored and retrieved from a pre-attentional store during this task
Análise de distribuições de distâncias entre palavras genómicas
The investigation of DNA has been one of the most developed areas of
research in this and in the last century. However, there is a long way to go
to fully understand the DNA code. With the increasing of DNA sequenced
data, mathematical methods play an important role in addressing the need
for e cient quantitative techniques for the detection of regions of interest
and overall characteristics in these sequences.
A feature of interest in the study of genomic words is their spatial distribution
along a DNA sequence, which can be characterized by the distances between
words. Counting such distances provides discrete distributions that may
be analyzed from a statistical point of view. In this work we explore the
distances between genomic words as a mathematical descriptor of DNA
sequences. The main goal is to design, develop and apply statistical methods
specially designed for their distributions, in order to capture information
about the primary and secondary structure of DNA.
The characterization of empirical inter-word distance distributions involves
the problem of the exponential increasing of the number of distributions
as the word length increases, leading to the need of data reduction.
Moreover, if the data can be validly clustered, the class labels may provide
a meaningful description of similarities and di erences between sets of
distributions. Therefore, we explore the inter-word distance distributions
potential to obtain a word clustering, able to highlight similar patterns
of word distributions as well as summarized characteristics of each set of
distributions.
With the aim of performing comparative studies between genomic sequences
and de ning species signatures, we deduce exact distributions of inter-word
distances under random scenarios. Based on these theoretical distributions,
we de ne genomic signatures of species able to discriminate between species
and to capture their evolutionary relation. We presume that the study of
distributions similarities and the clustering procedure allow identifying words
whose distance distribution strongly di ers from a reference distribution or
from the global behaviour of the majority of the words. One of the key topics
of our research focuses on the establishment of procedures that capture
distance distributions with atypical behaviours, herein referred to as atypical
distributions.
In the genomic context, words with an atypical distance distribution may
be related with some biological function (motifs). We expect that our
results may be used to provide some sort of classi cation of sequences,
identifying evolutionary patterns and allowing for the prediction of functional
properties, thereby contributing to the advancement of knowledge about
DNA sequences.A investigação do ADN é uma das áreas mais desenvolvidas neste e no
último século. O crescente aumento do número de genomas sequenciados
tem exigido técnicas quantitativas mais e cientes para a identi cação de
caracterÃsticas gerais e especà cas das sequências genómicas, os métodos
matemáticos desempenham um papel importante na resposta a essa
necessidade.
Uma caracterÃstica com particular interesse no estudo de palavras genómicas
é a sua distribuição espacial ao longo de sequências de ADN, podendo
esta ser caracterizada pelas distâncias entre palavras. A contagem dessas
distâncias fornece distribuições discretas passÃveis de análise estatÃstica.
Neste trabalho, exploramos as distâncias entre palavras como um descritor
matemático das sequências de ADN, tendo como objetivo delinear e
desenvolver procedimentos estatÃsticos especialmente concebidos para o
estudo das suas distribuições.
A caracterização das distribuições de distâncias empÃricas entre palavras
genómicas envolve o problema do crescimento exponencial do número
de distribuições com o aumento do comprimento da palavra, gerando a
necessidade de redução dos dados. Além disso, se os dados puderem
ser validamente agrupados em classes então os representantes de classe
fornecem informação relevante sobre semelhanças e diferenças entre cada
grupo de distribuições. Assim, exploramos o potencial das distribuições de
distâncias na obtenção de um agrupamento de palavras, que agrupe padrões
de distâncias semelhantes e que coloque em evidência as caracterÃsticas de
cada grupo. Com vista ao estudo comparativo de sequências genómicas e
à de nição de assinaturas de espécies, focamo-nos no desenvolvimento de
modelos teóricos que descrevam distribuições de distâncias entre palavras em
cenários aleatórios. Esses modelos são utilizados na de nição de assinaturas
genómicas, capazes de discriminar entre espécies e de recuperar relações
evolutivas entre estas. Presumimos que o estudo de semelhanças e a
análise de agrupamento das distribuições permite identi car palavras cuja
distribuição se afasta fortemente de uma distribuição de referência ou do
comportamento global das maioria das palavras. Um dos principais tópicos
de investigação foca-se na deteção de distribuições com comportamentos
anormais, aqui referidas como distribuições atÃpicas.
No contexto genómico, palavras com distribuições de distâncias atÃpicas
poderão estar relacionadas com alguma função biológica (motivos).
Esperamos que os resultados obtidos possam ser utilizados para fornecer
algum tipo de classi cação de sequências, identi cando padrões evolutivos e
permitindo a previsão das propriedades funcionais, representando assim um
passo adicional na criação de conhecimento sobre sequências de ADN.Programa Doutoral em Matemátic
Recommended from our members
Characterization of a protein of the rodent malarial parasite Plasmodium chabaudi containing a novel leucine-histidine zipper
Clones from cDNA and genomic DNA libraries of Plasmodium chabaudi 96V covering the entire open reading frame for a yet uncharacterized malarial protein were isolated Counting the first ATG as start codon the intronless gene codes for a 229 kDa protein. In the centre of the protein a 364 amino add repeat region is located and is based on 32 11-mer repeats divided by two 6-mer repeats into three blocks.Modelling of the repeat region led us to propose a model where each of the three units forms an a-helical coiled-coil triple-helix containing a novel leucine-histidine zipper. Each unit resembles in structure the units present in spectrin molecules. The repeat region is flanked by predicted heptad based a-helical coiled-coil regions and the 229 kDa protein has an overall character of a cytoskeletal protein.Antisera raised against recombinant polypeptides from two different regions of the 229 kDa protein reacted in western-blotting experiments with a Mr 240 000/ 225 000 doublet present in protein extracts from P. chabaudi 96V. The same sera in immunofluorescence suggested a localization of the 229 kDa protein in the organelles of the apical complex, presumably in the rhoptry organelles, and an assodation of the 229 kDa protein with the erythrocyte membrane. Furthermore it was shown in westernblotting experiments with the recombinant polypqjtides that the 229 kDa protein is a natural immunogen during infection.We named the 229 kDa protein Rq>eated Organellar Protein (ROPE) and suggest that ROPE may be involved in the process of invasion, that it interacts with the erythrocyte cytoskeleton and that the leucine-histidine zipper may be involved in molecular mimicry of spectrin
- …