5 research outputs found
Prediction of Metabolic Pathways Involvement in Prokaryotic UniProtKB Data by Association Rule Mining
The widening gap between known proteins and their functions has encouraged
the development of methods to automatically infer annotations. Automatic
functional annotation of proteins is expected to meet the conflicting
requirements of maximizing annotation coverage, while minimizing erroneous
functional assignments. This trade-off imposes a great challenge in designing
intelligent systems to tackle the problem of automatic protein annotation. In
this work, we present a system that utilizes rule mining techniques to predict
metabolic pathways in prokaryotes. The resulting knowledge represents
predictive models that assign pathway involvement to UniProtKB entries. We
carried out an evaluation study of our system performance using
cross-validation technique. We found that it achieved very promising results in
pathway identification with an F1-measure of 0.982 and an AUC of 0.987. Our
prediction models were then successfully applied to 6.2 million
UniProtKB/TrEMBL reference proteome entries of prokaryotes. As a result,
663,724 entries were covered, where 436,510 of them lacked any previous pathway
annotations
O uso da Divergência de Kullback-Leibler e da Divergência Generalizada como medida de similaridade em sistemas CBIR
The content-based image retrieval is important for various purposes like disease diagnoses
from computerized tomography, for example. The relevance, social and economic
of image retrieval systems has created the necessity of its improvement. Within this context,
the content-based image retrieval systems are composed of two stages, the feature
extraction and similarity measurement. The stage of similarity is still a challenge due to
the wide variety of similarity measurement functions, which can be combined with the
different techniques present in the recovery process and return results that aren’t always
the most satisfactory. The most common functions used to measure the similarity are
the Euclidean and Cosine, but some researchers have noted some limitations in these
functions conventional proximity, in the step of search by similarity. For that reason, the
Bregman divergences (Kullback Leibler and I-Generalized) have attracted the attention of
researchers, due to its flexibility in the similarity analysis. Thus, the aim of this research
was to conduct a comparative study over the use of Bregman divergences in relation the
Euclidean and Cosine functions, in the step similarity of content-based image retrieval,
checking the advantages and disadvantages of each function. For this, it was created a
content-based image retrieval system in two stages: offline and online, using approaches
BSM, FISM, BoVW and BoVW-SPM. With this system was created three groups of
experiments using databases: Caltech101, Oxford and UK-bench. The performance of
content-based image retrieval system using the different functions of similarity was tested
through of evaluation measures: Mean Average Precision, normalized Discounted Cumulative
Gain, precision at k, precision x recall. Finally, this study shows that the use of
Bregman divergences (Kullback Leibler and Generalized) obtains better results than the
Euclidean and Cosine measures with significant gains for content-based image retrieval.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorDissertação (Mestrado)A recuperação de imagem baseada em conteúdo é importante para diversos fins, como
diagnósticos de doenças a partir de tomografias computadorizadas, por exemplo. A relevância
social e econômica de sistemas de recuperação de imagens criou a necessidade
do seu aprimoramento. Dentro deste contexto, os sistemas de recuperação de imagens
baseadas em conteúdo são compostos de duas etapas: extração de característica e medida
de similaridade. A etapa de similaridade ainda é um desafio, devido à grande variedade
de funções de medida de similaridade, que podem ser combinadas com as diferentes técnicas
presentes no processo de recuperação e retornar resultados que nem sempre são os
mais satisfatórios. As funções geralmente mais usadas para medir a similaridade são as
Euclidiana e Cosseno, mas alguns pesquisadores têm notado algumas limitações nestas
funções de proximidade convencionais, na etapa de busca por similaridade. Por esse motivo,
as divergências de Bregman (Kullback Leibler e Generalizada) têm atraído a atenção
dos pesquisadores, devido à sua flexibilidade em análise de similaridade. Desta forma, o
objetivo desta pesquisa foi realizar um estudo comparativo sobre a utilização das divergências
de Bregman em relação às funções Euclidiana e Cosseno, na etapa de similaridade
da recuperação de imagens baseadas em conteúdo, averiguando as vantagens e desvantagens
de cada função. Para isso, criou-se um sistema de recuperação de imagens baseado
em conteúdo em duas etapas: off-line e on-line, utilizando as abordagens BSM, FISM,
BoVW e BoVW-SPM. Com esse sistema, foram realizados três grupos de experimentos
utilizando os bancos de dados: Caltech101, Oxford e UK-bench. O desempenho do sistema
de recuperação de imagem baseada em conteúdo utilizando as diferentes funções de
similaridade foram testadas por meio das medidas de avaliação: Mean Average Precision,
normalized Discounted Cumulative Gain, precisão em k, e precisão x revocação. Por fim,
o presente estudo aponta que o uso das divergências de Bregman (Kullback Leibler e Generalizada)
obtiveram melhores resultados do que as medidas Euclidiana e Cosseno, com
ganhos relevantes para recuperação de imagem baseada em conteúdo