Classificação probabilística baseada em análise de padrões

Merschmann, Luiz Henrique de Campos

Classificação probabilística baseada em análise de padrões

Authors: Luiz Henrique de Campos Merschmann
Publication date: 28 August 2007
Publisher: 'Sociedade Brasileira de Computacao - SB'

Abstract

Classification is a data mining tast that has been useful in several application areas, particularly, in bioinformatics. The genomic revolution has resulted in an explosive growth of biological data generated by the scientific community. With the aim of storing all of these biological information, biological databases were created. The need for computational tools for analysing biological data becomes evident, resulting in the application of data mining methods in this field. The work developed in this thesis is related to classification task and, initially, to its application to bioinformatics. The initial goal is to present a computationally efficient method for protein classification capable of yielding highly accurate results, outperforming the results obtained by previous works. The good results in terms of accuracy and time performance obtained by the proposed method show its potential for the protein classification problem. In addition, aiming to construct a suitable classifier for several kinds of applications, the method proposed for the protein classification problem was extended, becoming appropriate and efficient for several databases associated with different applications.Classificação é uma das tarefas de Mineração de Dados que tem se mostrado útil em diversas áreas de aplicação, em particular, na área de Bioinformática. A revolução genômica resultou em um crescimento exponencial da quantidade de dados biológicos gerados pela comunidade científica. Com a finalidade de armazenar toda essa informação biológica gerada, foram criados os bancos de dados biológicos. A necessidade por ferramentas computacionais capazes de realizar análises nesses dados tornou-se cada vez mais evidente, fazendo com que técnicas de mineração de dados começassem a ser empregadas. O trabalho desta tese concentra-se na tarefa de classificação e, inicialmente, na sua aplicação em bioinformática. O objetivo inicial é apresentar um método de classificação de proteínas computacionalmente eficiente e capaz de alcançar altas taxas de acurácia, superando resultados apresentados anteriormente na literatura. Os bons resultados, em termos de acurácia preditiva e tempo computacional, obtidos a partir do método proposto nesta tese, demonstram o seu potencial para o problema de classificação de proteínas. Além disso, visando a construção de um classificador adequado para diversos tipos de aplicação, o método proposto inicialmente para o problema de classificação de proteínas foi estendido e mostrou-se eficiente também quando utilizado com diferentes tipos de bases de dados pertencentes a aplicações distintas

Similar works

Full text

Available Versions

RIUFF - Repositório Institucional da Universidade Federal Fluminense

oai:app.uff.br:1/17300

Last time updated on 23/09/2023