Classification is a data mining tast that has been useful in several application areas, particularly, in bioinformatics.
The genomic revolution has resulted in an explosive growth of biological data generated
by the scientific community. With the aim of storing all of these biological information,
biological databases were created. The need for computational tools for analysing biological
data becomes evident, resulting in the application of data mining methods in this
field.
The work developed in this thesis is related to classification task and, initially, to its
application to bioinformatics. The initial goal is to present a computationally efficient
method for protein classification capable of yielding highly accurate results, outperforming
the results obtained by previous works.
The good results in terms of accuracy and time performance obtained by the proposed
method show its potential for the protein classification problem.
In addition, aiming to construct a suitable classifier for several kinds of applications,
the method proposed for the protein classification problem was extended, becoming
appropriate and efficient for several databases associated with different applications.Classificação é uma das tarefas de Mineração de Dados que tem se mostrado útil em
diversas áreas de aplicação, em particular, na área de Bioinformática.
A revolução genômica resultou em um crescimento exponencial da quantidade de dados
biológicos gerados pela comunidade científica. Com a finalidade de armazenar toda
essa informação biológica gerada, foram criados os bancos de dados biológicos. A necessidade
por ferramentas computacionais capazes de realizar análises nesses dados tornou-se
cada vez mais evidente, fazendo com que técnicas de mineração de dados começassem a
ser empregadas.
O trabalho desta tese concentra-se na tarefa de classificação e, inicialmente, na sua
aplicação em bioinformática. O objetivo inicial é apresentar um método de classificação
de proteínas computacionalmente eficiente e capaz de alcançar altas taxas de acurácia,
superando resultados apresentados anteriormente na literatura.
Os bons resultados, em termos de acurácia preditiva e tempo computacional, obtidos
a partir do método proposto nesta tese, demonstram o seu potencial para o problema de
classificação de proteínas.
Além disso, visando a construção de um classificador adequado para diversos tipos de
aplicação, o método proposto inicialmente para o problema de classificação de proteínas
foi estendido e mostrou-se eficiente também quando utilizado com diferentes tipos de bases
de dados pertencentes a aplicações distintas