Investigando o desempenho de métodos de Aprendizado de Máquina para predição de RNAs não-codificadores utilizando construção in silico de dados artificiais
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.Métodos de aprendizado de máquina (AM) são frequentemente usados para predizer difer entes classes de RNAs não-codificadores (ncRNAs), como microRNAs ou snoRNAs. Nos métodos de AM que usam o paradigma de aprendizagem supervisionada, atributos ou características (em inglês, features) são extraídas dos dados de entrada e usados em um
classificador, nas diferentes etapas desses métodos. No entanto, os métodos de AM não foram usados com tanto sucesso quanto se esperava para busca de homologia em ncR NAs. Neste contexto, é relevante medir o desempenho de métodos de AM para verificar
seu poder de predição, tanto de sequências evolutivamente próximas quanto daquelas mais
distantes. Uma avaliação sistemática de métodos de AM para predição de homologia re quer conjuntos de testes, grandes, controlados e conhecidos. Assim, devem ser criadas formas para construir grandes conjuntos de dados artificiais de forma que se aproxime o máximo possível dos ncRNAs reais. Nesta dissertação, inicialmente, descrevemos uma forma de gerar conjuntos arbitrariamente grandes e diversos de sequências de ncRNAs,
com base em uma evolução artificial, das duas classes principais de snoRNAs, C/D box e
H/ACA box snoRNAs. Em seguida, esses dados artificiais são usados para avaliar o poder
de predição de snoRNAs, em um genoma de cordados, de três métodos supervisionados
de AM - Máquina de Vetores de Suporte (em inglês, Support Vector Machine - SVM), Re des Neurais Artificiais (em inglês, Artificial Neural Networks - ANN) e Floresta Aleatória (em inglês, Random Forest - RF). Nossos resultados indicam que as abordagens de AM podem de fato ser competitivas para a busca de homologia em ncRNAs, dependendo do conhecimento de features biológicas, extraídas dos dados, que são a entrada desses méto dos de AM. Para a mutação de substituição, os classificadores SVM e ANN obtiveram excelentes desempenhos para conjuntos de dados com mutações de bases de 10%, 20%, 30% e 40% de diferença relativamente aos snoRNAs originais. No entanto, para conjuntos de dados com mutações de 50%, os classificadores não alcançaram um desempenho tão
bom. Para H/ACA box, o desempenho dos classificadores de AM foram equivalentes, tanto utilizando um número maior de features biológicas conhecidas quanto um número reduzido delas. Para a mutação de inserção, quanto maior a porcentagem de mutação, menor o desempenho dos três classificadores - SVM, ANN e RF. Para os dois tipos de
snoRNAs, os tamanhos das sequências mostraram ser características importantes para a predição correta. Além disso, os métodos de AM apresentaram resultados de predição melhores, quando comparados a métodos que usam diretamente as sequências primárias de ncRNAs, como BLAST.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).Machine learning (ML) methods are often used to predict different classes of non-coding
RNAs (ncRNAs), such as microRNAs or snoRNAs. In ML methods that use the super vised learning paradigm, attributes or features are extracted from the input data and used
in a classifier, in the different steps of these methods. However, ML methods have not
been used as successfully as expected to search for homology in ncRNAs. In this context,
it is relevant to measure the performance of ML methods in order to verify their predictive
power, both for evolutionary close sequences and those that are more distant. A system atic evaluation of ML methods for homology prediction requires large, controlled and
known sets of tests. Thus, large sets of artificial data have to be created such that their
stored sequences are as close as possible to real ncRNAs. In this dissertation, initially, we
describe a way to generate arbitrarily large and diverse sets of ncRNA sequences, based
on an artificial evolution, of the two main classes of snoRNAs, C/D box and H/ACA box.
Then, these artificial data are used to evaluate the predictive power of snoRNAs, in a
chordate genome, of three supervised methods of ML - Support Vector Machine (SVM),
Artificial Neural Networks (ANN) and Random Forest (RF). Our results indicate that ML
approaches can in fact be competitive to predict homology for ncRNAs, depending on the
knowledge of biological features, extracted from the data, which are the input of these ML
methods. For the substitution mutation, the SVM and ANN classifiers achieved excellent
performances for data sets with base mutations of 10%, 20%, 30% and 40% distant from
the original snoRNAs. However, for data sets with mutations of 50%, the classifiers did
not perform so well. For H/ACA box, the performance of the ML classifiers were equiv alent, using a larger number of known biological features as well as a reduced number of
them. For the insertion mutation, the higher the percentage of mutation, the lower the
performance of the three classifiers - SVM, ANN and RF. For both types of snoRNAs, the
size of the sequences proved to be an important characteristic for correct prediction. In
addition, ML methods showed much better prediction results, when compared to methods
that directly use primary ncRNA sequences, such as BLAST