Dissertation presented as the partial requirement for obtaining a Master’s degree in Data Science and Advanced AnalyticsAs the world’s technology evolves, the power to implement new and more efficient
algorithms increases but so does the complexity of the problems at hand. Neuroevolution
algorithms fit in this context in the sense that they are able to evolve Artificial
Neural Networks (ANNs).
The recently proposed Neuroevolution algorithm called Semantic Learning Machine
(SLM) has the advantage of searching over unimodal error landscapes in any Supervised
Learning task where the error is measured as a distance to the known targets.
The absence of local optima in the search space results in a more efficient learning
when compared to other neuroevolution algorithms. This work studies how different
approaches of dynamically using the training data affect the generalization of the
SLM algorithm. Results show that these methods can be useful in offering different
alternatives to achieve a superior generalization. These approaches are evaluated experimentally
in fifteen real-world binary classification data sets. Across these fifteen
data sets, results show that the SLM is able to outperform the Multilayer Perceptron
(MLP) in 13 out of the 15 considered problems with statistical significance after parameter
tuning was applied to both algorithms.
Furthermore, this work also considers how different ensemble construction methods
such as a simple averaging approach, Bagging and Boosting affect the resulting generalization
of the SLM and MLP algorithms. Results suggest that the stochastic nature
of the SLM offers enough diversity to the base learner in a way that a simple averaging
method can be competitive when compared to more complex techniques like Bagging
and Boosting.À medida que a tecnologia evolui, a possibilidade de implementar algoritmos novos
e mais eficientes aumenta, no entanto, a complexidade dos problemas com que nos
deparamos também se torna maior. Algoritmos de Neuroevolution encaixam-se neste
contexto, na medida em que são capazes de evoluir Artificial Neural Networks (ANNs).
O algoritmo de Neuroevolution recentemente proposto chamado Semantic Learning
Machine (SLM) tem a vantagem de procurar sobre landscapes de erros unimodais em
qualquer problema de Supervised Learning, onde o erro é medido como a distância aos
alvos conhecidos. A não existência de local optima no espaço de procura resulta numa
aprendizagem mais eficiente quando comparada com outros algoritmos de Neuroevolution.
Este trabalho estuda como métodos diferentes de uso dinâmico de dados de
treino afeta a generalização do algoritmo SLM. Os resultados mostram que estes métodos
são úteis a oferecer uma alternativa que atinge uma generalização competitiva.
Estes métodos são testados em quinze problemas reais de classificação binária. Nestes
quinze problemas, o algoritmo SLM mostra superioridade ao Multilayer Perceptron
(MLP) em treze deles com significância estatística depois de ser aplicado parameter
tuning em ambos os algoritmos.
Para além disso, este trabalho também considera como diferentes métodos de construção
de ensembles, tal como um simples método de averaging, Bagging e Boosting
afetam os valores de generalização dos algoritmos SLM e MLP. Os resultados sugerem
que a natureza estocástica da SLM oferece diversidade suficiente aos base learners de
maneira a que o método mais simples de construção de ensembles se torne competitivo
quando comparado com técnicas mais complexas como Bagging e Boosting