Monitoring and optimization of an autonomous learning system

Abstract

Dissertação de mestrado em Informatics EngineeringIn the last years, the number of Machine Learning algorithms and their parameters has increased significantly. This allows for more accurate models to be found, but it also increases the complexity of the task of training a model, as the search space expands significantly. As datasets keep growing in size, traditional approaches based on extensive search start to become costly in terms of computational resources and time, especially in data streaming scenarios. With this growth, new challenges in Machine Learning started to appear. The speed at which data arrives and different ways of storing data are forcing organizations to address and explore new ways of adapting fast enough so their ML models don’t become obsolete. This dissertation aims to develop an approach based on meta-learning that tackles two main challenges: predict ing the performance metrics of a future model and recommending the best algorithm/configuration for training a model for a specific Machine Learning problem. Throughout this dissertation, all the study objectives and questions, along with the relevant contextualization will be exposed. The proposed solution, when compared to an AutoML approach is up to 130x faster and only 2% worse in terms of average model quality, showing it is a good solution for scenarios in which models need to be updated regularly, such as in streaming scenarios with Big Data, in which some accuracy can be traded for a much shorter model training time.Nos últimos anos, o número de algoritmos de Machine Learning e seus parâmetros aumentou significativamente. Isso permite que modelos mais precisos sejam encontrados, mas também aumenta a complexidade da tarefa de treinar um modelo, pois o espaço de busca expande-se significativamente. À medida que os conjuntos de dados continuam a crescer em tamanho, abordagens tradicionais baseadas em uma pesquisa extensiva começam a se tornar caras em termos de recursos computacionais e tempo, especialmente em cenários de streaming de dados. Com esse crescimento, novos desafios no Machine Learning começaram a aparecer. A velocidade com que os dados chegam e as diferentes maneiras de armazenar dados estão a forçar as organizações a abordar e explorar novas formas de se adaptar rápido o suficiente para que os seus modelos de ML não se tornem obsoletos. Esta dissertação visa desenvolver uma abordagem baseada em Meta-Learning que aborda dois desafios principais: prever as métricas de desempenho de um modelo futuro e recomendar o melhor algoritmo/configuração para treinar um modelo para um problema específico de Machine Learning. Ao longo desta dissertação, serão expostos todos os objetivos e questões do estudo, juntamente com a contextualização relevante. A solução proposta, quando comparada a uma abordagem AutoML é até 130x mais rápida e apenas 2% pior em termos de qualidade média do modelo, mostrando que é uma boa solução para cenários em que os modelos precisam ser atualizados regularmente, como em cenários de streaming com Big Data, em que alguma precisão pode ser negociada por um tempo de treino de modelo muito menor

    Similar works