2 research outputs found
Orchestrator selection process for cloud-native machine learning experimentation
Dissertação de mestrado integrado em Informatics EngineeringMachine learning (ML) model development is a very experimental, repetitive, and error prone task,
because ML is itself very obscure - there is no way to know what model works best for our goals beforehand,
so practitioners have an incentive to experiment with as many models, approaches and techniques as they
can. Additionally, going from raw data to a well adjusted model is a delicate process that often requires
complex, multi-step pipelines. Combine the two factors and it becomes apparent how easy it is to get lost
within a sea of artifacts and results without a well defined process, hindering the development process
with poor reusability, lots of technical debt, and integration-hell. This makes adherence to best practices -
MLOps - paramount.
However, with the recent boom experienced in this field came a plethora of different tools and services,
all trying to satisfy different subsets of needs of the model life cycle, meaning that, more often than not, ML
practitioners do not know what the best set of tools for their use case might be. The experimental nature
of ML means we should indeed try different tools, but there is a high risk that it might not fit the necessary
requirements, generating needless costs. One particularly relevant type of tool is the orchestrator - a central
piece of the experimentation process which controls the communication and execution of the components
of a model pipeline.
This work follows the creation process for an enterprise ML cloud environment, with particular focus
on the selection of an adequate orchestrator for cloud-native setups. Additionally, it presents MetaTool, a
web application designed to speed up future tool selection processes by leveraging knowledge gathered
during previous instances.
Finally, it reaches two key conclusions: first, broader organizational factors that might seem out of
scope can influence or even alter the final choice, and second, although using a tool like MetaTool might
speed up the decision-making process, it requires significant organizational commitment.O desenvolvimento de modelos de machine learning (ML) é uma atividade muito experimental, repetitiva
e propÃcia a erros, porque ML é muito obscura - não há forma de saber de antemão qual o modelo
mais adequado para os nossos objetivos, pelo que os praticantes têm um incentivo para experimentar com
o maior número possÃvel de modelos, abordagens e técnicas que conseguirem. Adicionalmente, passar
de dados para um modelo bem ajustado é um processo delicado que frequentemente requer pipelines
complexas e com vários passos. Combinando os dois fatores fica aparente o quão fácil é ficar perdido
num mar de artefactos e resultados sem um processo bem definido, dificultando o processo de desenvolvimento
com fraca capacidade de reutilização, muita technical debt, e integration hell. Isto torna a adesão
às melhores práticas - MLOps - imperativa.
Contudo, com o recente avanço verificado neste domÃnio veio uma abundância de diferentes ferramentas
e serviços, todos tentando satisfazer diferentes subconjuntos de necessidades do ciclo de vida dos
modelos, pelo que os praticantes de ML acabam frequentemente na dúvida de qual poderá ser o melhor
conjunto de ferramentas para os seus casos de uso. A natureza experimental de ML faz com que se devam
experimentar diferentes ferramentas, mas há um grande risco de escolher algo não satisfaça os requisitos
necessários, levando a custos desnecessários. Uma categoria de ferramentas particularmente relevantes
são os orquestradores - uma peça central no processo de experimentação que controla a comunicação e
execução dos componentes da pipeline do modelo.
Este trabalho acompanha a criação dum ambiente cloud industrial para ML, com particular foco na
escolha do orquestrador adequado para ambientes na nuvem. Adicionalmente, apresenta MetaTool, uma
aplicação web pensada para acelerar futuros processos de tomada de decisão empregando conhecimento
adquirido durante processos anteriores.
Finalmente, alcança duas conclusões chave: primeiro, fatores organizacionais aparentemente irrelevantes
podem influenciar ou até alterar a escolha final, e segundo, apesar de ferramentas como MetaTool
poderem acelerar o processo de tomada de decisão, requerem um empenho da organização