11 research outputs found

    Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML

    Get PDF
    Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.O aprendizado de máquina possui uma multitude de algoritmos e técnicas de pré-processamento que tratam de problemas de classificação. Combiná-los para projetar a melhor sequência de téc- nicas, ou pipeline, de aprendizado de máquina é uma tarefa desafiadora. Diferentes abordagens já foram investigadas, entre elas processos manuais de construção de pipelines, até utilização da otimização Bayesiana e de programação genética. No entanto, cada uma destas abordagens tem impedimentos, como a necessidade de um especialista humano ou elevado custo computacional. O meta-aprendizado pode superar estes dificuldades por meio do conhecimento acumulado em experimentos anteriores. Assim, o conhecimento é armazenado em uma meta-base cujos atri- butos preditivos são meta-características extraídas de conjuntos de dados, e os atributos alvo representam o desempenho preditivo de pipelines bem sucedidos aplicados a esses conjuntos de dados. Este estudo propõe o uso do meta-aprendizado como base para desenho de um processo iterativo de construção de pipelines para problemas de classificação. Nesse sentido, o sistema pro- posto é responsável por predizer um conjunto diversificado de algoritmos de desbalanceamento e filtros de ruído. Para tal, foi utilizada uma meta-base composta de 130 meta-características e quase 400 conjuntos de dados para induzir meta-regressores com diferentes vieses. O sistema de recomendação possui duas fases, uma on-line e uma off-line. Na fase on-line do sistema de recomendação de pipelines, as meta-características são extraídas de um novo conjunto de dados. Elas são então utilizadas como entrada de meta-regressores que predizem a acurácia balanceada de uma combinação de um pré-processador e um classificador. Como qualquer nú- mero de algoritmos de pré-processamento pode ser aplicado posteriormente, muitas etapas de predição são realizadas sequencialmente até que nenhuma técnica de pré-processamento seja re- comendada. Em cada etapa, as meta-características são extraídas deste novo conjunto de dados pré-processado, e todos os desempenhos para cada combinação são preditos. Se uma técnica de pré-processamento for recomendada, este algoritmo é aplicado ao conjunto de dados, e o pro- cesso é repetido iterativamente. Na fase off-line, o meta-conjunto de meta-dados, uma coleção de meta-características com acurácia balanceada de cada combinação de algoritmos e classifica- dores de pré-processamento disponíveis, pode ser incrementado pela introdução do desempenho calculado e das meta-características do novo conjunto de dados. Cada meta-regressor é então atualizado ou retreinado. No contexto das combinações selecionadas no papel, 40 meta-modelos são gerados para prever cada desempenho. Na avaliação do sistema, foram analisadas as quatro etapas do meta-aprendizado: a meta-base, o nível meta, o nível base e o nível de construção dos pipelines. Os resultados foram comparados a dois baselines, o aleatório, no qual o pipeline é construído de ao acaso, e o padrão, no qual o pipeline com melhor desempenho na média é sempre selecionado. Os meta-regressores previram a precisão balanceada das combinações com baixo erro, e alguns superaram os baselines. De acordo com os resultados experimentais, a estratégia proposta teve melhor desempenho do que as baselines.Machine learning has a multitude of algorithms and preprocessing techniques that address clas- sification problems. Combining them to design the best data classification pipeline is a challeng- ing task. Different approaches have already been investigated, including handmade pipelines, Bayesian optimization and genetic programming. Nevertheless, each of these approaches has hindrances, such as the need of a human specialist for handmade pipelines, or the computa- tional cost of Bayesian optimization, and genetic programming. Meta-learning can overcome these drawbacks through knowledge about pipelines accumulated from previous experiments. Thus, the knowledge is stored in a meta-base whose predictive attributes are meta-features extracted from datasets, and the target attributes represent the predictive performance of suc- cessful pipelines applied to these datasets. This study proposes the use of meta-learning as a pipeline builder to predict the performance of combinations of preprocessing techniques, like noise detection and unbalanced algorithms for classification problems. For such, a meta-base composed of 130 meta-features and almost 400 datasets were used to induce meta-regressors with different biases. The recommendation system has two phases, an on-line and an off-line. In the on-line phase of the recommendation system of pipelines, the metafeatures are extracted from a new data set. They are then used as input meta-regressors that predict the balanced accuracy of a combination of a pre-processor and a classifier. As any number of preprocessing algorithms can be applied later, many prediction steps are performed sequentially until no preprocessing technique is recommended. At each step, meta-features are extracted from this new preprocessed data set, and all performances for each combination are predicted. If a pre-processing technique is recommended, this algorithm is applied to the data set, and the process is repeated iteratively. In the off-line phase, the meta-data set, a collection of meta-characteristics with balanced accu- racy of each combination of available preprocessing algorithms and classifiers, can be enhanced by introducing the calculated performance and meta-characteristics of the new data set. Each meta-regressor is then updated or re-trained. In the context of the selected combinations on paper, 40 meta-models are generated to predict each performance. In the system evaluation, the four steps of the meta-learning were analyzed: the meta-base, the meta level, the base level and the construction level of the pipelines. The results were compared to two baselines, the random baseline, in which the pipeline is constructed according to chance, and the default baseline, in which the pipeline with the best performance on average is always selected. The meta-regressors predicted the balanced accuracy of the combinations with low error, and some outperformed the baselines. According to the experimental results, the proposed strategy performed better than the baselines

    Recomendação de algoritmos em fluxos de dados com mudança de conceito

    Get PDF
    Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.Muitas companhias vêm tirando proveito de mineração de dados para identificar infor- mações valiosas em conjuntos de dados massivos gerados em alta frequência, o chamado Big Data. Técnicas de Aprendizado de Máquina podem ser aplicadas para descoberta de informação, visto que podem extrair padrões dos dados para induzir modelos que preverão eventos futuros. Entretanto, ambientes dinâmicos e progressivos comumente geram fluxos de dados não estacionários. Logo, modelos treinados nesse cenário costumam perecer com o tempo pela sazonalidade ou mudança de conceito. O retreinamento periódico pode aju- dar, mas um espaço de hipóteses fixo pode não ser o mais apropriado ao fenômeno. Uma solução alternativa é usar meta-aprendizado para uma contínua seleção de algoritmos em ambientes que mudam com o tempo, escolhendo o viés que melhor condiz com os dados atuais. Nesse trabalho, apresentamos um framework aprimorado para seleção de algorit- mos em fluxos de dados baseado no MetaStream. Nossa abordagem usa meta-aprendizado e aprendizado incremental para ativamente selecionar o melhor algoritmo para o presente conceito em ambientes que mudam com o tempo. Ao contrário de trabalhos prévios, nós usamos uma coleção diversificada de meta-atributos estado-da-arte e uma abordagem de aprendizado incremental para o nível meta baseada no algoritmo LightGBM. Os resul- tados mostram que essa nova estratégia pode aprimorar a acurácia de recomendação do melhor algoritmo em dados que mudam com o tempo.In the last decades, many companies have had a growing interest in the “digital oil”, also called Big Data. Data mining has been applied in these massive volumes of data to obtain valuable information for clients and industries worldwide. Machine Learning, a prominent technique for data mining, can be used to extract patterns from data and induce models to predict future events. Still, complex environments that are constantly evolving usually generate non-stationary data streams. Thus, these models may perish in this scenario due to concept drift. Retraining periodically can help, but the algorithm bias may no longer be appropriate. A response to this is to use meta-learning for regular algorithm selection in time-changing environments, choosing the hypothesis space that best suits the current data. In this work, we enhanced MetaStream, a framework for data stream algorithm selection, though a rich set of state-of-the-art meta-features, and an incremental learning approach in the meta-level based on LightGBM, combining this to actively select the best algorithm for the current concept in a time-changing environment. The results show that this new strategy can improve the recommendation accuracy of the best algorithm in time-changing data
    corecore