6 research outputs found

    Some Enhancements of Decision Tree Bagging

    Full text link

    Extremely randomized trees

    Full text link
    This paper proposes anew tree-based ensemble method for supervised classification and regression problems. It essentially consists of randomizing strongly both attribute and cut-point choice while splitting a tree node. In the extreme case, it builds totally randomized trees whose structures are independent of the output values of the learning sample. The strength of the randomization can be tuned to problem specifics by the appropriate choice of a parameter. We evaluate the robustness of the default choice of this parameter, and we also provide insight on how to adjust it in particular situations. Besides accuracy, the main strength of the resulting algorithm is computational efficiency. A bias/variance analysis of the Extra-Trees algorithm is also provided as well as a geometrical and a kernel characterization of the models induced.Peer reviewe

    Strategies for Combining Tree-Based Ensemble Models

    Get PDF
    Ensemble models have proved effective in a variety of classification tasks. These models combine the predictions of several base models to achieve higher out-of-sample classification accuracy than the base models. Base models are typically trained using different subsets of training examples and input features. Ensemble classifiers are particularly effective when their constituent base models are diverse in terms of their prediction accuracy in different regions of the feature space. This dissertation investigated methods for combining ensemble models, treating them as base models. The goal is to develop a strategy for combining ensemble classifiers that results in higher classification accuracy than the constituent ensemble models. Three of the best performing tree-based ensemble methods – random forest, extremely randomized tree, and eXtreme gradient boosting model – were used to generate a set of base models. Outputs from classifiers generated by these methods were then combined to create an ensemble classifier. This dissertation systematically investigated methods for (1) selecting a set of diverse base models, and (2) combining the selected base models. The methods were evaluated using public domain data sets which have been extensively used for benchmarking classification models. The research established that applying random forest as the final ensemble method to integrate selected base models and factor scores of multiple correspondence analysis turned out to be the best ensemble approach

    Aplicação de técnicas de Big Data à Previsão da Carga Elétrica.

    Get PDF
    Com o avanço das telecomunicações e com o barateamento dos dispositivos de medição, os sistemas elétricos de potência passaram a gerar um enorme volume de dados. Estes chegam aos centros de operação com diferentes frequências, desde alguns minutos para o estado de disjuntores, até alguns milissegundos para medidas de tensão e corrente durante transitórios. O desafio atual é tornar estes dados disponíveis de forma simples e eficiente aos operadores. O objetivo é transformar a avalanche de dados em informações úteis ao processo de decisão. Neste sentido, várias técnicas de mineração de dados foram desenvolvidas. Recentemente, as técnicas de Big Data possibilitaram a manipulação de grandes bases de dados e a elaboração de modelos baseados em aprendizado de máquina e inteligência artificial. Este trabalho apresenta a aplicação das técnicas de Big Data ao problema de previsão de carga. Bons modelos de previsão são fundamentais para o planejamento, operação e manutenção dos sistemas elétricos. Diversos fatores podem influenciar o comportamento futuro da carga, não necessariamente em intervalos regulares, ou da mesma forma, para os diversos horizontes de previsão. Dentre as diversas técnicas de Big Data disponíveis, foi escolhida a modelagem por Florestas Aleatórias (Random Forests). Esta técnica permite tratar grandes bases de dados, formadas tanto por atributos numéricos como categóricos, além de serem bastante robustas quanto à presença de dados faltosos, inconsistentes e com ruído. Seu algoritmo de aprendizado é rápido e gera modelos precisos e de fácil aplicação. Este trabalho propõe também alterações na técnica de Florestas Aleatórias para a previsão de carga. Estas alterações foram aplicadas com sucesso a um conjunto de dados de uma concessionária brasileira obtendo-se bons resultados sem nenhuma intervenção humana. Por exemplo, a carga média no horizonte de até um ano à frente, importante para a contratação da energia pela concessionária, foi prevista com erro da ordem de décimos de porcentagem

    Investigation and reduction of discretization Variance in decision tree induction

    Full text link
    peer reviewedThis paper focuses on the variance introduced by the discretization techniques used to handle continuous attributes in decision tree induction. Different discretization procedures are first studied empirically, then means to reduce the discretization variance are proposed. The experiments shows that discretization variance is large and that it is possible to reduce it significantly without notable computational costs. The resulting variance reduction mainly improves interpretability and stability of decision trees, and marginally their accuracy
    corecore