2 research outputs found

    Hyper-heuristic decision tree induction

    Get PDF
    A hyper-heuristic is any algorithm that searches or operates in the space of heuristics as opposed to the space of solutions. Hyper-heuristics are increasingly used in function and combinatorial optimization. Rather than attempt to solve a problem using a fixed heuristic, a hyper-heuristic approach attempts to find a combination of heuristics that solve a problem (and in turn may be directly suitable for a class of problem instances). Hyper-heuristics have been little explored in data mining. This work presents novel hyper-heuristic approaches to data mining, by searching a space of attribute selection criteria for decision tree building algorithm. The search is conducted by a genetic algorithm. The result of the hyper-heuristic search in this case is a strategy for selecting attributes while building decision trees. Most hyper-heuristics work by trying to adapt the heuristic to the state of the problem being solved. Our hyper-heuristic is no different. It employs a strategy for adapting the heuristic used to build decision tree nodes according to some set of features of the training set it is working on. We introduce, explore and evaluate five different ways in which this problem state can be represented for a hyper-heuristic that operates within a decisiontree building algorithm. In each case, the hyper-heuristic is guided by a rule set that tries to map features of the data set to be split by the decision tree building algorithm to a heuristic to be used for splitting the same data set. We also explore and evaluate three different sets of low-level heuristics that could be employed by such a hyper-heuristic. This work also makes a distinction between specialist hyper-heuristics and generalist hyper-heuristics. The main difference between these two hyperheuristcs is the number of training sets used by the hyper-heuristic genetic algorithm. Specialist hyper-heuristics are created using a single data set from a particular domain for evolving the hyper-heurisic rule set. Such algorithms are expected to outperform standard algorithms on the kind of data set used by the hyper-heuristic genetic algorithm. Generalist hyper-heuristics are trained on multiple data sets from different domains and are expected to deliver a robust and competitive performance over these data sets when compared to standard algorithms. We evaluate both approaches for each kind of hyper-heuristic presented in this thesis. We use both real data sets as well as synthetic data sets. Our results suggest that none of the hyper-heuristics presented in this work are suited for specialization – in most cases, the hyper-heuristic’s performance on the data set it was specialized for was not significantly better than that of the best performing standard algorithm. On the other hand, the generalist hyper-heuristics delivered results that were very competitive to the best standard methods. In some cases we even achieved a significantly better overall performance than all of the standard methods


    Get PDF
    O principal problema encontrado quando da aplicação de técnicas de sistemas de informações geográficas e sensoriamento remoto para a predição de incêndios florestais é a necessidade de integrar diferentes fontes de dados. Os métodos aplicados, geralmente são baseados em técnicas de regressão ou em coeficientes que dependem de conhecimentos dos especialistas. Esta pesquisa objetivou testar a capacidade da árvore de classificação e regressão (CART) em avaliar o risco de incêndios florestais no estado do Espírito Santo. A análise CART é uma técnica estatística não paramétrica que gera regras de decisão na forma de uma árvore binária, para um processo de classificação ou de regressão. O produto MCD45A1 de área de queima, relativo a um período de 16 anos (2000-2015), foi utilizado para, a partir dos pontos centrais da célula de grade, obter um mapa de ocorrência de incêndio por meio de uma abordagem de densidade Kernel. O mapa resultante foi então utilizado como variável de entrada para a análise CART com variáveis de influência de incêndios usados como preditores. Um total de 12 variáveis preditoras foram determinadas de diversas bases de dados, abrangendo aspectos ambientais, físicos e socioeconômicos. As regras induzidas pelo processo de regressão permitiram a definição de diferentes níveis de risco, expressa em 35 unidades de gestão, utilizado para a produção de um mapa de predição de fogo. De acordo com os resultados, as áreas de maiores riscos no estado são representadas pela Região Nordeste, Vale do Rio Doce e Sudeste (Costa Sul). Os resultados do processo de regressão (r=0,94 e r²=0,88), a capacidade de análise do algoritmo CART para destacar as relações hierárquicas entre as variáveis preditoras e a interpretabilidade fácil das regras de decisão, representam uma ferramenta possível para melhor abordar o problema de avaliar e representar o risco de incêndios florestais. Palavras-chave: Estatística não paramétrica, Densidade Kernel, Algoritmo CART, Regras de decisão, Mapa de predição do fogo