Selection of Sampling Density Based on Data from Areas Already Mapped for Training Decision Tree Models in Digital Soil Mapping

Abstract

Para estudar técnicas de amostragem, úteis ao mapeamento digital de solos (MDS), objetivou-se avaliar o efeito da variação da densidade de pontos amostrais com base em dados de áreas já mapeadas por métodos tradicionais na acurácia dos modelos de árvores de decisão (AD) para a geração de mapas de solos por MDS. Em duas bacias hidrográficas no noroeste do Rio Grande do Sul, usou-se, como referência, antigos mapas convencionais de solos na escala 1:50.000. A partir do modelo digital de elevação do terreno e da rede hidrográfica, foram gerados mapas das variáveis preditoras: elevação, declividade, curvatura, comprimento de fluxo, acúmulo de fluxo, índice de umidade topográfica e distância euclideana de rios. A escolha dos locais dos pontos amostrais foi aleatória e testaram-se densidades amostrais que variaram de 0,1 a 4 pontos/ha. O treinamento dos modelos foi realizado no software Weka, gerando-se modelos preditores usando diferentes tamanhos do nó final da AD para obter AD com tamanhos distintos. Quando não se controlou o tamanho das AD , o aumento da densidade de amostragem resultou no aumento da concordância com os mapas básicos de referências e no aumento do número de unidades de mapeamento preditas. Nas AD com tamanho controlado, o aumento da densidade de amostragem não influenciou a concordância com os mapas de referência e interferiu muito pouco no número de unidades de mapeamento preditas.In order to study sampling techniques useful for digital soil mapping (DSM), we evaluated the effect of changes in sampling density, based on data from areas already mapped by traditional methods, in regard to the accuracy of decision trees models for generating soil maps using DSM. In two watersheds in northwestern Rio Grande do Sul, Brazil, 1:50,000 scale conventional soils maps were used as reference maps. From the ASTER - GDEM Global Digital Elevation Model and the hydrographic network, maps of predictive variables were generated: elevation, slope, curvature, flow length, flow accumulation, topographic wetness index, and Euclidian distance of the streams. We used random sampling, and tested sampling densities that ranged from 0.1 to 4 points per hectare. Models were trained using Weka software, generating predictive models using different sizes of the final node to obtain decision trees of different sizes. The results indicate that when the size of the decision tree was not controlled, an increase in sampling density resulted in greater overall accuracy in accordance with the basic reference maps and an increase in the number of predicted soil mapping units. When the size of decision trees was controlled, an increase in sampling density did not affect the overall accuracy and had a very slight influence on the number of predicted mapping units

    Similar works