Multiple linear regression and Random Forest model to estimate soil bulk density in mountainous regions

Abstract

O objetivo deste trabalho foi o desenvolvimento de modelos com diferentes conjuntos de dados, para estimar a densidade de solos de regiões tropicais montanhosas, a partir de atributos de solos comumente encontrados nas análises de perfis de solos descritos nos levantamentos regionais. O conjunto total de dados compõe-se de 163 amostras e foi dividido em seis grupamentos, dos quais três com 73 amostras, com o máximo de 32 covariáveis, e três com 163 amostras, com o máximo de 18 covariáveis. Testaram-se modelosde regressão linear múltipla (RLM) e randomForest (RF). A menor incerteza entre os modelos foi alcançada pelo RLM2, com R2 de 0,56, 13 covariáveis e 73 amostras. Nos grupamentos com 163 amostras, os melhores modelos foram os RF, com R2 médio de 0,48. A raiz quadrada da média do erro ao quadrado variou entre 0,09 e 0,14. As covariáveis mais importantes no modelo RF foram: carbono orgânico, hidrogênio, areia fina e grossa, saturação por bases e capacidade de troca catiônica. Pelo método "stepwise regression", as variáveis mais importantes foram: a relação silte/argila; areia grossa e fina; carbono orgânico; saturação por bases; e potássio.The objective of this work was the development of models with different sets of data for estimating soil bulk density in tropical mountainous regions, from soil attributes commonly found in the analyses of soil profiles described in regional surveys. The complete dataset is composed of 163 samples and it was divided into six groups, of which three groups have 73 samples and the maximum of 32 covariables, and three have 163 samples and the maximum of 18 covariables. The linear regression (RLM) and randomForest (RF) models were tested. The lowest uncertainty between the models was achieved by RLM2, with R2 of 0.56, 13 covariables, and 73 samples. Considering the groups with 163 samples, the best models were the RFs with mean R2 of 0.48. The root mean squared error ranged between 0.09 and 0.14. The most important covariables in the RF model were: organic carbon, hydrogen, fine and coarse sand, base saturation, and cation exchange capacity. By the stepwise backward regression, the main covariables were: silt and clay relation; fine and coarse sand; organic carbon; base saturation; and potassium

    Similar works