Avaliação do impacto das amostras de treinamento na acurácia da classificação random forest dos sistemas integrados de produção agropecuária.

Abstract

Ao conduzir uma classificação supervisionada com algoritmos de aprendizado de máquina, como o Random Forest, a estratégia de balanceamento das amostras é fundamental, pois impacta diretamente nos resultados. Estes classificadores são sensíveis às proporções das amostras de treinamento das diferentes classes. Compreender como estes fatores influenciam na classificação de áreas de produção agropecuária, sobretudo de sistemas minoritários e complexos como o iLP (Integração Lavoura-Pecuária) são de extrema importância para contribuir com metodologias de monitoramento. Para avaliar o impacto do balanceamento, foram testados três grupos de dados de aprendizagem do Random Forest: (i) Bset01: dados balanceados entre três classes prioritárias no estado do Mato Grosso; (ii) Bset02: dados desbalanceados com as proporções refletindo a realidade de campo e (iii) Bset03: superestimando a classe rara iLP. Os melhores valores de fscore da classe iLP foram para Bset01 (0,81) e Bset02 (0,83), com um erro de comissão mais alto para Bset01, sugerindo uma melhor performance do Bset02

    Similar works