Integração, controle e acompanhamento da análise de imagens baseada em objeto e mineração de dados por meio da plataforma distribuída InterCloud

Abstract

Tese (doutorado)—Universidade de Brasília, Instituto de Geociências, Pós-Graduação em Geociências Aplicadas, 2018.Atualmente, enormes volumes de dados de sensoriamento remoto são geradas em pouco espaço de tempo e manipular esses dados se torna um desafio para os profissionais e pesquisadores de sensoriamento remoto (SR), que necessitam de ferramentas e modelos mais eficientes de processamento e interpretação de imagens. Nesta linha de raciocínio, o presente trabalho apresenta um novo método on-line de integração de uma plataforma distribuída de classificação de imagem baseada em objetos e algoritmo de classificação de aprendizado de máquina para criação de modelos estatísticos de interpretação. Por meio do sistema InterCloud, que é uma nova plataforma de interpretação de imagens projetada para rodar em redes de computadores (clusters físicos ou infra-estrutura de computação em nuvem), e os frameworks para computação distribuída Apache Hive que cria tabelas virtuais, a MLlib do Apache Spark que é uma biblioteca de machine learning e o Apache Zeppelin que disponibiliza um notebook web, foi possível disponibilizar dados, tabelas e gráficos com valores de pixels para modelagem estatísticas de interpretação. No protótipo implementado, o sistema Apache Zeppelin forneceu os meios para usar a biblioteca de aprendizado de máquina Scikit-Learn Python na criação de um modelo de classificação (Árvore de Decisão), que foi simulado no InterCloud por meio de um sript pig. Neste trabalho, também avaliamos a abordagem com uma aplicação de interpretação de imagem baseada em objeto, cobertura terrestre, realizada em uma cena GeoEye-1 de 103 Km² (19k por 23k pixels), usando recursos de um serviço de infraestrutura de computação em nuvem comercial. 24 atributos (espectrais e morfológicos) e 11 classes de objetos, incluindo alvos urbanos e rurais, foram considerados. O estudo avaliou as possibilidades de escalabidade para execução de diferentes tarefas e, a exatidão da classificação por meio de uma matriz de confusão.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).Currently, huge amounts of remote sensing data are generated in a short time and manipulating such data becomes a challenge for Remote Sensing (SR) professionals and researchers. Efficient tools and patterns of image processing and interpretation need to be made available. The present study is aimed to show a new online method of integrating a distributed object-based image classification platform and machine learning Decision Tree algorithm for creating statistical patterns of interpretation. Through the InterCloud system, which is a new imaging platform designed to run on computer networks (physical clusters or cloud computing support), and the Apache Hive distributed computing frameworks that create virtual tables, MLlib of Apache Spark which is a library of machine learning and Apache Zeppelin that makes available a web notebook, it was possible to make available data, tables, and graphics with pixel values for statistical patterns of interpretation. In the prototype implemented, the Apache Zeppelin system provided the means to use another Sci-kit-Learn Python machine learning library establishing a classification pattern (Decision Tree) that was simulated in InterCloud platform by means of a script pig. We also used the object-based image analysis approach interpretation to evaluate the image into terrestrial coverage, performed in a 103 Km² (19k by 23k pixels) GeoEye-1 scene using features of a commercial cloud computing support service. 24 attributes (spectral and morphological) and 11 classes of objects, including urban and rural targets, were considered. In addition to the accuracy of the classification result evaluated by means of accurate indexes, we evaluate the InterCloud ability to perform different tasks (distributed segmentation, extraction of characteristics and distributed classification) with different configurations of the cloud infrastructure, in which they were varied in the number of nodes/clusters. The accuracy index of the final classification was evaluated by means of the confusion matrix in agreement with the coefficients

    Similar works