GeoDrill : uso de SQL para integração de fontes de dados espaciais heterogêneas com ou sem esquema.

Abstract

Com a evolução da web e dos sistemas de informação, as organizações têm obtido dados dos mais diversos formatos, estruturas e tipos, podendo-se destacar os espaciais. Devido aos dados apresentarem características distintas, estes acabam sendo mantidos em fontes de dados heterogêneas, sendo assim necessário investir cada vez mais em soluções que possam integrar e analisar estes dados de diferentes fontes. Algumas destas soluções conseguem analisar o componente espacial dos dados, no entanto, essa análise dos dados espaciais é limitada pelo tipo de dados ou funções espaciais suportadas. Neste trabalho, é abordado o problema da integração de dados espaciais de fontes de dados heterogêneas, com ou sem esquema, utilizando linguagem SQL. Este é um problema em aberto na área de integração de dados espaciais, pois as soluções existentes apresentam inúmeras limitações, a exemplo da linguagem de consulta utilizada, os meios para acesso a dados, as tecnologias que podem ser integradas, as funções disponibilizadas e os tipos de dados espaciais suportados. Visando solucionar esse problema, desenvolveu-se a solução GeoDrill, uma extensão do Apache Drill que dá suporte a todas as funções espaciais padronizadas pela OGC (Open Geospatial Consortium), através da linguagem SQL, podendo realizar consultas em dados com ou sem esquema. Para validar a capacidade de integração dos dados no GeoDrill, foi desenvolvido um experimento para analisar as funcionalidades e o desempenho do mesmo. A solução GeoDrill foi capaz de realizar a integração dos dados espaciais de fontes heterogêneas, apresentando-se como uma alternativa para a resolução de parte das limitações existentes na área.With the evolution of the web and information systems, organizations have obtained data of various formats, structures and types, specially the spatial one. Due to different characteristics presented in data, such data have been stored in heterogeneous data sources. Therefore, it is needed to increasingly invest in solutions that can integrate and analyze these data from different sources. Some of these solutions can analyze the spatial component of data; however, this analysis of spatial data is limited either by the data type or spatial functions supported. In this work, the problem of spatial data integration from heterogeneous data sources is addressed, either with or without using schemas, using SQL language. This is an open issue in the area of spatial data integration, since existing solutions present many limitations, such as the query language used, the ways to access data, the technologies that can be integrated, the available functions set and the spatial data types supported. Aiming at solving this problem, the GeoDrill solution was developed, which is an extension of the Apache Drill that supports all standard spatial functions provided by the OGC (Open Geospatial Consortium) through the SQL language. The GeoDrill can perform queries on data with or without schema. In order to validate the capacity of GeoDrill to integrate data, an experiment was conducted to analyze its functionalities and performance. The obtained results indicate the GeoDrill solution is able to integrate spatial data from heterogeneous data sources. Hence, it appears to be a suitable alternative for solving part of the existing limitations in this research field

    Similar works