Abstract The emergence of new areas, such as the internet of things, which require access
to the latest data for data analytics and decision-making environments,
created constraints for the execution of analytical queries on traditional data
warehouse architectures.
In addition, the increase of semi-structure and unstructured data led to the
creation of new databases to deal with these types of data, namely, NoSQL
databases. This led to the information being stored in several different systems,
each with more suitable characteristics for different use cases, which
created difficulties in accessing data that are now spread across various systems
with different models and characteristics.
In this work, a system capable of performing analytical queries in real time
on distributed and heterogeneous data sources is proposed: EasyBDI. The
system is capable of integrating data logically, without materializing data,
creating an overview of the data, thus offering an abstraction over the distribution
and heterogeneity of data sources. Queries are executed interactively
on data sources, which means that the most recent data will always be used
in queries. This system presents a user interface that helps in the configuration
of data sources, and automatically proposes a global schema that
presents a generic and simplified view of the data, which can be modified
by the user. The system allows the creation of multiple star schemas from
the global schema. Finally, analytical queries are also made through a user
interface that uses drag-and-drop elements.
EasyBDI is able to solve recent problems by using recent solutions, hiding
the details of several data sources, at the same time that allows users with
less knowledge of databases to also be able to perform real-time analytical
queries over distributed and heterogeneous data sources.O aparecimento de novas áreas, como a Internet das Coisas, que requerem o
acesso aos dados mais recentes para ambientes de tomada de decisão, criou
constrangimentos na execução de consultas analíticas usando as arquiteturas
tradicionais de data warehouses.
Adicionalmente, o aumento de dados semi-estruturados e não estruturados
levou a que outras bases de dados fossem criadas para lidar com esse tipo
de dados, nomeadamente bases NoSQL. Isto levou a que a informação seja
armazenada em sistemas com características distintas e especializados em
diferentes casos de uso, criando dificuldades no acesso aos dados que estão
agora espalhados por vários sistemas com modelos e características distintas.
Neste trabalho, propõe-se um sistema capaz de efetuar consultas analíticas
em tempo real sobre fontes de dados distribuídas e heterogéneas: o EasyBDI.
O sistema é capaz de integrar dados logicamente, sem materializar os dados,
criando uma vista geral dos dados que oferece uma abstração sobre a
distribuição e heterogeneidade das fontes de dados. As consultas são executadas
interativamente nas fontes de dados, o que significa que os dados
mais recentes serão sempre usados nas consultas. Este sistema apresenta
uma interface de utilizador que ajuda na configuração de fontes de dados, e
propõe automaticamente um esquema global que apresenta a vista genérica
e simplificada dos dados, podendo ser modificado pelo utilizador. O sistema
permite a criação de múltiplos esquema em estrela a partir do esquema
global. Por fim, a realização de consultas analíticas é feita também através
de uma interface de utilizador que recorre ao drag-and-drop de elementos.
O EasyBDI é capaz de resolver problemas recentes, utilizando também
soluções recentes, escondendo os detalhes de diversas fontes de dados, ao
mesmo tempo que permite que utilizadores com menos conhecimentos em
bases de dados possam também realizar consultas analíticas em tempo-real
sobre fontes de dados distribuídas e heterogéneas.Mestrado em Engenharia Informátic