thesis

Sistemas de bases de dados orientados por colunas

Abstract

Dissertação de mestrado em Engenharia de InformáticaNos últimos tempos os sistemas de bases de dados orientados por colunas têm atraído muita atenção, quer por parte de investigadores e modeladores de base de dados, quer por profissionais da área, com particular interesse em aspectos relacionados com arquiteturas, desempenho dos sistemas e sua escalabilidade ou em aplicações de suporte à decisão, nomeadamente em Data Warehousing e Business Inteligence. Ao contrário dos sistema de bases de dados mais tradicionais (“orientados à linha”), neste tipo de sistemas cada coluna de uma tabela de uma base de dados é armazenada separadamente. Deste modo, em vez de se armazenar uma linha seguida de outra, todos os valores de um atributo pertencente à mesma coluna são continuamente comprimidos e armazenados num pacote um pouco mais denso. A aplicação deste tipo de sistemas de bases de dados permite, principalmente, minimizar o tempo das queries típicas de um ambiente data warehousing, que através de sistemas de bases de dados mais convencionais seriam difíceis de minimizar. Neste trabalho, além da abordagem genérica ao tema, desenvolveram-se trabalhos especificamente orientados para a sua aplicação a um caso de estudo real. As técnicas abordadas seguiram de perto a metodologia apresentada por Kimball et al. (2008), tendo-se dado particular enfâse ao modelo de representação dos dados. Após o estudo necessário ter sido realizado, este trabalho focou-se a análise da influência e utilidade dos sistemas de bases de dados orientados por colunas num sistema de data warehousing. Tendo em consideração dois sistemas de bases de dados distintos, um relacional e outro não relacional, aplicou-se um conjunto de queries típicas de um ambiente de data warehousing sobre o mesmo conjunto de dados, apontando as diferenças em nível de tempo. Desta forma, a importância dada à sua estrutura base, funcionalidades, linguagens de descrição, manipulação e controlo, sistemas de gestão, entre outros, acabaria por facilitar o processo de conversão da base de dados em questão, do seu povoamento e a própria exploração das queries no Sistema de Data Warehousing implementado.Recently systems-oriented database columns have drawn the attention from researchers, database modelers and professionals interested in subjects such as architectures, systems performance and its scalability or decision support applications, including Data Warehousing and Business Intelligence. In this type of systems each table’s column of a database is stored separately, unlike the traditional system databases (“line oriented”). Thus instead of storing one line after another, all the values of an attribute belonging to the same column are continuously compressed and stored in a slightly more dense package. The application of this type of database systems enables to reduce the time of queries normally used in a data warehousing environment. This would be unlikely to achieve in conventional database systems. In this project besides the generic approach to the subject applied their approach to a real case study. The techniques used in this project follow Kimball’s methodology [Kimball et al., 2008], putting the stress in the data’s model representation. After a first study has been conducted, this work focused the analysis of the influence and usefulness of database systems oriented for columns in a data warehousing system. Considering two different database systems, i.e. a relational and non-relational system, a set of queries typical of a data warehousing environment was applied on the same data set highlighting the time differences. Thus, the importance given to its basic structure, features, description languages, manipulation and control, management systems, among others, would eventually facilitate the process of converting the database and its settlement and exploration of queries in the implemented data warehousing system

    Similar works