4 research outputs found

    A comprehensive approach to data warehouse testing

    Full text link
    Testing is an essential part of the design life-cycle of any software product. Nevertheless, while most phases of data warehouse design have received considerable attention in the literature, not much has been said about data warehouse testing. In this paper we introduce a number of data mart-specific testing activities, we classify them in terms of what is tested and how it is tested, and we discuss how they can be framed within a reference design methodology. Categories and Subject Descriptor

    A gestão da qualidade dos dados em ambientes de data warehousing na prossecução da excelência da informação

    Get PDF
    Dissertação de Mestrado em Sistemas de Dados e Processamento AnalíticoNos nossos dias, os Sistemas de Data Warehousing são um dos mais importantes instrumentos no panorama organizacional. A capacidade em gerar mais e melhores informações e indicadores aos agentes de decisão, flexibilizando e reduzindo o consumo de tempo e recursos no processo de interrogações ao repositório de dados, são algumas das características que distinguem estes sistemas e os catapultam para um patamar de destaque no suporte ao exercício de tomada de decisão. Os resultados apresentados pelo sistema são, naturalmente, influenciados pelos dados captados e residentes no Data Warehouse. A existência de índices de qualidade dos dados inferiores aos aceitáveis, ao longo das diversas camadas da arquitectura dos Sistemas de Data Warehousing, faz reconhecer o princípio garbage in, garbage out. Assim, interessa identificar as causas para a presença da fraca qualidade dos dados no sistema, de modo a estabelecer, por um lado, os meios de resolução das irregularidades verificadas durante a estada dos dados nos Sistemas de Data Warehousing e por outro lado, no sentido da prevenção dessas ocorrências. A assumpção da informação divulgada como produto-informação, detentor de características próprias e elaborado a partir de um sistema de processos específicos que transformam as matériasprimas, em vista a satisfação das necessidades e desejos dos consumidores finais, mostra ser uma iniciativa importante para a obtenção e disponibilidade de dados de elevada qualidade. A presente dissertação pretende expor a problemática da qualidade dos dados em Sistemas de Data Warehousing, apresentando, de raiz, um conjunto de conceitos e terminologias básicas, bem como relevar as principais técnicas, metodologias, modelos e estratégias, passíveis de, concertadamente, se consubstanciarem ao que designamos por uma plataforma de um sistema de gestão da qualidade dos dados em Sistemas de Data Warehousing. Esta plataforma procura prever a manutenção da qualidade dos dados ao longo das diversas camadas constituintes dos Sistemas de Data Warehousing. Adicionalmente, definiu-se um lote de métricas capaz de permitir a recolha de índices sobre a qualidade dos dados nas suas dimensões mais representativas. Estes índices, estrategicamente dispostos pelas diversas camadas dos Sistemas de Data Warehousing, possibilitam aferir sobre o grau de sucesso destes sistemas relativamente aos dados disponibilizados. Complementarmente, é apresentado um estudo de caso, realizado sobre o Data Mart duma organização real, em vista o reconhecimento da problemática da qualidade dos dados em Sistemas de Data Warehousing. O estudo de caso procura, baseado no trabalho realizado, fornecer um conjunto de iniciativas de recomendação para solucionar os problemas detectados e consequentemente promover o princípio da prevenção de erros e a melhoria contínua dos dados organizacionais.Nowadays, Data Warehousing Systems are one of the most powerful tools that we can find in organization. The ability in generating more and better information to decision making agents, improving user analysis skills and reducing querying efforts, are some of the distinguish characteristics of these systems that push them to the vanguard of decision support systems. All the results provided by a data warehousing system are influenced by data gathered in selective information sources and stored in their data warehouses. The existence of data quality indices lower than the acceptable ones throughout the data warehousing system architecture layers emerges the principle of “garbage in, garbage out”. So, it is not difficult to see that we need to identify properly, as soon as possible, all the potential causes that justify the presence of bad quality data in system’s data repositories - bad data generates bad business decisions. This will allows us to establish possible ways to attenuate the effect of such irregularities and define some strategies to avoid the causes for bad data. The assumption that the information provided can be seen as information product seems to be an important initiative for the attainment and availability of data with high quality levels, once it detains the adequate properties and is generated by specific oriented processes that transform the raw materials according the needs of data consumers. This thesis approach the data quality issue in Data Warehousing Systems, presenting its basic concepts and terminology, as well as revealing the main techniques, methodologies, models and strategies in the field. As a direct result of this work we got, what we call, a consolidated conceptual platform for data quality management in a data warehousing system, intending to anticipate data quality maintenance throughout its architectural layers. Additionally, we also defined a set of metrics capable of capturing indices on data quality in its more representative dimensions. These metrics, strategically disposed over the layers of data warehousing systems, make possible to measure the degree of success of the data that they use to publish and provide to decision-making agents. Furthermore, a case study was carried out, based on a real world data mart, in order to identify and recognize the main data quality issues that we need to deal with when we face a real data warehousing system. The case study provided a very interesting set of recommendations that will allow us in the solution of data quality problems and, consequently, to promote the principle of error prevention and continuous improvement of organizational data

    Experimental Validation of Multidimensional Data Models Metrics

    No full text
    Multidimensional data models are playing an increasingly prominent role in support of day-to-day business decisions. Due to their significance in taking strategic decisions it is fundamental to assure its quality. Although there are some useful guidelines proposals for designing multidimensional data models, objective indicators (metrics) are needed to help designers and managers to develop quality multidimensional data models. In this paper we present two metrics (Number of Fact Tables, NFT and Number of Dimensional Tables, NDT) we have defined for multidimensional data models and an experiment developed in order to validate them as quality indicators. As a result of this experiment it seems that the number of fact tables can be considered as a solid quality indicator of a multidimensional data model
    corecore