5 research outputs found

    Reducing the View Selection Problem through Code Modeling: Static and Dynamic approaches

    Get PDF
    2015 - 2016Data  warehouse  systems aim to support decision making by providing users with the appropriate  information  at  the right time. This task is particularly challenging in business contexts where large  amount of data is produced at a high speed. To this end, data warehouses have been equipped with  Online Analytical Processing tools that help users to make fast and precise decisions througt the  execution of complex queries. Since the computation of these queries is time consuming, data   warehouses precompute a set of materialized views answering to the workload  queries.   This thesis work defines a process to determine the minimal set of workload queries and the set of views to materialize. The set of queries is represented by an optimized lattice structure used to select  the views to be materialized according to the processing time costs and the view storage space. The minimal set of required Online Analytical Processing queries is computer by analyzing the data model defined with the visual language CoDe (Complexity Design). The latter allows to conceptually organizatio  the visualization of data reports and to generate visualizations of data obtained from data-­‐mart queries. CoDe adopts a hybrid modeling process combining two main methodologieser-­‐driven and data-­ driven. The first aims to create a model according to  the  user  knowledge,  re-quirements, and analysis needs, whilst the latter has in  charge to concretize data  and their relationships in the model through Online Analytical Processing queries. Since the materialized views change over time, we also propose a dynamic process that allows users to upgrade the CoDe model with a context-­‐aware editor, build an optimized lattice structure able to  minimize the effort to recalculate it,and propose the new set of views  to  materialize  Moreover,  the  process applies a Markov strategy to predict whether the views need to be recalculate or not  according to the changes of the model. The effectiveness of the proposed  techniques has  been  evaluated on a real world data warehouse. The results  revealed that the Markov strategy gives a better set of solutions in term of storage space and total processing cost. [edited by author]  XV n.

    Maintenance-cost view-selection in large data warehouse systems: algorithms, implementations and evaluations.

    Get PDF
    Choi Chi Hon.Thesis (M.Phil.)--Chinese University of Hong Kong, 2003.Includes bibliographical references (leaves 120-126).Abstracts in English and Chinese.Abstract --- p.iAbstract (Chinese) --- p.iiAcknowledgement --- p.iiiContents --- p.ivList of Figures --- p.viiiList of Tables --- p.xChapter 1 --- Introduction --- p.1Chapter 1.1 --- Maintenance Cost View Selection Problem --- p.2Chapter 1.2 --- Previous Research Works --- p.3Chapter 1.3 --- Major Contributions --- p.4Chapter 1.4 --- Thesis Organization --- p.6Chapter 2 --- Literature Review --- p.7Chapter 2.1 --- Data Warehouse and OLAP Systems --- p.8Chapter 2.1.1 --- What Is Data Warehouse? --- p.8Chapter 2.1.2 --- What Is OLAP? --- p.10Chapter 2.1.3 --- Difference Between Operational Database Systems and OLAP --- p.10Chapter 2.1.4 --- Data Warehouse Architecture --- p.12Chapter 2.1.5 --- Multidimensional Data Model --- p.13Chapter 2.1.6 --- Star Schema and Snowflake Schema --- p.15Chapter 2.1.7 --- Data Cube --- p.17Chapter 2.1.8 --- ROLAP and MOLAP --- p.19Chapter 2.1.9 --- Query Optimization --- p.20Chapter 2.2 --- Materialized View --- p.22Chapter 2.2.1 --- What Is A Materialized View --- p.23Chapter 2.2.2 --- The Role of Materialized View in OLAP --- p.23Chapter 2.2.3 --- The Challenges in Exploiting Materialized View --- p.24Chapter 2.2.4 --- What Is View Maintenance --- p.25Chapter 2.3 --- View Selection --- p.27Chapter 2.3.1 --- Selection Strategy --- p.27Chapter 2.4 --- Summary --- p.32Chapter 3 --- Problem Definition --- p.33Chapter 3.1 --- View Selection Under Constraint --- p.33Chapter 3.2 --- The Lattice Framework for Maintenance Cost View Selection Prob- lem --- p.35Chapter 3.3 --- The Difficulties of Maintenance Cost View Selection Problem --- p.39Chapter 3.4 --- Summary --- p.41Chapter 4 --- What Difference Heuristics Make --- p.43Chapter 4.1 --- Motivation --- p.44Chapter 4.2 --- Example --- p.46Chapter 4.3 --- Existing Algorithms --- p.49Chapter 4.3.1 --- A*-Heuristic --- p.51Chapter 4.3.2 --- Inverted-Tree Greedy --- p.52Chapter 4.3.3 --- Two-Phase Greedy --- p.54Chapter 4.3.4 --- Integrated Greedy --- p.57Chapter 4.4 --- A Performance Study --- p.60Chapter 4.5 --- Summary --- p.68Chapter 5 --- Materialized View Selection as Constrained Evolutionary Opti- mization --- p.71Chapter 5.1 --- Motivation --- p.72Chapter 5.2 --- Evolutionary Algorithms --- p.73Chapter 5.2.1 --- Constraint Handling: Penalty v.s. Stochastic Ranking --- p.74Chapter 5.2.2 --- The New Stochastic Ranking Evolutionary Algorithm --- p.78Chapter 5.3 --- Experimental Studies --- p.81Chapter 5.3.1 --- Experimental Setup --- p.82Chapter 5.3.2 --- Experimental Results --- p.82Chapter 5.4 --- Summary --- p.89Chapter 6 --- Dynamic Materialized View Management Based On Predicates --- p.90Chapter 6.1 --- Motivation --- p.91Chapter 6.2 --- Examples --- p.93Chapter 6.3 --- Related Work: Static Prepartitioning-Based Materialized View Management --- p.96Chapter 6.4 --- A New Dynamic Predicate-based Partitioning Approach --- p.99Chapter 6.4.1 --- System Overview --- p.102Chapter 6.4.2 --- Partition Advisor --- p.103Chapter 6.4.3 --- View Manager --- p.104Chapter 6.5 --- A Performance Study --- p.108Chapter 6.5.1 --- Performance Metrics --- p.110Chapter 6.5.2 --- Feasibility Studies --- p.110Chapter 6.5.3 --- Query Locality --- p.112Chapter 6.5.4 --- The Effectiveness of Disk Size --- p.115Chapter 6.5.5 --- Scalability --- p.115Chapter 6.6 --- Summary --- p.116Chapter 7 --- Conclusions and Future Work --- p.118Bibliography --- p.12

    Adaptive P2P platform for data sharing

    Get PDF

    Qualitätsgetriebene Datenproduktionssteuerung in Echtzeit-Data-Warehouse-Systemen

    Get PDF
    Wurden früher Data-Warehouse-Systeme meist nur zur Datenanalyse für die Entscheidungsunterstützung des Managements eingesetzt, haben sie sich nunmehr zur zentralen Plattform für die integrierte Informationsversorgung eines Unternehmens entwickelt. Dies schließt vor allem auch die Einbindung des Data-Warehouses in operative Prozesse mit ein, für die zum einen sehr aktuelle Daten benötigt werden und zum anderen eine schnelle Anfrageverarbeitung gefordert wird. Daneben existieren jedoch weiterhin klassische Data-Warehouse-Anwendungen, welche hochqualitative und verfeinerte Daten benötigen. Die Anwender eines Data-Warehouse-Systems haben somit verschiedene und zum Teil konfligierende Anforderungen bezüglich der Datenaktualität, der Anfragelatenz und der Datenstabilität. In der vorliegenden Dissertation wurden Methoden und Techniken entwickelt, die diesen Konflikt adressieren und lösen. Die umfassende Zielstellung bestand darin, eine Echtzeit-Data-Warehouse-Architektur zu entwickeln, welche die Informationsversorgung in seiner ganzen Breite -- von historischen bis hin zu aktuellen Daten -- abdecken kann. Zunächst wurde ein Verfahren zur Ablaufplanung kontinuierlicher Aktualisierungsströme erarbeitet. Dieses berücksichtigt die widerstreitenden Anforderungen der Nutzer des Data-Warehouse-Systems und erzeugt bewiesenermaßen optimale Ablaufpläne. Im nächsten Schritt wurde die Ablaufplanung im Kontext mehrstufiger Datenproduktionsprozesse untersucht. Gegenstand der Analyse war insbesondere, unter welchen Bedingungen eine Ablaufplanung in Datenproduktionsprozessen gewinnbringend anwendbar ist. Zur Unterstützung der Analyse komplexer Data-Warehouse-Prozesse wurde eine Visualisierung der Entwicklung der Datenzustände, über die Produktionsprozesse hinweg, vorgeschlagen. Mit dieser steht ein Werkzeug zur Verfügung, mit dem explorativ Datenproduktionsprozesse auf ihr Optimierungspotenzial hin untersucht werden können. Das den operativen Datenänderungen unterworfene Echtzeit-Data-Warehouse-System führt in der Berichtsproduktion zu Inkonsistenzen. Daher wurde eine entkoppelte und für die Anwendung der Berichtsproduktion optimierte Datenschicht erarbeitet. Es wurde weiterhin ein Aggregationskonzept zur Beschleunigung der Anfrageverarbeitung entwickelt. Die Vollständigkeit der Berichtsanfragen wird durch spezielle Anfragetechniken garantiert. Es wurden zwei Data-Warehouse-Fallstudien großer Unternehmen vorgestellt sowie deren spezifische Herausforderungen analysiert. Die in dieser Dissertation entwickelten Konzepte wurden auf ihren Nutzen und ihre Anwendbarkeit in den Praxisszenarien hin überprüft.:1 Einleitung 1 2 Fallstudien 7 2.1 Fallstudie A: UBS AG . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 Unternehmen und Anwendungsdomäne . . . . . . . . . . . . 8 2.1.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.3 Besonderheiten und Herausforderungen . . . . . . . . . . . . 13 2.2 Fallstudie B: GfK Retail and Technology . . . . . . . . . . . . . . . . 15 2.2.1 Unternehmen und Anwendungsdomäne . . . . . . . . . . . . 15 2.2.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.3 Besonderheiten und Herausforderungen . . . . . . . . . . . . 20 3 Evolution der Data-Warehouse- Systeme und Anforderungsanalyse 23 3.1 Der Data-Warehouse-Begriff und Referenzarchitektur . . . . . . . . . 23 3.1.1 Definition des klassischen Data-Warehouse-Begriffs . . . . . . 23 3.1.2 Referenzarchitektur . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Situative Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2.1 Interaktion zwischen IT und Fachbereich . . . . . . . . . . . 31 3.2.2 Spreadmart-Lösungen . . . . . . . . . . . . . . . . . . . . . . 33 3.2.3 Analytische Mashups und dienstorientierte Architekturen . . 35 3.2.4 Werkzeuge und Methoden im Kostenvergleich . . . . . . . . . 40 3.3 Evolution der Data-Warehouse-Systeme . . . . . . . . . . . . . . . . 40 3.3.1 Nutzung von Data-Warehouse-Systemen . . . . . . . . . . . . 41 3.3.2 Entwicklungsprozess der Hardware- und DBMS-Architekturen 46 3.4 Architektur eines Echtzeit-Data-Warehouse . . . . . . . . . . . . . . 50 3.4.1 Der Echtzeit-Begriff im Data-Warehouse-Umfeld . . . . . . . 50 3.4.2 Architektur eines Echtzeit-Data-Warehouses . . . . . . . . . . 51 3.4.3 Systemmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5 Anforderungen an ein Echtzeit-Data-Warehouse . . . . . . . . . . . . 55 3.5.1 Maximierung der Datenaktualität . . . . . . . . . . . . . . . 55 3.5.2 Minimierung der Anfragelatenz . . . . . . . . . . . . . . . . . 56 3.5.3 Erhalt der Datenstabilität . . . . . . . . . . . . . . . . . . . . 57 4 Datenproduktionssteuerung in einstufigen Systemen 59 4.1 Qualitätskriterien und Systemmodell . . . . . . . . . . . . . . . . . . 59 4.1.1 Dienstqualitätskriterien . . . . . . . . . . . . . . . . . . . . . 60 4.1.2 Datenqualitätskriterien . . . . . . . . . . . . . . . . . . . . . 63 4.1.3 Multikriterielle Optimierung . . . . . . . . . . . . . . . . . . 64 4.1.4 Workload- und Systemmodell . . . . . . . . . . . . . . . . . . 66 4.2 Multikriterielle Ablaufplanung . . . . . . . . . . . . . . . . . . . . . 68 4.2.1 Pareto-effiziente Ablaufpläne . . . . . . . . . . . . . . . . . . 68 4.2.2 Abbildung auf das Rucksackproblem . . . . . . . . . . . . . . 71 4.2.3 Lösung mittels dynamischer Programmierung . . . . . . . . . 74 4.3 Dynamische Ablaufplanung zur Laufzeit . . . . . . . . . . . . . . . . 78 4.4 Selektionsbasierte Ausnahmebehandlung . . . . . . . . . . . . . . . . 81 4.5 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.5.1 Experimentierumgebung . . . . . . . . . . . . . . . . . . . . . 84 4.5.2 Leistungsvergleich und Adaptivität . . . . . . . . . . . . . . . 86 4.5.3 Laufzeit- und Speicherkomplexität . . . . . . . . . . . . . . . 87 4.5.4 Änderungsstabilität . . . . . . . . . . . . . . . . . . . . . . . 89 4.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5 Bewertung von Ladestrategien in mehrstufigen Datenproduktionsprozessen 5.1 Ablaufplanung in mehrstufigen Datenproduktionsprozessen . . . . . 96 5.1.1 Ladestrategien und Problemstellung . . . . . . . . . . . . . . 97 5.1.2 Evaluierung und Diskussion . . . . . . . . . . . . . . . . . . . 98 5.2 Visualisierung der Datenqualität in mehrstufigen Datenproduktionsprozessen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.2.1 Erfassung und Speicherung . . . . . . . . . . . . . . . . . . . 110 5.2.2 Visualisierung der Datenqualität . . . . . . . . . . . . . . . . 111 5.2.3 Prototypische Umsetzung . . . . . . . . . . . . . . . . . . . . 114 5.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6 Konsistente Datenanalyse in operativen Datenproduktionsprozessen 119 6.1 Der Reporting-Layer als Basis einer stabilen Berichtsproduktion . . 120 6.1.1 Stabilität durch Entkopplung . . . . . . . . . . . . . . . . . . 120 6.1.2 Vorberechnung von Basisaggregaten . . . . . . . . . . . . . . 121 6.1.3 Vollständigkeitsbestimmung und Nullwertsemantik . . . . . . 125 6.1.4 Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.1.5 Prozess der Anfrageverarbeitung mit Vollständigkeitsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6.1.6 Verwandte Arbeiten und Techniken . . . . . . . . . . . . . . . 127 6.1.7 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.2 Nullwertkomprimierung . . . . . . . . . . . . . . . . . . . . . . . . . 133 6.2.1 Einleitendes Beispiel und Vorbetrachtungen . . . . . . . . . . 134 6.2.2 Nullwertkomprimierung . . . . . . . . . . . . . . . . . . . . . 136 6.2.3 Anfrageverarbeitung auf nullwertkomprimierten Daten . . . . 143 6.2.4 Verwandte Arbeiten und Techniken . . . . . . . . . . . . . . . 146 6.2.5 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 6.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 7 Zusammenfassung und Ausblick 157 Literaturverzeichnis 161 Online-Quellenverzeichnis 169 Abbildungsverzeichnis 17