16 research outputs found
Business Intelligence on Non-Conventional Data
The revolution in digital communications witnessed over the last decade had a significant impact on the world of Business Intelligence (BI). In the big data era, the amount and diversity of data that can be collected and analyzed for the decision-making process transcends the restricted and structured set of internal data that BI systems are conventionally limited to. This thesis investigates the unique challenges imposed by three specific categories of non-conventional data: social data, linked data and schemaless data. Social data comprises the user-generated contents published through websites and social media, which can provide a fresh and timely perception about people’s tastes and opinions. In Social BI (SBI), the analysis focuses on topics, meant as specific concepts of interest within the subject area. In this context, this thesis proposes meta-star, an alternative strategy to the traditional star-schema for modeling hierarchies of topics to enable OLAP analyses. The thesis also presents an architectural framework of a real SBI project and a cross-disciplinary benchmark for SBI. Linked data employ the Resource Description Framework (RDF) to provide a public network of interlinked, structured, cross-domain knowledge. In this context, this thesis proposes an interactive and collaborative approach to build aggregation hierarchies from linked data. Schemaless data refers to the storage of data in NoSQL databases that do not force a predefined schema, but let database instances embed their own local schemata. In this context, this thesis proposes an approach to determine the schema profile of a document-based database; the goal is to facilitate users in a schema-on-read analysis process by understanding the rules that drove the usage of the different schemata. A final and complementary contribution of this thesis is an innovative technique in the field of recommendation systems to overcome user disorientation in the analysis of a large and heterogeneous wealth of data
Metadata-driven data integration
Cotutela: Universitat Politècnica de Catalunya i Université Libre de Bruxelles, IT4BI-DC programme for the joint Ph.D. degree in computer science.Data has an undoubtable impact on society. Storing and processing large amounts of available data is currently one of the key success factors for an organization. Nonetheless, we are recently witnessing a change represented by huge and heterogeneous amounts of data. Indeed, 90% of the data in the world has been generated in the last two years. Thus, in order to carry on these data exploitation tasks, organizations must first perform data integration combining data from multiple sources to yield a unified view over them. Yet, the integration of massive and heterogeneous amounts of data requires revisiting the traditional integration assumptions to cope with the new requirements posed by such data-intensive settings.
This PhD thesis aims to provide a novel framework for data integration in the context of data-intensive ecosystems, which entails dealing with vast amounts of heterogeneous data, from multiple sources and in their original format. To this end, we advocate for an integration process consisting of sequential activities governed by a semantic layer, implemented via a shared repository of metadata. From an stewardship perspective, this activities are the deployment of a data integration architecture, followed by the population of such shared metadata. From a data consumption perspective, the activities are virtual and materialized data integration, the former an exploratory task and the latter a consolidation one. Following the proposed framework, we focus on providing contributions to each of the four activities.
We begin proposing a software reference architecture for semantic-aware data-intensive systems. Such architecture serves as a blueprint to deploy a stack of systems, its core being the metadata repository. Next, we propose a graph-based metadata model as formalism for metadata management. We focus on supporting schema and data source evolution, a predominant factor on the heterogeneous sources at hand. For virtual integration, we propose query rewriting algorithms that rely on the previously proposed metadata model. We additionally consider semantic heterogeneities in the data sources, which the proposed algorithms are capable of automatically resolving. Finally, the thesis focuses on the materialized integration activity, and to this end, proposes a method to select intermediate results to materialize in data-intensive flows. Overall, the results of this thesis serve as contribution to the field of data integration in contemporary data-intensive ecosystems.Les dades tenen un impacte indubtable en la societat. La capacitat d’emmagatzemar i processar grans quantitats de dades disponibles és avui en dia un dels factors claus per l’èxit d’una organització. No obstant, avui en dia estem presenciant un canvi representat per grans volums de dades heterogenis. En efecte, el 90% de les dades mundials han sigut generades en els últims dos anys. Per tal de dur a terme aquestes tasques d’explotació de dades, les organitzacions primer han de realitzar una integració de les dades, combinantles a partir de diferents fonts amb l’objectiu de tenir-ne una vista unificada d’elles. Per això, aquest fet requereix reconsiderar les assumpcions tradicionals en integració amb l’objectiu de lidiar amb els requisits imposats per aquests sistemes de tractament massiu de dades.
Aquesta tesi doctoral té com a objectiu proporcional un nou marc de treball per a la integració de dades en el context de sistemes de tractament massiu de dades, el qual implica lidiar amb una gran quantitat de dades heterogènies, provinents de múltiples fonts i en el seu format original. Per això, proposem un procés d’integració compost d’una seqüència d’activitats governades per una capa semà ntica, la qual és implementada a partir d’un repositori de metadades compartides. Des d’una perspectiva d’administració, aquestes activitats són el desplegament d’una arquitectura d’integració de dades, seguit per la inserció d’aquestes metadades compartides. Des d’una perspectiva de consum de dades, les activitats són la integració virtual i materialització de les dades, la primera sent una tasca exploratòria i la segona una de consolidació.
Seguint el marc de treball proposat, ens centrem en proporcionar contribucions a cada una de les quatre activitats. La tesi inicia proposant una arquitectura de referència de software per a sistemes de tractament massiu de dades amb coneixement semà ntic. Aquesta arquitectura serveix com a planell per a desplegar un conjunt de sistemes, sent el repositori de metadades al seu nucli.
Posteriorment, proposem un model basat en grafs per a la gestió de metadades. Concretament, ens centrem en donar suport a l’evolució d’esquemes i fonts de dades, un dels factors predominants en les fonts de dades heterogènies considerades. Per a l’integració virtual, proposem algorismes de rescriptura de consultes que usen el model de metadades previament proposat. Com a afegitó, considerem heterogeneïtat semà ntica en les fonts de dades, les quals els algorismes de rescriptura poden resoldre automà ticament. Finalment, la tesi es centra en l’activitat d’integració materialitzada. Per això proposa un mètode per a seleccionar els resultats intermedis a materialitzar un fluxes
de tractament intensiu de dades. En general, els resultats d’aquesta tesi serveixen com a contribució al camp d’integració de dades en els ecosistemes de tractament massiu de dades contemporanisLes données ont un impact indéniable sur la société. Le stockage et le traitement de grandes quantités de données disponibles constituent actuellement l’un des facteurs clés de succès d’une entreprise. Néanmoins, nous assistons récemment à un changement représenté par des quantités de données massives et hétérogènes. En effet, 90% des données dans le monde ont été générées au cours des deux dernières années. Ainsi, pour mener à bien ces tâches d’exploitation des données, les organisations doivent d’abord réaliser une intégration des données en combinant des données provenant de sources multiples pour obtenir une vue unifiée de ces dernières. Cependant, l’intégration
de quantités de données massives et hétérogènes nécessite de revoir les hypothèses d’intégration traditionnelles afin de faire face aux nouvelles exigences posées par les systèmes de gestion de données massives.
Cette thèse de doctorat a pour objectif de fournir un nouveau cadre pour l’intégration de données dans le contexte d’écosystèmes à forte intensité de données, ce qui implique de traiter de grandes quantités de données hétérogènes, provenant de sources multiples et dans leur format d’origine. À cette fin, nous préconisons un processus d’intégration constitué d’activités séquentielles régies par une couche sémantique, mise en oeuvre via un dépôt partagé de métadonnées. Du point de vue de la gestion, ces activités consistent à déployer une architecture d’intégration de données, suivies de la population de métadonnées partagées. Du point de vue de la consommation de données, les activités sont l’intégration de données virtuelle et matérialisée, la première étant une tâche exploratoire et la seconde, une tâche de consolidation.
Conformément au cadre proposé, nous nous attachons à fournir des contributions à chacune des quatre activités. Nous commençons par proposer une architecture logicielle de référence pour les systèmes de gestion de données massives et à connaissance sémantique. Une telle architecture
consiste en un schéma directeur pour le déploiement d’une pile de systèmes, le dépôt de métadonnées étant son composant principal. Ensuite, nous proposons un modèle de métadonnées basé sur des graphes comme formalisme pour la gestion des métadonnées. Nous mettons l’accent sur la prise en charge de l’évolution des schémas et des sources de données, facteur prédominant des sources hétérogènes sous-jacentes. Pour l’intégration virtuelle, nous proposons des algorithmes de réécriture de requêtes qui s’appuient sur le modèle de métadonnées proposé précédemment. Nous considérons en outre les hétérogénéités sémantiques dans les sources de données, que les
algorithmes proposés sont capables de résoudre automatiquement. Enfin, la thèse se concentre sur l’activité d’intégration matérialisée et propose à cette fin une méthode de sélection de résultats intermédiaires à matérialiser dans des flux des données massives. Dans l’ensemble, les résultats de cette thèse constituent une contribution au domaine de l’intégration des données dans les écosystèmes contemporains de gestion de données massivesPostprint (published version
On Pattern Mining in Graph Data to Support Decision-Making
In recent years graph data models became increasingly important in both research and industry. Their core is a generic data structure of things (vertices) and connections among those things (edges). Rich graph models such as the property graph model promise an extraordinary analytical power because relationships can be evaluated without knowledge about a domain-specific database schema. This dissertation studies the usage of graph models for data integration and data mining of business data. Although a typical company's business data implicitly describes a graph it is usually stored in multiple relational databases. Therefore, we propose the first semi-automated approach to transform data from multiple relational databases into a single graph whose vertices represent domain objects and whose edges represent their mutual relationships. This transformation is the base of our conceptual framework BIIIG (Business Intelligence with Integrated Instance Graphs). We further proposed a graph-based approach to data integration. The process is executed after the transformation. In established data mining approaches interrelated input data is mostly represented by tuples of measure values and dimension values. In the context of graphs these values must be attached to the graph structure and aggregated measure values are graph attributes. Since the latter was not supported by any existing model, we proposed the use of collections of property graphs. They act as data structure of the novel Extended Property Graph Model (EPGM). The model supports vertices and edges that may appear in different graphs as well as graph properties. Further on, we proposed some operators that benefit from this data structure, for example, graph-based aggregation of measure values. A primitive operation of graph pattern mining is frequent subgraph mining (FSM). However, existing algorithms provided no support for directed multigraphs. We extended the popular gSpan algorithm to overcome this limitation. Some patterns might not be frequent while their generalizations are. Generalized graph patterns can be mined by attaching vertices to taxonomies. We proposed a novel approach to Generalized Multidimensional Frequent Subgraph Mining (GM-FSM), in particular the first solution to generalized FSM that supports not only directed multigraphs but also multiple dimensional taxonomies. In scenarios that compare patterns of different categories, e.g., fraud or not, FSM is not sufficient since pattern frequencies may differ by category. Further on, determining all pattern frequencies without frequency pruning is not an option due to the computational complexity of FSM. Thus, we developed an FSM extension to extract patterns that are characteristic for a specific category according to a user-defined interestingness function called Characteristic Subgraph Mining (CSM). Parts of this work were done in the context of GRADOOP, a framework for distributed graph analytics. To make the primitive operation of frequent subgraph mining available to this framework, we developed Distributed In-Memory gSpan (DIMSpan), a frequent subgraph miner that is tailored to the characteristics of shared-nothing clusters and distributed dataflow systems. Finally, the results of use case evaluations in cooperation with a large scale enterprise will be presented. This includes a report of practical experiences gained in implementation and application of the proposed algorithms
Qualitätsgetriebene Datenproduktionssteuerung in Echtzeit-Data-Warehouse-Systemen
Wurden früher Data-Warehouse-Systeme meist nur zur Datenanalyse für die Entscheidungsunterstützung des Managements eingesetzt, haben sie sich nunmehr zur zentralen Plattform für die integrierte Informationsversorgung eines Unternehmens entwickelt. Dies schließt vor allem auch die Einbindung des Data-Warehouses in operative Prozesse mit ein, für die zum einen sehr aktuelle Daten benötigt werden und zum anderen eine schnelle Anfrageverarbeitung gefordert wird. Daneben existieren jedoch weiterhin klassische Data-Warehouse-Anwendungen, welche hochqualitative und verfeinerte Daten benötigen. Die Anwender eines Data-Warehouse-Systems haben somit verschiedene und zum Teil konfligierende Anforderungen bezüglich der Datenaktualität, der Anfragelatenz und der Datenstabilität. In der vorliegenden Dissertation wurden Methoden und Techniken entwickelt, die diesen Konflikt adressieren und lösen. Die umfassende Zielstellung bestand darin, eine Echtzeit-Data-Warehouse-Architektur zu entwickeln, welche die Informationsversorgung in seiner ganzen Breite -- von historischen bis hin zu aktuellen Daten -- abdecken kann.
Zunächst wurde ein Verfahren zur Ablaufplanung kontinuierlicher Aktualisierungsströme erarbeitet. Dieses berücksichtigt die widerstreitenden Anforderungen der Nutzer des Data-Warehouse-Systems und erzeugt bewiesenermaßen optimale Ablaufpläne. Im nächsten Schritt wurde die Ablaufplanung im Kontext mehrstufiger Datenproduktionsprozesse untersucht. Gegenstand der Analyse war insbesondere, unter welchen Bedingungen eine Ablaufplanung in Datenproduktionsprozessen gewinnbringend anwendbar ist.
Zur Unterstützung der Analyse komplexer Data-Warehouse-Prozesse wurde eine Visualisierung der Entwicklung der Datenzustände, über die Produktionsprozesse hinweg, vorgeschlagen. Mit dieser steht ein Werkzeug zur Verfügung, mit dem explorativ Datenproduktionsprozesse auf ihr Optimierungspotenzial hin untersucht werden können.
Das den operativen Datenänderungen unterworfene Echtzeit-Data-Warehouse-System führt in der Berichtsproduktion zu Inkonsistenzen. Daher wurde eine entkoppelte und für die Anwendung der Berichtsproduktion optimierte Datenschicht erarbeitet. Es wurde weiterhin ein Aggregationskonzept zur Beschleunigung der Anfrageverarbeitung entwickelt. Die Vollständigkeit der Berichtsanfragen wird durch spezielle Anfragetechniken garantiert.
Es wurden zwei Data-Warehouse-Fallstudien groĂźer Unternehmen vorgestellt sowie deren spezifische Herausforderungen analysiert. Die in dieser Dissertation entwickelten Konzepte wurden auf ihren Nutzen und ihre Anwendbarkeit in den Praxisszenarien hin ĂĽberprĂĽft.:1 Einleitung 1
2 Fallstudien 7
2.1 Fallstudie A: UBS AG . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Unternehmen und Anwendungsdomäne . . . . . . . . . . . . 8
2.1.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.3 Besonderheiten und Herausforderungen . . . . . . . . . . . . 13
2.2 Fallstudie B: GfK Retail and Technology . . . . . . . . . . . . . . . . 15
2.2.1 Unternehmen und Anwendungsdomäne . . . . . . . . . . . . 15
2.2.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3 Besonderheiten und Herausforderungen . . . . . . . . . . . . 20
3 Evolution der Data-Warehouse- Systeme und Anforderungsanalyse 23
3.1 Der Data-Warehouse-Begriff und Referenzarchitektur . . . . . . . . . 23
3.1.1 Definition des klassischen Data-Warehouse-Begriffs . . . . . . 23
3.1.2 Referenzarchitektur . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Situative Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Interaktion zwischen IT und Fachbereich . . . . . . . . . . . 31
3.2.2 Spreadmart-Lösungen . . . . . . . . . . . . . . . . . . . . . . 33
3.2.3 Analytische Mashups und dienstorientierte Architekturen . . 35
3.2.4 Werkzeuge und Methoden im Kostenvergleich . . . . . . . . . 40
3.3 Evolution der Data-Warehouse-Systeme . . . . . . . . . . . . . . . . 40
3.3.1 Nutzung von Data-Warehouse-Systemen . . . . . . . . . . . . 41
3.3.2 Entwicklungsprozess der Hardware- und DBMS-Architekturen 46
3.4 Architektur eines Echtzeit-Data-Warehouse . . . . . . . . . . . . . . 50
3.4.1 Der Echtzeit-Begriff im Data-Warehouse-Umfeld . . . . . . . 50
3.4.2 Architektur eines Echtzeit-Data-Warehouses . . . . . . . . . . 51
3.4.3 Systemmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 Anforderungen an ein Echtzeit-Data-Warehouse . . . . . . . . . . . . 55
3.5.1 Maximierung der Datenaktualität . . . . . . . . . . . . . . . 55
3.5.2 Minimierung der Anfragelatenz . . . . . . . . . . . . . . . . . 56
3.5.3 Erhalt der Datenstabilität . . . . . . . . . . . . . . . . . . . . 57
4 Datenproduktionssteuerung in einstufigen Systemen 59
4.1 Qualitätskriterien und Systemmodell . . . . . . . . . . . . . . . . . . 59
4.1.1 Dienstqualitätskriterien . . . . . . . . . . . . . . . . . . . . . 60
4.1.2 Datenqualitätskriterien . . . . . . . . . . . . . . . . . . . . . 63
4.1.3 Multikriterielle Optimierung . . . . . . . . . . . . . . . . . . 64
4.1.4 Workload- und Systemmodell . . . . . . . . . . . . . . . . . . 66
4.2 Multikriterielle Ablaufplanung . . . . . . . . . . . . . . . . . . . . . 68
4.2.1 Pareto-effiziente Ablaufpläne . . . . . . . . . . . . . . . . . . 68
4.2.2 Abbildung auf das Rucksackproblem . . . . . . . . . . . . . . 71
4.2.3 Lösung mittels dynamischer Programmierung . . . . . . . . . 74
4.3 Dynamische Ablaufplanung zur Laufzeit . . . . . . . . . . . . . . . . 78
4.4 Selektionsbasierte Ausnahmebehandlung . . . . . . . . . . . . . . . . 81
4.5 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.5.1 Experimentierumgebung . . . . . . . . . . . . . . . . . . . . . 84
4.5.2 Leistungsvergleich und Adaptivität . . . . . . . . . . . . . . . 86
4.5.3 Laufzeit- und Speicherkomplexität . . . . . . . . . . . . . . . 87
4.5.4 Änderungsstabilität . . . . . . . . . . . . . . . . . . . . . . . 89
4.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5 Bewertung von Ladestrategien in mehrstufigen Datenproduktionsprozessen
5.1 Ablaufplanung in mehrstufigen Datenproduktionsprozessen . . . . . 96
5.1.1 Ladestrategien und Problemstellung . . . . . . . . . . . . . . 97
5.1.2 Evaluierung und Diskussion . . . . . . . . . . . . . . . . . . . 98
5.2 Visualisierung der Datenqualität in mehrstufigen Datenproduktionsprozessen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.2.1 Erfassung und Speicherung . . . . . . . . . . . . . . . . . . . 110
5.2.2 Visualisierung der Datenqualität . . . . . . . . . . . . . . . . 111
5.2.3 Prototypische Umsetzung . . . . . . . . . . . . . . . . . . . . 114
5.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6 Konsistente Datenanalyse in operativen Datenproduktionsprozessen 119
6.1 Der Reporting-Layer als Basis einer stabilen Berichtsproduktion . . 120
6.1.1 Stabilität durch Entkopplung . . . . . . . . . . . . . . . . . . 120
6.1.2 Vorberechnung von Basisaggregaten . . . . . . . . . . . . . . 121
6.1.3 Vollständigkeitsbestimmung und Nullwertsemantik . . . . . . 125
6.1.4 Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.1.5 Prozess der Anfrageverarbeitung mit Vollständigkeitsbestimmung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.1.6 Verwandte Arbeiten und Techniken . . . . . . . . . . . . . . . 127
6.1.7 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2 Nullwertkomprimierung . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.2.1 Einleitendes Beispiel und Vorbetrachtungen . . . . . . . . . . 134
6.2.2 Nullwertkomprimierung . . . . . . . . . . . . . . . . . . . . . 136
6.2.3 Anfrageverarbeitung auf nullwertkomprimierten Daten . . . . 143
6.2.4 Verwandte Arbeiten und Techniken . . . . . . . . . . . . . . . 146
6.2.5 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
7 Zusammenfassung und Ausblick 157
Literaturverzeichnis 161
Online-Quellenverzeichnis 169
Abbildungsverzeichnis 17
Explanation of Exceptional Values in Multi-dimensional Business Databases
“How can the functionality of multi-dimensional business databases be extended with
diagnostic capabilities to support managerial decision-making?” This question states
the main research problem addressed in this thesis. Before giving an answer, the question
first requires clarification and delineation. In this chapter, the research question
is placed briefly into context, both regarding academic and business relevance. This
leads to the formulation of three specific research questions. Subsequently, a section
is dedicated to each specific research question. An outline of this thesis concludes the
chapter
An evaluation of the challenges of Multilingualism in Data Warehouse development
In this paper we discuss Business Intelligence and define what is meant by support for Multilingualism in a Business Intelligence reporting context. We identify support for Multilingualism as a challenging issue which has implications for data warehouse design and reporting performance. Data warehouses are a core component of most Business Intelligence systems and the star schema is the approach most widely used to develop data warehouses and dimensional Data Marts. We discuss the way in which Multilingualism can be supported in the Star Schema and identify that current approaches have serious limitations which include data redundancy and data manipulation, performance and maintenance issues. We propose a new approach to enable the optimal application of multilingualism in Business Intelligence. The proposed approach was found to produce satisfactory results when used in a proof-of-concept environment. Future work will include testing the approach in an enterprise environmen
Recommended from our members
A Dementia Care Mapping (DCM) data warehouse as a resource for improving the quality of dementia care. Exploring requirements for secondary use of DCM data using a user-driven approach and discussing their implications for a data warehouse
The secondary use of Dementia Care Mapping (DCM) data, if that data were
held in a data warehouse, could contribute to global efforts in monitoring and
improving dementia care quality. This qualitative study identifies
requirements for the secondary use of DCM data within a data warehouse
using a user-driven approach. The thesis critically analyses various technical
methodologies and then argues the use and further demonstrates the
applicability of a modified grounded theory as a user-driven methodology for
a data warehouse. Interviews were conducted with 29 DCM researchers,
trainers and practitioners in three phases. 19 interviews were face to face
with the others on Skype and telephone with an average length of individual
interview 45-60 minutes. The interview data was systematically analysed
using open, axial and selective coding techniques and constant comparison
methods.
The study data highlighted benchmarking, mappers’ support and research as
three perceived potential secondary uses of DCM data within a data
warehouse. DCM researchers identified concerns regarding the quality and
security of DCM data for secondary uses, which led to identifying the
requirements for additional provenance, ethical and contextual data to be
included in a warehouse alongside DCM data to meet requirements for
secondary uses of this data for research. The study data was also used to
extrapolate three main factors such as an individual mapper, the organization
and an electronic data management that can influence the quality and
availability of DCM data for secondary uses. The study makes further
recommendations for designing a future DCM data warehouse
Big Data Computing for Geospatial Applications
The convergence of big data and geospatial computing has brought forth challenges and opportunities to Geographic Information Science with regard to geospatial data management, processing, analysis, modeling, and visualization. This book highlights recent advancements in integrating new computing approaches, spatial methods, and data management strategies to tackle geospatial big data challenges and meanwhile demonstrates opportunities for using big data for geospatial applications. Crucial to the advancements highlighted in this book is the integration of computational thinking and spatial thinking and the transformation of abstract ideas and models to concrete data structures and algorithms