88 research outputs found
A relational algebra approach to ETL modeling
The MAP-i Doctoral Programme in Informatics, of the Universities of Minho, Aveiro and PortoInformation Technology has been one of drivers of the revolution that currently is happening in
today’s management decisions in most organizations. The amount of data gathered and processed
through the use of computing devices has been growing every day, providing a valuable source of
information for decision makers that are managing every type of organization, public or private.
Gathering the right amount of data in a centralized and unified repository like a data warehouse is
similar to build the foundations for a system that will act has a base to support decision making
processes requiring factual information. Nevertheless, the complexity of building such a repository
is very challenging, as well as developing all the components of a data warehousing system. One
of the most critical components of a data warehousing system is the Extract-Transform-Load
component, ETL for short, which is responsible for gathering data from information sources, clean,
transform and conform it in order to store it in a data warehouse. Several designing methodologies
for the ETL components have been presented in the last few years with very little impact in ETL
commercial tools. Basically, this was due to an existing gap between the conceptual design of an
ETL system and its correspondent physical implementation. The methodologies proposed ranged
from new approaches, with novel notation and diagrams, to the adoption and expansion of current
standard modeling notations, like UML or BPMN. However, all these proposals do not contain
enough detail to be translated automatically into a specific execution platform. The use of a
standard well-known notation like Relational Algebra might bridge the gap between the conceptual
design and the physical design of an ETL component, mainly due to its formal approach that is
based on a limited set of operators and also due to its functional characteristics like being a
procedural language operating over data stored in relational format. The abstraction that Relational
Algebra provides over the technological infrastructure might also be an advantage for uncommon execution platforms, like computing grids that provide an exceptional amount of processing power
that is very critical for ETL systems. Additionally, partitioning data and task distribution over
computing nodes works quite well with a Relational Algebra approach. An extensive research over
the use of Relational Algebra in the ETL context was conducted to validate its usage. To
complement this, a set of Relational Algebra patterns were also developed to support the most
common ETL tasks, like changing data capture, data quality enforcement, data conciliation and
integration, slowly changing dimensions and surrogate key pipelining. All these patterns provide a
formal approach to the referred ETL tasks by specifying all the operations needed to accomplish
them in a series of Relational Algebra operations. To evaluate the feasibility of the work done in
this thesis, we used a real ETL application scenario for the extraction of data in two different social
networks operational systems, storing hashtag usage information in a specific data mart. The
ability to analyze trends in social network usage is a hot topic in today’s media and information
coverage. A complete design of the ETL component using the patterns developed previously is also
provided, as well as a critical evaluation of its usage.As Tecnologias da Informação têm sido um dos principais catalisadores na revolução que se assiste
nas tomadas de decisão na maioria das organizações. A quantidade de dados que são angariados e
processados através do uso de dispositivos computacionais tem crescido diariamente, tornando-se
uma fonte de informação valiosa para os decisores que gerem todo o tipo de organizações,
públicas ou privadas. Concentrar o conjunto ideal de dados num repositório centralizado e
unificado, como um data warehouse, é essencial para a construção de um sistema que servirá de
suporte aos processos de tomada de decisão que necessitam de factos. No entanto, a
complexidade associada à construção deste repositório e de todos os componentes que
caracterizam um sistema de data warehousing é extremamente desafiante. Um dos componentes
mais críticos de um sistema de data warehousing é a componente de Extração-Transformação-
Alimentação (ETL) que lida com a extração de dados das fontes, que limpa, transforma e concilia
os dados com vista à sua integração no data warehouse. Nos últimos anos têm sido apresentadas
várias metodologias de desenho da componente de ETL, no entanto estas não têm sido adotadas
pelas ferramentas comerciais de ETL principalmente devido ao diferencial existente entre o
desenho concetual e as plataformas físicas de execução. As metodologias de desenho propostas
variam desde propostas que assentam em novas notações e diagramas até às propostas que usam
notações standard como a notação UML e BPMN que depois são complementadas com conceitos
de ETL. Contudo, estas propostas de modelação concetual não contêm informações detalhadas
que permitam uma tradução automática para plataformas de execução. A utilização de uma
linguagem standard e reconhecida como a linguagem de Álgebra Relacional pode servir como
complemento e colmatar o diferencial existente entre o desenho concetual e o desenho físico da
componente de ETL, principalmente devido ao facto de esta linguagem assentar numa abordagem procedimental com um conjunto limitado de operadores que atuam sobre dados armazenados num
formato relacional. A abstração providenciada pela Álgebra Relacional relativamente às plataformas
de execução pode eventualmente ser uma vantagem tendo em vista a utilização de plataformas
menos comuns, como por exemplo grids computacionais. Este tipo de arquiteturas disponibiliza por
norma um grande poder computacional o que é essencial para um sistema de ETL. O
particionamento e distribuição dos dados e tarefas pelos nodos computacionais conjugam
relativamente bem com a abordagem da Álgebra Relacional. No decorrer deste trabalho foi
efetuado um estudo extensivo às propriedades da AR num contexto de ETL com vista à avaliação
da sua usabilidade. Como complemento, foram desenhados um conjunto de padrões de AR que
suportam as atividades mais comuns de ETL como por exemplo changing data capture, data
quality enforcement, data conciliation and integration, slowly changing dimensions e surrogate key
pipelining. Estes padrões formalizam este conjunto de atividades ETL, especificando numa série de
operações de Álgebra Relacional quais os passos necessários à sua execução. Com vista à
avaliação da sustentabilidade da proposta presente neste trabalho, foi utilizado um cenário real de
ETL em que os dados fontes pertencem a duas redes sociais e os dados armazenados no data
mart identificam a utilização de hashtags por parte dos seus utilizadores. De salientar que a
deteção de tendências e de assuntos que estão na ordem do dia nas redes sociais é de vital
importância para as empresas noticiosas e para as próprias redes sociais. Por fim, é apresentado o
desenho completo do sistema de ETL para o cenário escolhido, utilizando os padrões desenvolvidos
neste trabalho, avaliando e criticando a sua utilização
A unified view of data-intensive flows in business intelligence systems : a survey
Data-intensive flows are central processes in today’s business intelligence (BI) systems, deploying different technologies to deliver data, from a multitude of data sources, in user-preferred and analysis-ready formats. To meet complex requirements of next generation BI systems, we often need an effective combination of the traditionally batched extract-transform-load (ETL) processes that populate a data warehouse (DW) from integrated data sources, and more real-time and operational data flows that integrate source data at runtime. Both academia and industry thus must have a clear understanding of the foundations of data-intensive flows and the challenges of moving towards next generation BI environments. In this paper we present a survey of today’s research on data-intensive flows and the related fundamental fields of database theory. The study is based on a proposed set of dimensions describing the important challenges of data-intensive flows in the next generation BI setting. As a result of this survey, we envision an architecture of a system for managing the lifecycle of data-intensive flows. The results further provide a comprehensive understanding of data-intensive flows, recognizing challenges that still are to be addressed, and how the current solutions can be applied for addressing these challenges.Peer ReviewedPostprint (author's final draft
Implementação de Operações de Álgebra Relacional em JAVA sobre dados em XML
Um Sistema de Data Warehousing (SDW) armazena dados de uma forma integrada e consistente, o
que o torna num repositório de dados ideal para o apoio aos vários tipos de decisão existentes numa
organização. No entanto, para manter este repositório devidamente actualizado é necessário aceder a
um conjunto variado de sistemas fontes, transformar a informação que deles é extraída, e de acordo
com os requisitos do negócio e caraterísticas do modelo de armazenamento de dados de um SDW,
proceder à sua adequada alimentação. Estas tarefas, geralmente designadas por Extracção,
Transformação e Alimentação, são normalmente complexas e requerem uma grande quantidade de
recursos computacionais operando numa janela temporal limitada. O objectivo desta dissertação passa
por apresentar uma abordagem não convencional para a execução destas tarefas, em ambientes de
execução variados. É apresentada uma proposta de modelação lógica de um processo de ETL baseado
em Álgebra Relacional, de modo a implementar um modelo independentemente da plataforma de
execução, permitindo o seu posterior mapeamento em primitivas de programação, utilizando a
notação Business Process Model and Notation (BPMN) como base de modelação gráfica. É
apresentado um exemplo de uma infraestrutura que permite o aproveitamento do poder computacional
existente numa organização, através da utilização de uma GRID computacional, tendo como suporte o
standard de representação de dados presente na linguagem XML e a heterogeneidade de execução da
linguagem Java
Data warehouse and business intelligence application development for improved decision-making
Mestrado Bolonha em Data Analytics for BusinessIn the last few years, data volume has grown tremendously, and so has the importance
of its analysis, given the potential knowledge emerging from the information it provides.
Business Intelligence (BI) projects are getting a larger portion of enterprises’ IT budgets,
as they allow the improvement of decision-making and enhanced value creation (Farrokhi
& Pokorádi, 2012).
This Master’s Final Work describes the internship at DNS.PT Association, where a
Data Warehouse and a BI application were developed for this organization. DNS.PT
Association, referred to as .PT, is a non-profit association responsible for Internet domain
management, maintenance, and registration under the TLD .pt, that is, the top-level
domain corresponding to Portugal.
This report details, along with a theoretical background, the development of a Data
Warehouse, with all its steps, including the ETL – Extract, Transform and Load – process.
Subsequently, a BI visualization tool is used for the creation of dashboards to provide a
better analysis of the data.
Given the importance of documentation in any IS project, a brief overview of the Data
Management and Governance Model is presented.Nos últimos anos, o volume de dados tem aumentado substancialmente, assim como
a importância da sua análise, dado o conhecimento que surge da informação que
proporciona. As empresas têm aplicado cada vez mais do seu orçamento em TI, em
projetos de Business Intelligence (BI), sendo que permitem uma melhor tomada de
decisão e maior criação de valor (Farrokhi & Pokorádi, 2012).
Este Trabalho Final de Mestrado descreve o estágio na Associação DNS.PT, onde
uma Data Warehouse e uma aplicação em BI foram desenvolvidos para a organização. A
Associação DNS.PT, abreviadamente designada por .PT, é uma associação sem fins
lucrativos responsável pela gestão, manutenção e registo de domínios de Internet sob o
TLD .pt, ou seja, o domínio de topo correspondente a Portugal.
Desta forma, este relatório explica, acompanhado de um contexto teórico, a
implementação de uma Data Warehouse e o seu processo de ETL – Extract, Transform
and Load. Para além disso, uma ferramenta de visualização é utilizada para a criação de
dashboards, de forma a obter uma melhorar análise dos dados.
Por fim, devido à grande importância de documentação em qualquer projeto de SI é
apresentada uma breve descrição do Modelo de Gestão e Governação de Dados.info:eu-repo/semantics/publishedVersio
Recommended from our members
Exploiting a perdurantist foundational ontology and graph database for semantic data integration
This thesis was submitted for the degree of Doctor of Philosophy and awarded by Brunel University London.The view of reality that is inherent to perdurantist philosophical ontologies, often termed four dimensional (4D) ontologies, has not been widely adopted within the mainstream of information system design practice. However, as the closed world of enterprise systems is opened to Internet scale Semantic Web and Open Data information sources, there is a need to better understand the semantics of both internal and external data and how they can be integrated. Philosophical foundational ontologies can help establish this understanding and there is, therefore, an emerging need to research how they can be applied to the problem of semantic data integration. Therefore, a prime objective of this research was to develop a framework through which to apply a 4D foundational ontology and a graph database to the problem of semantic data integration, and to assess the effectiveness of the approach. The research employed design science, a methodology which is applicable to undertaking research within information systems as it encompasses methods through which the research can be undertaken and the resultant artefacts evaluated. This methodology has a number of discrete stages: problem awareness; a core design-build-evaluate iterative cycle through which the research is conducted; and a conclusion stage. The design science research was conducted through the development of a number of artefacts, the prime being the 4D-Semantic Extract Load (4D-SETL) framework. The effectiveness of the framework was assessed by applying it to semantically interpret and integrate a number of large scale datasets and to instantiate a prototype graph database warehouse to persist the resultant ontology. A series of technical experiments confirmed that directly reflecting the model patterns of 4D ontology within a prototype data warehouse proved an effective means of both structuring and semantically integrating complex datasets and that the artefacts produced by 4D-SETL could function at scale. Through illustrative scenario, the effectiveness of the approach is described in relation to the ability of the framework to address a number of weaknesses in current approaches. Furthermore the major advantages of the 4D-SETL are elaborated; which include ability of the framework is to combine foundational, domain and instance level ontological models in a single coherent system that dispensed with much of the translation normally undertaken between conceptual, logical and physical data models. Additionally, adopting a perdurantist realist foundational ontology provided a clear means of establishing and maintaining the identity of physical objects as their constituent temporal and spatial parts unfold over the course of tim
Flexible Integration and Efficient Analysis of Multidimensional Datasets from the Web
If numeric data from the Web are brought together, natural scientists can compare climate measurements with estimations, financial analysts can evaluate companies based on balance sheets and daily stock market values, and citizens can explore the GDP per capita from several data sources. However, heterogeneities and size of data remain a problem. This work presents methods to query a uniform view - the Global Cube - of available datasets from the Web and builds on Linked Data query approaches
BPMN4sML: A BPMN Extension for Serverless Machine Learning. Technology Independent and Interoperable Modeling of Machine Learning Workflows and their Serverless Deployment Orchestration
Machine learning (ML) continues to permeate all layers of academia, industry
and society. Despite its successes, mental frameworks to capture and represent
machine learning workflows in a consistent and coherent manner are lacking. For
instance, the de facto process modeling standard, Business Process Model and
Notation (BPMN), managed by the Object Management Group, is widely accepted and
applied. However, it is short of specific support to represent machine learning
workflows. Further, the number of heterogeneous tools for deployment of machine
learning solutions can easily overwhelm practitioners. Research is needed to
align the process from modeling to deploying ML workflows.
We analyze requirements for standard based conceptual modeling for machine
learning workflows and their serverless deployment. Confronting the
shortcomings with respect to consistent and coherent modeling of ML workflows
in a technology independent and interoperable manner, we extend BPMN's
Meta-Object Facility (MOF) metamodel and the corresponding notation and
introduce BPMN4sML (BPMN for serverless machine learning). Our extension
BPMN4sML follows the same outline referenced by the Object Management Group
(OMG) for BPMN. We further address the heterogeneity in deployment by proposing
a conceptual mapping to convert BPMN4sML models to corresponding deployment
models using TOSCA.
BPMN4sML allows technology-independent and interoperable modeling of machine
learning workflows of various granularity and complexity across the entire
machine learning lifecycle. It aids in arriving at a shared and standardized
language to communicate ML solutions. Moreover, it takes the first steps toward
enabling conversion of ML workflow model diagrams to corresponding deployment
models for serverless deployment via TOSCA.Comment: 105 pages 3 tables 33 figure
Metodología dirigida por modelos para las pruebas de un sistema distribuido multiagente de fabricación
Las presiones del mercado han empujado a las empresas de fabricación a reducir costes a la vez que mejoran sus productos, especializándose en las actividades sobre las que pueden añadir valor y colaborando con especialistas de las otras áreas para el resto. Estos sistemas distribuidos de fabricación conllevan nuevos retos, dado que es difícil integrar los distintos sistemas de información y organizarlos de forma coherente. Esto ha llevado a los investigadores a proponer una variedad de abstracciones, arquitecturas y especificaciones que tratan de atacar esta complejidad. Entre ellas, los sistemas de fabricación holónicos han
recibido una atención especial: ven las empresas como redes de holones, entidades que a la vez están formados y forman parte de varios otros holones. Hasta ahora, los holones se han implementado para control de fabricación como agentes inteligentes autoconscientes, pero su curva de aprendizaje y las dificultades a la hora de integrarlos con sistemas tradicionales han dificultado su adopción en la industria. Por otro lado, su comportamiento emergente puede que no sea deseable si se necesita que las tareas cumplan ciertas garantías, como ocurren en las relaciones de negocio a negocio o de negocio a cliente y en las operaciones de alto nivel de gestión de planta.
Esta tesis propone una visión más flexible del concepto de holón, permitiendo que
se sitúe en un espectro más amplio de niveles de inteligencia, y defiende que sea mejor implementar los holones de negocio como servicios, componentes software que pueden ser reutilizados a través de tecnologías estándar desde cualquier parte de la organización. Estos servicios suelen organizarse como catálogos coherentes, conocidos como Arquitecturas Orientadas a Servicios (‘Service Oriented Architectures’ o SOA). Una iniciativa SOA exitosa puede reportar importantes beneficios, pero no es una tarea trivial. Por este motivo, se han propuesto muchas metodologías SOA en la literatura, pero ninguna de ellas cubre explícitamente la necesidad de probar los servicios. Considerando que la meta de las SOA es incrementar la reutilización del software en la organización, es una carencia importante: tener servicios de alta calidad es crucial para una SOA exitosa.
Por este motivo, el objetivo principal de la presente Tesis es definir una metodología extendida que ayude a los usuarios a probar los servicios que implementan a sus holones de negocio. Tras considerar las opciones disponibles, se tomó la metodología dirigida por modelos SODM como punto de partida y se reescribió en su mayor parte con el framework Epsilon de código abierto, permitiendo a los usuarios que modelen su conocimiento parcial sobre el rendimiento esperado de los servicios. Este conocimiento parcial es aprovechado por varios nuevos algoritmos de inferencia de requisitos de rendimiento, que extraen los requisitos específicos de cada servicio. Aunque el algoritmo de inferencia de peticiones por segundo es sencillo, el algoritmo de inferencia de tiempos límite pasó por numerosas revisiones hasta obtener el nivel deseado de funcionalidad y rendimiento. Tras una primera formulación basada en programación lineal, se reemplazó con un algoritmo sencillo ad-hoc que recorría el grafo y después con un algoritmo incremental mucho más rápido y avanzado. El algoritmo incremental produce resultados equivalentes y tarda mucho menos, incluso con modelos grandes.
Para sacar más partidos de los modelos, esta Tesis también propone un enfoque general para generar artefactos de prueba para múltiples tecnologías a partir de los modelos anotados por los algoritmos. Para evaluar la viabilidad de este enfoque, se implementó para dos posibles usos: reutilizar pruebas unitarias escritas en Java como pruebas de rendimiento, y generar proyectos completos de prueba de rendimiento usando el framework The Grinder para cualquier Servicio Web que esté descrito usando el estándar Web Services Description Language.
La metodología completa es finalmente aplicada con éxito a un caso de estudio basado en un área de fabricación de losas cerámicas rectificadas de un grupo de empresas español. En este caso de estudio se parte de una descripción de alto nivel del negocio y se termina con la implementación de parte de uno de los holones y la generación de pruebas de rendimiento para uno de sus Servicios Web. Con su soporte para tanto diseñar como implementar pruebas de rendimiento de los servicios, se puede concluir que SODM+T ayuda a que los usuarios tengan una mayor confianza en sus implementaciones de los holones de negocio observados en sus empresas
- …