Search CORE

33 research outputs found

Um estudo comparativo entre o uso de bases de dados relacionais e não relacionais para Data Warehouses

Author: Kober Marcel
Publication venue
Publication date: 10/07/2017
Field of study

A informação é muito valiosa para as organizações atualmente, e o volume de dados produzidos e coletados cresce dia a dia, criando um cenário onde a organização é fundamental para um processo de tomada de decisão eficiente. Porém, também é necessário ter velocidade nas análises, que usam dados que crescem exponencialmente. Os Data Warehouses são usados neste cenário para organizar os dados, centralizando suas diferentes origens, onde tudo é padronizado. Mas para processar grandes volumes de informação, os bancos de dados precisaram evoluir, dando origem ao NoSQL. O presente trabalho tem como objetivo comparar a aplicação de bancos de dados relacionais e não relacionas para Data Warehouses, comparando os aspectos de modelagem, carga de dados, performance, visualização e suporte. A avaliação mostrou que o banco não relacional avaliado teve vantagens na modelagem, carga de dados e performance de consultas, enquanto a base relacional teve vantagens nos aspectos da visualização e suporte. Como resultado observou-se que cada banco de dados apresenta características particulares que podem determinar a escolha de um deles em diferentes cenários de aplicação.Currently the informantion is very valuable for companies, and the volume of data generated raises day by day, creating an environment where organization is essential to the decision making proccess. However, speed i salso necessary in the analysis that make use of all this growing volume of data. Data Warehouses are applied in this scenario to organize the data, centralizing different sources and creating standards. However, in order to proccess big volumes of information, databases had to evolve, thus originating the NoSQL. The current research has the objective to compare relational and non relational databases on its application for Data Warehouses, comparing aspects of modelling, data load, performance, visualization and support. The evaluation showed that the non relational database had advantages in modelling, data load and performance, while the relational database had advantages in visualization and support. As a result it was observed that each database has properties that can determine its a better choice for different applications

Biblioteca Digital da Univates - BDU

Um estudo comparativo sobre a performance de diferentes bases NoSQL em aplicações de Business Intelligence

Author: Giordani Fernando Augusto
Publication venue
Publication date: 06/12/2017
Field of study

Conforme os anos passam, maior é a experiência adquirida por uma empresa enquanto está ativa no mercado e, consequentemente, maior o seu banco de dados tende a ficar, chegando a um certo ponto onde nem mesmo uma ótima modelagem dos dados evitará problemas como baixo desempenho, falta de escalabilidade e/ou baixa disponibilidade dos dados. Esses três fatores são essenciais para as ferramentas da área de Inteligência de Negócios, pois os níveis Estratégico e Tático de uma organização precisam que as informações estejam disponíveis no maior tempo possível e, sejam apresentadas de forma rápida. Geralmente, o modelo Relacional é utilizado na modelagem das estruturas de dados, porém quando um desses problemas ocorre, torna-se necessário realizar uma pesquisa por bancos de dados mais eficientes, conhecendo então os modelos Não-Relacional. Este trabalho visa realizar um comparativo de desempenho entre dois modelos Não-Relacionais, definindo uma estrutura a ser implementada em laboratório, em um ambiente simulado, e, através da utilização de uma ferramenta gratuita de Inteligência de Negócios, realizar testes obtendo métricas como tempo de execução, uso da memória e uso do processador.As the years go by, greater is the experience gained by a company while it is active in the marketplace and, consequently, greater your database tends to be, reaching to a point where not even a great data modeling will avoid problems like low performance, lack of scalability and / or low data availability. These three factors are essential for business intelligence tools because an organization's Strategic and Tactical levels need the information to be available as long as possible and be presented in a fast way. Generally, the Relational model is used in the modeling of data structures, but when one of these problems occurs, it is necessary to perform a search for more efficient databases, knowing the Non-Relational models. This work aims to perform a performance comparison between two Non-Relational models, defining a structure to be implemented in laboratory, in a simulated environment, and, through the use of a free Business Intelligence tool, perform tests obtaining metrics such as execution time, memory usage and processor usage

Biblioteca Digital da Univates - BDU

Etiquetagem e rastreio de fontes de dados num Big Data Warehouse

Author: Costa Maria Inês Peixoto da
Publication venue
Publication date: 01/01/2019
Field of study

Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoOs avanços nas Tecnologias de Informação levam as organizações a procurar valor comercial e vantagem competitiva por meio da recolha, armazenamento, processamento e análise de dados. Os Data Warehouses surgem como uma peça fundamental no armazenamento dos dados, facilitando a sua análise sob diversas perspetivas e permitindo a extração de informação que poderá ser utilizada na tomada de decisão. A elevada disponibilidade de novas fontes de dados e os avanços que surgiram para a recolha e armazenamento dos mesmos, fazem com que seja produzida uma imensa quantidade de dados heterogéneos, gerados a taxas cada vez maiores. Adjacente a este facto surgiu o conceito de Big Data, associado ao volume, velocidade e variedade dos dados, ou seja, grandes volumes de dados com diferentes graus de complexidade, muitas vezes sem estrutura nem organização, caraterísticas estas que impossibilitam o uso de ferramentas tradicionais. Como tal, surge a necessidade de adotar o contexto de Big Data Warehouses, que naturalmente acarreta outros desafios, pois implica a adoção de novas tecnologias, assim como a adoção de novos modelos lógicos que permitem uma maior flexibilidade na gestão de dados não estruturados e desnormalizados. Por conseguinte, quando o volume de dados e a sua heterogeneidade começam a aumentar, uma vez que derivam de várias fontes que apresentam caraterísticas muito diferentes, emergem novos desafios associados ao Big Data, nomeadamente a Governança de Dados. A área de Governança de Dados abrange um grupo de subáreas, tais como Qualidade dos Dados e Gestão de Metadados, as quais oferecem um conjunto de processos para suportar a elevada complexidade inerente nos dados. À medida que o volume de dados num Big Data Warehouse começa a aumentar, os processos de negócio também aumentam, pelo que se torna necessário ter informação adicional sobre esses dados, por exemplo, que tabelas e atributos foram armazenados, quando e por quem foram criados e as diversas atualizações que sofreram. O objetivo desta dissertação é propor um sistema para a governança de um Big Data Warehouse, de modo a dar a conhecer o conteúdo do mesmo e a forma como este está a evoluir ao longo do tempo. Para tal, é proposto um sistema de catalogação de dados do Big Data Warehouse, baseado num grafo, através da etiquetagem e do rastreio de fontes de dados e posterior armazenamento dos metadados recolhidos numa base de dados. Para além de reunir as caraterísticas mais básicas dos dados, regista informações sobre políticas de acesso, profiling, a similaridade, key performance indicators e processos de negócio.Advances in Information Technologies lead organizations to search for commercial value and competitive advantage through collecting, storing, processing and analyzing data. Data Warehouses appear as a fundamental piece in data storage, facilitating data analysis from different perspectives and allowing the extraction of information that can be used in decision making. The high availability of new data sources and the advances that have been made for their collection and storage lead to the production of an enormous amount of heterogeneous data generated at increasing rates. Adjacent to this fact, the concept of Big Data appeared, associated to the volume, velocity and variety of data, that is, large volumes of data with different degrees of complexity, often without structure or organization, which makes it impossible to use traditional tools. Thus, the need arises to adopt the Big Data Warehouses context, which naturally brings other challenges, because it implies the adoption of new technologies, as well as the adoption of new logical models that allow greater flexibility in the management of unstructured and denormalized data. Therefore, when the volume of data and its heterogeneity start to increase, once they derive from several sources with very different characteristics, new challenges associated with Big Data emerge, namely Data Governance. The Data Governance domain covers a group of subdomains, such as Data Quality and Metadata Management, which provide a set of processes to support the high complexity inherent in the data. As the volume of data in a Big Data Warehouse starts to increase, the business processes also increase, meaning that it becomes important and necessary to know some additional information about these data, for example, which tables and attributes were stored, when and by whom were created and the several updates they suffered. The aim of this dissertation is to propose a governance system for the governance of a Big Data Warehouse, in order to make its content available, as well as how it is evolving over time. To this end, a graph-based Big Data Warehouse data cataloging system is proposed, by tagging and lineage of data sources and storing metadata in a database. In addition to gathering the basic characteristics of data, it records information about access policies, profiling, similarity, key performance indicators and business processes

Universidade do Minho: RepositoriUM

Abordagem semântica para a integração de dados em Big Data Warehouses

Author: Magalhães José Fernando Pereira
Publication venue
Publication date: 01/01/2019
Field of study

Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoBig Data não é um domínio trivial, tanto ao nível de investigação, como de desenvolvimento. Atualmente, o volume de dados produzido tem aumentado exponencialmente devido à utilização de dispositivos como, por exemplo, smartphones, tablets, dispositivos inteligentes e sensores. Esta proliferação de dados que se apresentam em formatos estruturados, semiestruturados e não estruturados foi acompanhada pela popularidade do conceito de Big Data, que pode ser caracterizado como o volume, velocidade e variedade que os dados apresentam e que não conseguem ser processados, armazenados e analisados através de ferramentas e métodos tradicionais. As organizações, inseridas em ambientes altamente competitivos, visam a obtenção de vantagens competitivas perante os seus concorrentes, comprometendo-se a extrair o maior valor das tecnologias com o objetivo de melhorar a sua tomada de decisão. A título de exemplo, os Data Warehouses surgem como componentes centrais no armazenamento de dados, no entanto, estes repositórios de dados regem-se por modelos relacionais que os impossibilita de responder às exigências de Big Data. Consequentemente, surge a necessidade da adoção de novas tecnologias e modelos lógicos capazes de colmatar os desafios de Big Data, originando assim os Big Data Warehouses, que utilizados em tecnologias como Hadoop ou bases de dados NoSQL garantem uma maior flexibilidade e escalabilidade na manipulação de dados em contextos Big Data. A dimensão do Big Data Warehouse conduz a um acréscimo de complexidade nos domínios de Governança de Dados e Data Quality devido ao grande volume de dados que é continuamente armazenado. Contudo, inserido num domínio intrínseco a Data Quality, Data Profiling vem colmatar alguns destes desafios através da produção de metadados sobre os conjuntos de dados que chegam ao Big Data Warehouse, ganhando assim uma nova importância na integração entre as novas fontes de dados e os dados que já subsistem no Big Data Warehouse. Desta forma, o principal objetivo deste trabalho é propor, desenvolver e validar uma ferramenta de Data Profiling que permita inspecionar novas fontes de dados, derivando e armazenando informação relevante para a sua integração no Big Data Warehouse.Big Data is not a trivial domain regarding the research and development topic. Currently, the amount of data produced has increased due to the use of gadgets such as smartphones, tablets, smart devices, and sensors. Bearing that in mind, the proliferation of data presented in structured, semi-structured and unstructured formats was accompanied by the popularity of the Big Data concept that can be characterized by volume, velocity, and variety of data which cannot be processed, stored and analyzed through traditional tools. The organizations inserted in highly competitive environments aim to obtain competitive advantages over their competitors, committing themselves to extract the highest value of the technologies in order to improve their decision making. For example, Data Warehouses appear as central components in data storage supported by rigid models. However, these data repositories can no longer answer the high demand of Big Data reality. Therefore, there is the need to adopt new technologies and logical models capable of solving Big Data challenges, giving the rise to Big Data Warehouses which are used in technologies such as Hadoop or NoSQL databases to ensure higher flexibility and scalability in data manipulation in Big Data contexts. The Big Data Warehouse size leads to an increase in the complexity concerning the domains of Data Governance and Data Quality, due to the high volume of data that is continuously stored. Nevertheless, embedded in the Data Quality domain, Data Profiling approach solves some of these challenges producing metadata about datasets which are being sent to the Big Data Warehouse, raising awareness to the relevance of the integration between new data sources and data which is already stored in the Big Data Warehouse. Considering all information exposed, the main purpose of this work is to propose, develop and validate a Data Profiling tool that allows inspecting new data sources, storing and deriving relevant information to its integration in Big Data Warehouse

Universidade do Minho: RepositoriUM

Aplicação de MonetDB na avaliação de desempenho de bases de dados verticais

Author: Vicente Ico Dânger
Publication venue: [s.n.]
Publication date: 01/01/2015
Field of study

Dissertação apresentada à Universidade Fernando Pessoa como partes dos requisitos para a obtenção do grau de Mestre em Engenharia Informática, ramo de Sistemas de Informação e MultimédiaEsta dissertação analisa a aplicação do Sistema de Gestão de Bases de Dados MonetDB na avaliação do desempenho de bases de dados verticais, comparando com os sistemas PostgreSQL e CitusDB. Nos últimos anos, os sistemas de bases de dados verticais têm atraído muito interesse não só na comunidade científica como também nas comunidades empresarial e organizacional. Esse interesse está relacionado com o potencial de melhor desempenho, com a forma como as bases de dados são armazenadas, com a possibilidade de compressão dos dados e com o seu suporte no apoio à decisão nas organizações. O interesse crescente no uso de bases de dados por colunas em relação às bases de dados tradicionais, com armazenamento por linhas, deve-se essencialmente à forma de armazenamento e ao desempenho. Os sistemas de base de dados por linhas armazenam os registos de uma relação de forma sequencial, por página, enquanto os sistemas de bases de dados em coluna armazenam os valores pertencendo à mesma coluna de forma contínua, na mesma página, o que torna mais rápidas as operações de leitura de apenas um subconjunto das colunas de uma tabela. Nesta dissertação descrevem-se as principais características e vantagens do método de armazenamento por colunas em relação ao método de armazenamento por linhas, analisando sua arquitetura e os conceitos, e analisando as vantagens da compressão e das técnicas de materialização na execução de consultas. Essas vantagens mostram que a nível de execução de consultas típicas de aplicação analíticas, o desempenho das bases de dados por linhas é inferior ao das bases de dados por colunas coluna.This dissertation analyzes the application of MonetDB in a performance evaluation of vertical databases against traditional systems as PostgreSQL and CitusDB. In recent years, vertical database systems have attracted great interest both in the scientific community as well as in commercial areas. This interest is related to performance issues, to how the databases are stored, to the use of data compression and to their use in decision support queries. The growing interest in the use of vertical, or columnar, databases over traditional database storage lies mainly in the way data storage is made and to performance gains in some situations. The traditional database systems store tuples sequentially, by page, while vertical database systems store data belonging to the same column continuously, in the same page, which makes it faster to read a subset of a table. This dissertation describes the main characteristics and advantages of the vertical storage method in relation to the traditional storage method, analyzing its architecture and concepts, highlighting the compression advantages and materialization in the analysis of queries. These advantages show that the level of query execution performance of traditional databases, for analytical applications, is slower than the vertical databases

B-Digital

Armazéns de dados em bases de dados NoSQL

Author: Pereira Daniel José Pinto
Publication venue
Publication date: 01/01/2014
Field of study

Na atualidade, existe uma quantidade de dados criados diariamente que ultrapassam em muito as mais otimistas espectativas estabelecidas na década anterior. Estes dados têm origens bastante diversas e apresentam-se sobre várias formas. Este novo conceito que dá pelo nome de Big Data está a colocar novos e rebuscados desafios ao seu armazenamento, tratamento e manipulação. Os tradicionais sistemas de armazenamento não se apresentam como a solução indicada para este problema. Estes desafios são alguns dos mais analisados e dissertados temas informáticos do momento. Várias tecnologias têm emergido com esta nova era, das quais se salienta um novo paradigma de armazenamento, o movimento NoSQL. Esta nova filosofia de armazenamento visa responder às necessidades de armazenamento e processamento destes volumosos e heterogéneos dados. Os armazéns de dados são um dos componentes mais importantes do âmbito Business Intelligence e são, maioritariamente, utilizados como uma ferramenta de apoio aos processos de tomada decisão, levados a cabo no dia-a-dia de uma organização. A sua componente histórica implica que grandes volumes de dados sejam armazenados, tratados e analisados tendo por base os seus repositórios. Algumas organizações começam a ter problemas para gerir e armazenar estes grandes volumes de informação. Esse facto deve-se, em grande parte, à estrutura de armazenamento que lhes serve de base. Os sistemas de gestão de bases de dados relacionais são, há algumas décadas, considerados como o método primordial de armazenamento de informação num armazém de dados. De facto, estes sistemas começam a não se mostrar capazes de armazenar e gerir os dados operacionais das organizações, sendo consequentemente cada vez menos recomendada a sua utilização em armazéns de dados. É intrinsecamente interessante o pensamento de que as bases de dados relacionais começam a perder a luta contra o volume de dados, numa altura em que um novo paradigma de armazenamento surge, exatamente com o intuito de dominar o grande volume inerente aos dados Big Data. Ainda é mais interessante o pensamento de que, possivelmente, estes novos sistemas NoSQL podem trazer vantagens para o mundo dos armazéns de dados. Assim, neste trabalho de mestrado, irá ser estudada a viabilidade e as implicações da adoção de bases de dados NoSQL, no contexto de armazéns de dados, em comparação com a abordagem tradicional, implementada sobre sistemas relacionais. Para alcançar esta tarefa, vários estudos foram operados tendo por base o sistema relacional SQL Server 2014 e os sistemas NoSQL, MongoDB e Cassandra. Várias etapas do processo de desenho e implementação de um armazém de dados foram comparadas entre os três sistemas, sendo que três armazéns de dados distintos foram criados tendo por base cada um dos sistemas. Toda a investigação realizada neste trabalho culmina no confronto da performance de consultas, realizadas nos três sistemas.Nowadays, the amount of daily created data goes far beyond the most optimistic expectations, established in the previous decades. This data has very different backgrounds and is presented in several forms. This new concept goes by the name of Big Data, and is creating new and convoluted challenges to its storage, processing and handling. Traditional storage systems do not arise as the right solution for this problem. These challenges are some of the most analyzed and studied informatics topics of the moment. Several technologies have emerged with this new era, from which stands out a new storage paradigm, the NoSQL movement. This new philosophy aims to answer to the storage and processing needs of these heterogeneous and voluminous data. Data warehouses are one of the major component in the Business Intelligence context and are mostly used as a tool to support the decision-making process carried out daily in an organization. Its historical component implies that large amounts of data are stored, processed and analyzed based on their repositories. Some organizations are starting to have problems to manage and store these large volumes of information. This is, in large part, due to the storage structure on which they are based. For some decades now, the relational database management systems have been considered as the primary method for storing information in a data warehouse. Actually these systems are starting to not be able of storing and managing operational data from organizations, their use in data warehouse is consequently becoming less recommended. It is intrinsically interesting that relational databases are starting to lose the fight against the data volume, at a time when a new storage paradigm emerges, precisely aiming to dominate the large data volume inherent to the Big Data era. Even more interesting is the idea that, possibly, these new NoSQL systems can bring benefits to the world of data warehouses. Thus, in this dissertation, will be studied the feasibility and implications of the adoption of NoSQL databases in the context of data warehouses, in comparison with the traditional approach, implemented on relational systems. To achieve this task a number of studies have been operated based on the relational system, SQL Server 2014 and on the NoSQL systems, MongoDB and Cassandra. Various stages of the process of designing and implementing a data warehouse were compared among the three systems, which lead to the creation of three distinct data warehouses, one based on each system. All research carried out in this work culminates in the performance comparison of queries held in the three systems

Repositório Científico do Instituto Politécnico do Porto

Modelação ágil para sistemas de Big Data Warehousing

Author: Nogueira Marta Susete Carvalho Batista
Publication venue
Publication date: 01/01/2019
Field of study

Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoOs Sistemas de Informação, com a popularização do conceito de Big Data começaram a considerar aspetos relativos às infraestruturas capazes de lidar com a recolha, armazenamento, processamento e análise de vastas quantidades de dados heterogéneos, como pouca estrutura (ou nenhuma) e gerados a velocidades cada vez maiores. Estes têm sido os desafios inerentes à transição do Data Modelling em Data Warehouses tradicionais para ambientes de Big Data. O estado-de-arte reflete que a área científica de Big Data Warehousing é recente, ambígua e apresenta lacunas relativas a abordagens para a conceção e implementação destes sistemas; deste modo, nos últimos anos, vários autores motivados pela ausência de trabalhos científicos e técnicos desenvolveram estudos na área com o intuito de explorar modelos adequados (representação de componentes lógicas e tecnológicas, data flows e estruturas de dados), métodos e instanciações (casos de demonstração recorrendo a protótipos e benchmarks). A presente dissertação está inserida no estudo da proposta geral dos padrões de design para sistemas de Big Data Warehousing (M. Y. Santos & Costa, 2019) e, posteriormente, é efetuada a proposta de um método, em vista a semiautomatização da proposta de design dos autores referidos, constituído por sete regras computacionais, apresentadas, demonstradas e validadas com exemplos baseados em contextos reais. De forma a apresentar o processo de modelação ágil, foi criado um fluxograma para cada regra, permitindo assim apresentar todos passos. Comparando os resultados dos exemplos obtidos após aplicação do método e dos resultantes de uma modelação totalmente manual, o trabalho proposto apresenta uma proposta de modelação geral, que funciona como uma sugestão de modelação de Big Data Warehouses para o utilizador que, posteriormente, deve validar e ajustar o resultado tendo em consideração o contexto do caso em análise, as queries que pretende utilizar e as características dos dados.Information Systems, with the popularization of Big Data, have started to consider the aspects related to infrastructures capable of dealing with collection, storage, processing and analysis of vast amounts of heterogeneous data, with little or no structure and produced at increasing speed. These have been the challenges inherent to the transition from Data Modelling into traditional Data Warehouses for Big Data environments. The state-of-the-art reflects that the scientific field of Big Data Warehousing is recent, ambiguous and that it shows a few gaps regarding the approaches to the design and implementation of these systems; thus, in the past few years, several authors, motivated by the lack of scientific and technical work, have developed some studies in this scientific area in order to explore appropriated models (representation of logical and technological components, data flows and data structures), methods and instantiations (demonstration cases using prototypes and benchmarks). This dissertation is inserted in the study of the general proposal of design standards for Big Data Warehousing systems. Late on, the proposed method is comprised of seven sequential rules which are thoroughly explained, demonstrated and validated with relevante exemples based on common real use-cases. For each rule, step-by-step flowchart is provider an agile modelling process. When compared a fully manual example, the proposed work offered a correct but genereal resulting model that works best as a first modelling effort that should then be validated by a use-case expert

Universidade do Minho: RepositoriUM

Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados

Author: Martins João Filipe Freitas
Publication venue
Publication date: 01/01/2018
Field of study

Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoDurante os últimos anos, temos assistido a um aumento exponencial da quantidade de dados produzidos. Este aumento deve-se, principalmente, à enorme utilização de sensores, assim como à massificação da utilização das redes sociais e de dispositivos móveis que, em permanência, recolhem dados de diversos tipos e contextos. O tratamento e análise destes dados por parte das organizações traduz-se numa inegável vantagem competitiva nos mercados, cada vez mais exigentes. Por este motivo, o estudo e desenvolvimento de novas ferramentas para a exploração destes dados tem atraído a atenção das organizações e também da comunidade científica, uma vez que as técnicas e tecnologia tradicionais se têm mostrado incapazes de lidar com dados de tal natureza. Neste contexto, surge o termo Big Data, utilizado para definir este tipo de dados de grande volume, diferentes graus de complexidade e, por vezes, não estruturados ou com um modelo de dados pré-definido. Associado ao termo Big Data surgem novos repositórios de dados com modelos lógicos próprios, denominados de bases de dados NoSQL, que vêm substituir as bases de dados relacionais baseadas no paradigma relacional. Estes repositórios estão integrados num ecossistema vasto de ferramentas e tecnologias para lidar com este tipo de dados, o Hadoop. Neste seguimento, esta dissertação tem por objetivo estudar uma das muitas ferramentas associadas ao projeto Hadoop, o Kudu. Esta nova ferramenta, de arquitetura híbrida, promete preencher a lacuna existente entre as ferramentas de acesso a dados de forma sequencial e as ferramentas de acesso a dados de forma aleatória, simplificando, por isso, a arquitetura complexa que a utilização destes dois tipos de sistemas implica. Para cumprir os objetivos da dissertação foram realizados testes de desempenho com dois modelos de dados distintos, ao Kudu e a outras ferramentas destacadas na literatura, para possibilitar a comparação de resultados.Over the last few years we have witnessed an exponential increase in the amount of data produced. This increase is mainly due to the huge use of sensors, as well as the mass use of social networks and mobile devices that continuously collect data of different types and contexts. The processing and analysis of these data by the organizations translates into an undeniable competitive advantage in the increasingly competitive markets. For this reason, the study and development of new tools for the exploration of these data has attracted the attention of organizations and scientific community, since traditional techniques and technology have been unable to deal with data of this nature. In this context, the term Big Data appears, used to define this type of data of great volume, different degrees of complexity, and sometimes unstructured or disorganized. Associated with the term Big Data arise new data repositories with own logical models, denominated of databases NoSQL, that replace the traditional models. These repositories are integrated into a vast ecosystem of tools and technologies to handle this type of data, Hadoop. In this follow-up, this dissertation aims to study one of the many tools associated with the Hadoop project, Kudu. This new hybrid architecture tool promises to fill the gap between sequential data access tools and random data access tools, thereby simplifying the complex architecture that the use of these two types of systems implies. To fulfill the objectives of the dissertation, performance tests were performed with two different data models, over Kudu and other tools highlighted in the literature, to allow the comparison of results

Universidade do Minho: RepositoriUM

Analytical data processing in network performance monitoring applications using in-memory data grids

Author: Martins Tiago Ferreira
Publication venue: Universidade de Aveiro
Publication date: 15/12/2018
Field of study

Mestrado em Sistemas de InformaçãoNos últimos anos, assiste-se a um forte incremento no que diz respeito ao volume de dados e sua respetiva valorização por parte das organizações, sobretudo em aplicações de monitorização de performance de redes, como se observa na ferramenta Nokia Performance Manager (NPM). A situação atual justifica-se com o crescimento do setor das telecomunicações, com a necessidade de dar resposta à constante evolução das tecnologias de rede 2G, 3G e atualmente o 4G ou LTE, no processo de centralização, processamento e armazenamento de dados ou indicadores de performance de rede recolhidos por antenas espalhadas em diversas zonas geográficas. Neste contexto, a ferramenta NPM disponibiliza ao cliente uma visão global do desempenho da rede em tempo real, através da geração de relatórios pré-configurados e posterior armazenamento para futuras visualizações. Perante a necessidade de armazenar esses relatórios por um período mais alargado, sem limitações de armazenamento e de forma mais eficiente verifica-se que os tradicionais sistemas de gestão e armazenamento, os RDBMS em disco e cache, não respondem da melhor forma a estas necessidades. Posto isto, surgiu o conceito “In-Memory Data Grid” como uma plataforma de dados completamente distribuídos sobre uma arquitetura em memória. De modo a provar este conceito foi implementado um protótipo de software para o processo de caching de relatórios, funcionalidade do NPM, utilizando as tecnologias Apache Ignite/GridGain e Apache Geode/Pivotal Gemfire e posteriormente foi realizado um ambiente de testes que permitiu avaliar as duas soluções e determinar aquela que seria a solução ideal a integrar na ferramenta NPM.In recent years, there has been a strong increase in the volume of data and its respective valuation by organizations, especially in network performance monitoring applications, as seen in the Nokia Performance Manager (NPM) tool. The current situation is justified by the growth of the telecommunications sector, with the need to respond to the constant evolution of 2G, 3G and currently 4G or LTE network technologies, in the process of centralizing, processing and storing data or indicators of Network performance collected by distributed antennas in different geographic areas. In this context, the NPM tool provides the customer with a global view of the network performance in real time, through the generation of pre-configured reports and later storage for future visualizations. Given the need to store these reports for a longer period, without storage limitations, and more efficiently, traditional storage and management systems, RDBMS on disk and cache, do not best meet these needs. That said, the "In-Memory Data Grid" concept emerged as a completely distributed data platform on an in-memory architecture. In order to prove this concept, a software prototype was implemented for the report caching process, NPM functionality, using the Apache Ignite/GridGain and Apache Geode/Pivotal Gemfire technologies, and later a test environment was carried out to evaluate the two Solutions and determine what would be the ideal solution to integrate into the NPM tool

Repositório Institucional da Universidade de Aveiro

Persistência Poliglota - Diferentes Necessidades de Armazenamento de Dados

Author: Gomes Tiago Alexandre Nunes
Publication venue
Publication date: 18/12/2017
Field of study

A necessidade crescente de se armazenarem grandes quantidades de dados, de forma a prover serviços escaláveis, obrigou à procura de novas soluções, ao longo do tempo. No decurso da história podem enumerar-se diversos sistemas de dados: o hierárquico, o em rede, o relacional, o orientado a objetos, o objeto-relacional e, mais recentemente, o NoSQL. Todos estes sistemas tentaram dar resposta a diferentes realidades do armazenamento de dados, indo ao encontro dos problemas de cada época. Devido à necessidade de se aproveitarem as vantagens que cada tipo de base de dados oferece, surgiu o conceito de Persistência Poliglota, que traduz a integração de vários tipos de bases de dados num só sistema. Esta abordagem tem como objetivo retirar o melhor de cada base de dados, apresentando uma solução fiável e alternativa aos sistemas com apenas um tipo de base de dados. Como tal, este trabalho visa a análise da abordagem de Persistência Poliglota para comparar sistemas compostos por diversos sistemas de gestão de base de dados versus os que utilizam apenas um motor de base de dados, de modo a verificar se esta abordagem é útil e vantajosa. Desta forma, elaborou-se uma prova de conceito, com base num problema proposto, com o objetivo de se analisarem dois sistemas, um único e outro poliglota, tendo por base três volumes de dados diferentes. Para isto, foi necessário proceder-se à análise e escolha dos sistemas de gestão de base de dados a utilizar e montar os ambientes de teste, para ambos os sistemas. Com recurso a várias consultas individuais (a cada base de dados) e globais (conjunto das bases de dados que compõem o sistema poliglota), foram analisados os resultados obtidos com recurso à métrica de medição do desempenho relativa aos tempos de consulta. O trabalho e os resultados obtidos evidenciaram um aumento do desempenho, quanto à utilização individual das bases de dados. Perante o conjunto das bases de dados, apesar de um ligeiro aumento, nota-se que os resultados não são claros e que carecem de uma investigação mais profunda. Por fim, é possível afirmar que a abordagem poliglota é principalmente útil em sistemas complexos, onde o volume de dados é elevado, e onde se pretende armazenar diferentes tipos de dados.ABSTRACT: The increasing need to store large amounts of data in order to provide scalable services has forced the search for new solutions over time. In the course of history, several data systems can be enumerated: hierarchical, network, relational, object-oriented, object-relational, and, more recently, NoSQL. All these systems tried to respond to different realities of data storage, meeting the problems of each era. However, due to the need to take benefit from all the advantages that each type of database offers, the concept of Polyglot Persistence has emerged, which allows the integration of several types of databases in a single system. This approach aims to get the best out of each database, presenting a reliable and alternative solution to systems with only one type of database. As such, this work aims at the analysis of Polyglot Persistence approach to compare systems composed of several database management systems versus those using a single database engine, in order to verify if this approach is useful and advantageous. In this way, a proof of concept was elaborated, based on a proposed problem, with the objective of analyzing two systems, a single and another polyglot, based on three different data volumes. For this, it was necessary to proceed to the analysis and choice of the database management systems to be used and to assemble the test environments, for both systems. Using a number of individual queries (for each database) and global queries (set of databases that make up the polyglot system), the results obtained were analyzed using the performance metric relative to the query times. The work and the results obtained showed an increase in the performance, regarding the individual use of the databases. In spite of a slight increase, the results are not clear and need further investigation. Finally, it is possible to affirm that the polyglot approach is mainly useful in complex systems, where the volume of data is high, and it is intended to store different types of data

Repositório Científico do Instituto Politécnico de Viseu