346 research outputs found
LDAVI : LambDa architecture driVen implementation
Data has been playing an important role in many areas of society. It has massively increased among time and can be a powerful source of knowledge. The way data is handled, and this knowledge is extracted had also to be adapted to support this huge amount of information coming from different sources. Lambda Architecture comes to supply this need of having a Big Data architecture capable of processing both historical data and stream data. We present LDAVI, a Lambda Architecture Driven Implementation based on Lambda Architecture approach (KIRAN, 2015), a data-processing architecture for handling massive amount of data by decomposing the problem into three layers: batch layer – for historical data processing - serving layer and speed layer – for streaming processing. Main technologies used for building this architecture are Apache Hadoop, Apache Spark, Apache Impala and Apache Kafka. The main focus is to this describe this architecture as well as its implementation, as it can apply to any type of problem where one needs to store and process huge amount of data – either in streaming or batch modes. Our objective in this work is to demonstrate the powerful, capacity and feasibility of this architecture and that it can be used to approach different type of Big Data scenarios. In this work we address Smart Mobility are as our case of study to evaluate LDAVI. We analyze passengers smart card and buses GPS and stops location from the city of Schenzhen, aiming to extract passengers density and flow. Lambda Architecture is a new architectural concept that emerged with the raise of Big Data Analytics. In this work we approach and provide an implementation of this architecture, building it with the main Big Data technology stack. Although it has started being used in some areas such as search engines and platforms requiring real-time processing – such as video stream players – we demonstrate that this architecture can also bring benefits for Smart Mobility, more precisely in public transportation. Differently from related works, we approach three different types of trip: simple trip, connection trip and round trip, what makes the analysis complete and more accurate.Os dados têm desempenhado um papel importante em muitas áreas da sociedade. Eles aumentaram massivamente com o tempo e podem ser uma poderosa fonte de conhecimento. A forma como os dados são tratados, e esse conhecimento é extraído, também deve ser adaptada para suportar essa enorme quantidade de informações vindas de diferentes fontes. A Lambda Architecture vem suprir essa necessidade de ter uma arquitetura Big Data capaz de processar dados históricos e dados em tempo real. Apresentamos o LDAVI, uma implementação da Lambda Architecture baseada na arquitetura Lambda (KIRAN, 2015), uma arquitetura de processamento de dados para manipular uma quantidade massiva de dados decompondo o problema em três camadas: camada de lote - para processamento de dados históricos - camada de veiculação e camada de velocidade - para processamento de streaming. As principais tecnologias usadas para construir essa arquitetura são o Apache Hadoop, o Apache Spark, o Apache Impala e o Apache Kafka. O foco principal é descrever essa arquitetura, bem como sua implementação, pois ela pode ser aplicada a qualquer tipo de problema em que seja necessário armazenar e processar uma grande quantidade de dados - nos modos de fluxo contínuo ou lote. Nosso objetivo neste trabalho é demonstrar o poder, a capacidade e a viabilidade dessa arquitetura e que ela pode ser usada para abordar diferentes tipos de cenários de Big Data. Neste trabalho, abordamos a Mobilidade Inteligente como nosso caso de estudo para avaliar o LDAVI. Analisamos os cartoes de passageiros, GPS de ônibus e paradas de ônibus da cidade de Schenzhen, com o objetivo de extrair a densidade e o fluxo de passageiros. Lambda Architecture é um novo conceito arquitetônico que surgiu com o aumento da area de Big Data Analytics. Neste trabalho, abordamos e fornecemos uma implementação dessa arquitetura, construindo-a com a principal pilha de tecnologia de Big Data. Embora tenha começado a ser usado em algumas áreas, como mecanismos de busca e plataformas que exigem processamento em tempo real - como reprodutores de fluxo de vídeo - demonstramos que essa arquitetura também pode trazer benefícios para a Mobilidade Inteligente, mais precisamente no transporte público. Diferentemente dos trabalhos relacionados, abordamos três tipos diferentes de viagem: viagem simples, viagem de conexão e ida e volta, o que torna a análise completa e mais precisa
Big Data Reference Architectures, a systematic literature review
Today, we live in a world that produces data at an unprecedented rate. The significant amount of data has raised lots of attention and many strive to harness the power of this new material. In the same direction, academics and practitioners have considered means through which they can incorporate datadriven functions and explore patterns that were otherwise unknown. This has led to a concept called Big Data. Big Data is a field that deals with data sets that are too large and complex for traditional approaches to handle. Technical matters are fundamentally critical, but what is even more necessary, is an architecture that supports the orchestration of Big Data systems; an image of the system providing with clear understanding of different elements and their interdependencies. Reference architectures aid in defining the body of system and its key components, relationships, behaviors, patterns and limitations. This study provides an in-depth review of Big Data Reference Architectures by applying a systematic literature review. The study demonstrates a synthesis of high-quality research to offer indications of new trends. The study contributes to the body of knowledge on the principles of Reference Architectures, the current state of Big Data Reference Architectures, and their limitations
Responsible Knowledge Management in Energy Data Ecosystems
This paper analyzes the challenges and requirements of establishing energy data ecosystems (EDEs) as data-driven infrastructures that overcome the limitations of currently fragmented energy applications. It proposes a new data- and knowledge-driven approach for management and processing. This approach aims to extend the analytics services portfolio of various energy stakeholders and achieve two-way flows of electricity and information for optimized generation, distribution, and electricity consumption. The approach is based on semantic technologies to create knowledge-based systems that will aid machines in integrating and processing resources contextually and intelligently. Thus, a paradigm shift in the energy data value chain is proposed towards transparency and the responsible management of data and knowledge exchanged by the various stakeholders of an energy data space. The approach can contribute to innovative energy management and the adoption of new business models in future energy data spaces
Responsible Knowledge Management in Energy Data Ecosystems
This paper analyzes the challenges and requirements of establishing energy data ecosystems (EDEs) as data-driven infrastructures that overcome the limitations of currently fragmented energy applications. It proposes a new data-and knowledge-driven approach for management and process-ing. This approach aims to extend the analytics services portfolio of various energy stakeholders and achieve two-way flows of electricity and information for optimized generation, distribution, and electricity consumption. The approach is based on semantic technologies to create knowledge-based systems that will aid machines in integrating and processing resources contextually and intelligently. Thus, a paradigm shift in the energy data value chain is proposed towards transparency and the responsible management of data and knowledge exchanged by the various stakeholders of an energy data space. The approach can contribute to innovative energy management and the adoption of new business models in future energy data spaces. © 2022 by the authors. Licensee MDPI, Basel, Switzerland
Development and Evaluation of a Big Data Framework for Performance Management in Mobile Networks
In telecommunications, Performance Management (PM) data are collected from network elements to a centralized system, the Network Management System (NMS), which acts as a business intelligence tool specialized in monitoring and reporting network performance. Performance Management files contain the metrics and named counters used to quantify the performance of the network. Current NMS implementations have limitations in scalability and support for volume, variety, and velocity of the collected PM data, especially for 5G and 6G mobile network technologies. To overcome these limitations, we proposed a Big Data framework based on an analysis of the following components: software architecture, ingestion, data lake, processing, reporting, and deployment. Our work analyzed the PM files’ format on a real data set from four different vendors and 2G, 3G, 4G, and 5G technologies. Then, we experimentally assessed our proposed framework’s feasibility through a case study involving 5G PM files. Test results of the ingestion and reporting components are presented, identifying the hardware and software required to support up to one billion counters per hour. This proposal can help telecommunications operators to have a reference Big Data framework to face the current and future challenges in the NMS, for instance, the support of data analytics in addition to the well-known services.This work was supported by the Unidad de Gestión de Investigación y Proyección Social from the Escuela Politécnica Nacional
Cloud Based IoT Architecture
The Internet of Things (IoT) and cloud computing have grown in popularity over the past decade as the internet becomes faster and more ubiquitous. Cloud platforms are well suited to handle IoT systems as they are accessible and resilient, and they provide a scalable solution to store and analyze large amounts of IoT data. IoT applications are complex software systems and software developers need to have a thorough understanding of the capabilities, limitations, architecture, and design patterns of cloud platforms and cloud-based IoT tools to build an efficient, maintainable, and customizable IoT application. As the IoT landscape is constantly changing, research into cloud-based IoT platforms is either lacking or out of date. The goal of this thesis is to describe the basic components and requirements for a cloud-based IoT platform, to provide useful insights and experiences in implementing a cloud-based IoT solution using Microsoft Azure, and to discuss some of the shortcomings when combining IoT with a cloud platform
Big Data na gestão eficiente das Smart Grids. HDS: Uma Plataforma Híbrida, Dinâmica e Inteligente
[POR]Nos últimos anos tem-se verificado um acréscimo exponencial de informação gerada e disponibilizada
a cada dia. Devido ao rápido avanço tecnológico (dispositivos móveis; sensores; comunicação wireless;
etc.) biliões e biliões de bytes são criados todos os dias. Este fenómeno, denominado por Big Data, é
caracterizado por 5 Vs (i.e. Volume, Velocidade, Variedade, Veracidade, Valor) e cada um deles
representa verdadeiros desafios (e.g. como recolher e transportar um grande volume de informação;
como armazenar essa informação; como minerá-la, como analisá-la e extrair conhecimento, como
garantir a sua segurança e privacidade, como processá-la em tempo real, etc.). É unanime na comunidade
científica que o valor a extrair de toda esta informação constituirá um fator de extrema importância para
a tomada de decisão, determinante no sucesso das mais variadíssimas áreas económicas, bem como na
resolução de inúmeros problemas. Nestas áreas inclui-se o ecossistema energético que por razões
ecológicas, económicas e políticas conduziu ao repensar da forma como consumimos e produzimos
energia. Devido ao aumento das necessidades energéticas provocado pelo avanço tecnológico, ao
previsto esgotamento dos recursos energéticos não renováveis e devido às diretivas para a eficiência
energética impostas pela União Europeia, muitos têm sido os estudos feitos na área da gestão de recursos
energéticos. O termo Smart Grids surgiu nas últimas décadas com o objetivo de definir um ecossistema
energético inteligente, que visa não só a integração de inteligência, mas também de automação na
operabilidade extremamente complexa de todos os seus processos. As Smart Grids têm sido alvo de
grandes estudos e investimentos dos quais têm resultado avanços significativos. No entanto, alguns
desafios estão ainda por concretizar nomeadamente na gestão do seu complexo fluxo de dados. É neste
contexto que se enquadra a presente dissertação cujo principal objetivo se centra na obtenção de soluções
para alguns dos problemas identificados no domínio de Smart Grids com recurso às novas técnicas e
metodologias propostas na área de Big Data.
Este trabalho apresenta um estudo sobre os recentes e crescentes avanços tecnológicos realizados na
área de Big Data, onde são identificados os seus grandes desafios. Destes destacam-se a complexidade
na gestão de fluxos contínuos e desordenados, a necessidade de reduzir o tempo despendido na prépreparação
dos dados e o desafio de explorar soluções que proporcionem a automatização analítica. Por
outro lado, o estudo analisa o impacto da aplicação nas novas tecnologias no desenvolvimento das Smart
Grids, no qual se conclui que apesar de embrionária, a sua aplicação é imprescindível para a evolução
do ecossistema energético. Deste estudo resultou ainda a identificação dos principais desafios na área
das Smart Grids, dos quais se destacam a complexidade na gestão do seu fluxo de dados em tempo real
e a necessidade de melhorar a precisão das previsões de consumo e produção de energia.
Face aos desafios identificados foi proposto um modelo conceptual, baseado na arquitetura Docker
Container, para o desenvolvimento de uma plataforma. Este modelo objetiva a flexibilidade e agilidade
de forma a permitir a integração e validação das novas e crescentes abordagens tecnológicas propostas
na área de Big Data, necessárias ao desenvolvimento das Smart Grids. A fim de validar o modelo
proposto, foi desenvolvida uma stack onde foram implementados vários serviços que visaram contribuir
para os desafios identificados na área de Big Data e Smart Grids, nomeadamente: visualização e
monitorização dos dados recolhidos em tempo real; preparação dos dados recolhidos em tempo real;
previsão em tempo real de várias séries temporais simultaniamente; deteção de anomalias; avaliação da
precisão das previsões e geração de novos modelos para a previsão de consumo e produção de energia
segundo determinados critérios.
Finalmente foram desenvolvidos vários casos de estudo cujos resultados obtidos permitiram concluir
sobre a importância da pré-preparação dos dados na fase analítica, sobre a eficiência na automatização
analítica e sobre as vantagens da análise de ponta (Edge Analytics). Ao contrário de abordagens mais
tradicionais que visam a execução centralizada do processo analítico, o edge analytics explora a
possibilidade de executar a analise de dados de forma descentralizada a partir de um ponto não central
do sistema. Os resultados permitiram concluir que o edge analytics traz vantagens acrescidas para a
precisão das previsões. Permitiram ainda, inferir sobre como recolher os resultados a fim de se obter
uma melhor precisão nas previsões, i.e., quanto mais específica e ajustada ao contexto forem executadas
as previsões maior será a sua precisão.[ES]En los últimos años se ha verificado un aumento exponencial de información generada y disponible cada
día. Debido al rápido avance tecnológico (dispositivos móviles, sensores, comunicación inalámbrica,
etc.) billones y billones de bytes se crean todos los días. Este fenómeno, denominado Big Data, se
caracteriza por 5 Vs (es decir, Volumen, Velocidad, Variedad, Veracidad, Valor) y cada uno de ellos
representa verdaderos desafíos (por ejemplo, cómo recoger y transportar un gran volumen de
información, cómo almacenar esa información, minarla, cómo analizarla y extraer conocimiento, cómo
garantizar su seguridad y privacidad, cómo procesarla en tiempo real, etc.). Es unánime en la comunidad
científica que el valor a extraer de toda esta información constituirá un factor de extrema importancia
para la toma de decisión, determinante el éxito de las variadísimas áreas económicas, así como en la
resolución de innumerables problemas. En estas áreas se incluye el ecosistema energético que por
razones ecológicas, económicas y políticas condujo a repensar la forma en que consumimos y
producimos energía. Debido al aumento de las necesidades energéticas provocado por el avance
tecnológico, al previsto agotamiento de los recursos energéticos no renovables y debido a las directivas
para la eficiencia energética impuestas por la Unión Europea, muchos han sido los estudios realizados
en el ámbito de la gestión de recursos energéticos. El término Smart Grid surgió en las últimas décadas
con el objetivo de definir un ecosistema energético inteligente, que apunta no sólo a la integración de
inteligencia, sino también de automatización en la operatividad extremadamente compleja de todos sus
procesos. Las Smart Grids han sido objeto de grandes estudios e inversiones de los cuales han resultado
avances significativos. Sin embargo, algunos desafíos aún no se concretan en la gestión de su complejo
flujo de datos. Es en este contexto que se encuadra la presente disertación cuyo principal objetivo se
centra en la obtención de soluciones para algunos de los problemas identificados en el dominio de Smart
Grids utilizando las nuevas técnicas y metodologías propuestas en el área de Big Data.
Este trabajo presenta un estudio sobre los recientes y crecientes avances tecnológicos realizados en el
área de Big Data, donde se identifican sus grandes desafíos. De ellos se destacan la complejidad en la
gestión de flujos continuos y desordenados, la necesidad de reducir el tiempo empleado en la prepreparación
de los datos y el desafío de explorar soluciones que proporcionen la automatización
analítica. Por otro lado, el estudio analiza el impacto de la aplicación de nuevas tecnologías en el
desarrollo de las Smart Grids, en el que se concluye que, a pesar de embrionaria, su aplicación es
imprescindible para la evolución del ecosistema energético. De este estudio resultó también la
identificación de los principales desafíos en el área de las Smart Grids, de los cuales se destacan la
complejidad en la gestión de su flujo de datos en tiempo real y la necesidad de mejorar la precisión de
las previsiones de consumo y producción de energía.
En cuanto a los desafíos identificados, se propuso un modelo conceptual, basado en la arquitectura
Docker Container, para el desarrollo de una plataforma. Este modelo tiene como objetivo la flexibilidad y agilidad para permitir la integración y validación de los nuevos y crecientes enfoques tecnológicos
propuestos en el área de Big Data, necesarios para el desarrollo de las Smart Grids. Con el fin de validar
el modelo propuesto, se desarrolló una stack donde se implementaron varios servicios que pretendían
contribuir a los desafíos identificados en el área de Big Data y Smart Grids, en particular: visualización
y seguimiento de los datos recogidos en tiempo real; preparación de los datos recogidos en tiempo real;
previsión en tiempo real de multillas series temporales simultáneamente; detección de anomalías;
evaluación de la precisión del predicción y generación de nuevos modelos para la previsión de consumo
y producción de energía según ciertos criterios.
Finalmente, se desarrollaron una serie de casos de estudo cuyos resultados nos permitieron concluir
sobre la importancia de la preparación previa de los datos en la fase analítica, la eficiencia en la
automatización analítica y las ventajas del análisis de borde (Edge Analytics). A diferencia de los
enfoques más tradicionales para la ejecución centralizada del proceso analítico, el análisis de borde
explora la posibilidad de realizar análisis de datos de forma descentralizada desde un punto no central
del sistema. Los resultados permitieron concluir que el análisis de borde aporta ventajas añadidas a la
precisión de los pronósticos. También nos permitieron inferir cómo recopilar los resultados para obtener
una mejor precisión en las predicciones, por ejemplo, cuanto más precisos y ajustados al contexto se
ejecuten los pronósticos, mayor será su precisión.[EN]In recent years, there has been an exponential increase of information generated and made available
every day. Due to rapid technological advancement (e.g., mobile devices, sensors, wireless
communication, etc.) billions and billions of bytes are created every day. This phenomenon, called Big
Data, is characterized by 5 Vs (i.e., Volume, Velocity, Variety, Veracity, Value) and each represents
real challenges (e.g., how to collect and carry a large amount of information; how to store this
information; how mining it, analyzing it and extracting knowledge; how to ensure its security and
privacy; how to process it in real time, etc.). It is unanimous in the scientific community that the value
to be extracted from all this information will be a factor of extreme importance for the decision making,
determining the success of the most varied economic areas, as well as the resolution of numerous
problems. These areas include the energy ecosystem that, for ecological, economic and political reasons,
led us to rethink the way we consume and produce energy. Due to the increase in energy needs caused
by technological advances, the expected depletion of non-renewable energy resources and due to the
energy efficiency directives imposed by the European Union, many studies have been carried out in the
area of energy resources management. The term Smart Grid has emerged in the last decades with the
objective of defining an intelligent energy ecosystem, which aims not only to integrate intelligence but
also to automate the extremely complex operability of all its processes. Smart grids have been the subject
of major studies and investments which have resulted in significant advances. However, some
challenges have to be addressed in the management of its complex data flow. It is in this context that
the present dissertation falls, with the main objective on obtaining solutions to some of the problems
identified in the field of Smart Grids using new techniques and methodologies proposed in the area of
Big Data.
This paper presents a study on the recent and growing technological advances in the area of Big Data,
where its major challenges are identified. These include complexity in the management of continuous
and disordered flows, the need to reduce the time spent in pre-preparation of data and the challenge of
exploring solutions that provide analytical automation. On the other hand, the study analyzes the impact
of the application in the new technologies in the development of the Smart Grids, in which it is concluded
that, although embryonic, its application is essential for the evolution of the energy ecosystem. This
study also resulted in the identification of the main challenges in the area of Smart Grids, which highlight
the complexity in managing its data flow in real time and the need to improve the accuracy of energy
consumption and production forecasts.
Given the identified challenges, a conceptual model, based on the Docker Container architecture, was
proposed for the development of a platform. This model aims at flexibility and agility in order to allow
the integration and validation of the new and growing technological approaches proposed in the area of
Big Data, necessary for the development of Smart Grids. In order to validate the proposed model, a stack was developed where several services were implemented that aimed to contribute to the challenges
identified in the area of Big Data and Smart Grids, namely: visualization and monitoring of data
collected in real time; preparation of data collected in real time; real-time forecasting of multiple time
series simultaneously; detection of anomalies; evaluation of the accuracy of forecasting and generation
of new models for the forecast of consumption and production of energy according to certain criteria.
Finally, a number of case studies were developed whose results allowed us to conclude on the
importance of the pre-preparation of the data in the analytical phase, on the efficiency in the analytical
automation and on the advantages of the Edge Analytics. Unlike more traditional approaches to the
centralized execution of the analytic process, edge analytics explores the possibility of performing data
analysis in a decentralized way from a non-central point of the system. The results allowed to conclude
that edge analytics brings added advantages to the precision of the forecasts. Results allowed us to infer
how to collect the data in order to obtain a better precision in the predictions, i.e., the more precise and
context-adjusted the forecasts are executed the greater their accuracy
- …