346 research outputs found

    LDAVI : LambDa architecture driVen implementation

    Get PDF
    Data has been playing an important role in many areas of society. It has massively increased among time and can be a powerful source of knowledge. The way data is handled, and this knowledge is extracted had also to be adapted to support this huge amount of information coming from different sources. Lambda Architecture comes to supply this need of having a Big Data architecture capable of processing both historical data and stream data. We present LDAVI, a Lambda Architecture Driven Implementation based on Lambda Architecture approach (KIRAN, 2015), a data-processing architecture for handling massive amount of data by decomposing the problem into three layers: batch layer – for historical data processing - serving layer and speed layer – for streaming processing. Main technologies used for building this architecture are Apache Hadoop, Apache Spark, Apache Impala and Apache Kafka. The main focus is to this describe this architecture as well as its implementation, as it can apply to any type of problem where one needs to store and process huge amount of data – either in streaming or batch modes. Our objective in this work is to demonstrate the powerful, capacity and feasibility of this architecture and that it can be used to approach different type of Big Data scenarios. In this work we address Smart Mobility are as our case of study to evaluate LDAVI. We analyze passengers smart card and buses GPS and stops location from the city of Schenzhen, aiming to extract passengers density and flow. Lambda Architecture is a new architectural concept that emerged with the raise of Big Data Analytics. In this work we approach and provide an implementation of this architecture, building it with the main Big Data technology stack. Although it has started being used in some areas such as search engines and platforms requiring real-time processing – such as video stream players – we demonstrate that this architecture can also bring benefits for Smart Mobility, more precisely in public transportation. Differently from related works, we approach three different types of trip: simple trip, connection trip and round trip, what makes the analysis complete and more accurate.Os dados têm desempenhado um papel importante em muitas áreas da sociedade. Eles aumentaram massivamente com o tempo e podem ser uma poderosa fonte de conhecimento. A forma como os dados são tratados, e esse conhecimento é extraído, também deve ser adaptada para suportar essa enorme quantidade de informações vindas de diferentes fontes. A Lambda Architecture vem suprir essa necessidade de ter uma arquitetura Big Data capaz de processar dados históricos e dados em tempo real. Apresentamos o LDAVI, uma implementação da Lambda Architecture baseada na arquitetura Lambda (KIRAN, 2015), uma arquitetura de processamento de dados para manipular uma quantidade massiva de dados decompondo o problema em três camadas: camada de lote - para processamento de dados históricos - camada de veiculação e camada de velocidade - para processamento de streaming. As principais tecnologias usadas para construir essa arquitetura são o Apache Hadoop, o Apache Spark, o Apache Impala e o Apache Kafka. O foco principal é descrever essa arquitetura, bem como sua implementação, pois ela pode ser aplicada a qualquer tipo de problema em que seja necessário armazenar e processar uma grande quantidade de dados - nos modos de fluxo contínuo ou lote. Nosso objetivo neste trabalho é demonstrar o poder, a capacidade e a viabilidade dessa arquitetura e que ela pode ser usada para abordar diferentes tipos de cenários de Big Data. Neste trabalho, abordamos a Mobilidade Inteligente como nosso caso de estudo para avaliar o LDAVI. Analisamos os cartoes de passageiros, GPS de ônibus e paradas de ônibus da cidade de Schenzhen, com o objetivo de extrair a densidade e o fluxo de passageiros. Lambda Architecture é um novo conceito arquitetônico que surgiu com o aumento da area de Big Data Analytics. Neste trabalho, abordamos e fornecemos uma implementação dessa arquitetura, construindo-a com a principal pilha de tecnologia de Big Data. Embora tenha começado a ser usado em algumas áreas, como mecanismos de busca e plataformas que exigem processamento em tempo real - como reprodutores de fluxo de vídeo - demonstramos que essa arquitetura também pode trazer benefícios para a Mobilidade Inteligente, mais precisamente no transporte público. Diferentemente dos trabalhos relacionados, abordamos três tipos diferentes de viagem: viagem simples, viagem de conexão e ida e volta, o que torna a análise completa e mais precisa

    Big Data Reference Architectures, a systematic literature review

    Get PDF
    Today, we live in a world that produces data at an unprecedented rate. The significant amount of data has raised lots of attention and many strive to harness the power of this new material. In the same direction, academics and practitioners have considered means through which they can incorporate datadriven functions and explore patterns that were otherwise unknown. This has led to a concept called Big Data. Big Data is a field that deals with data sets that are too large and complex for traditional approaches to handle. Technical matters are fundamentally critical, but what is even more necessary, is an architecture that supports the orchestration of Big Data systems; an image of the system providing with clear understanding of different elements and their interdependencies. Reference architectures aid in defining the body of system and its key components, relationships, behaviors, patterns and limitations. This study provides an in-depth review of Big Data Reference Architectures by applying a systematic literature review. The study demonstrates a synthesis of high-quality research to offer indications of new trends. The study contributes to the body of knowledge on the principles of Reference Architectures, the current state of Big Data Reference Architectures, and their limitations

    Automation of Smart Grid operations through spatio-temporal data-driven systems

    Get PDF

    Responsible Knowledge Management in Energy Data Ecosystems

    Get PDF
    This paper analyzes the challenges and requirements of establishing energy data ecosystems (EDEs) as data-driven infrastructures that overcome the limitations of currently fragmented energy applications. It proposes a new data- and knowledge-driven approach for management and processing. This approach aims to extend the analytics services portfolio of various energy stakeholders and achieve two-way flows of electricity and information for optimized generation, distribution, and electricity consumption. The approach is based on semantic technologies to create knowledge-based systems that will aid machines in integrating and processing resources contextually and intelligently. Thus, a paradigm shift in the energy data value chain is proposed towards transparency and the responsible management of data and knowledge exchanged by the various stakeholders of an energy data space. The approach can contribute to innovative energy management and the adoption of new business models in future energy data spaces

    Responsible Knowledge Management in Energy Data Ecosystems

    Get PDF
    This paper analyzes the challenges and requirements of establishing energy data ecosystems (EDEs) as data-driven infrastructures that overcome the limitations of currently fragmented energy applications. It proposes a new data-and knowledge-driven approach for management and process-ing. This approach aims to extend the analytics services portfolio of various energy stakeholders and achieve two-way flows of electricity and information for optimized generation, distribution, and electricity consumption. The approach is based on semantic technologies to create knowledge-based systems that will aid machines in integrating and processing resources contextually and intelligently. Thus, a paradigm shift in the energy data value chain is proposed towards transparency and the responsible management of data and knowledge exchanged by the various stakeholders of an energy data space. The approach can contribute to innovative energy management and the adoption of new business models in future energy data spaces. © 2022 by the authors. Licensee MDPI, Basel, Switzerland

    Development and Evaluation of a Big Data Framework for Performance Management in Mobile Networks

    Get PDF
    In telecommunications, Performance Management (PM) data are collected from network elements to a centralized system, the Network Management System (NMS), which acts as a business intelligence tool specialized in monitoring and reporting network performance. Performance Management files contain the metrics and named counters used to quantify the performance of the network. Current NMS implementations have limitations in scalability and support for volume, variety, and velocity of the collected PM data, especially for 5G and 6G mobile network technologies. To overcome these limitations, we proposed a Big Data framework based on an analysis of the following components: software architecture, ingestion, data lake, processing, reporting, and deployment. Our work analyzed the PM files’ format on a real data set from four different vendors and 2G, 3G, 4G, and 5G technologies. Then, we experimentally assessed our proposed framework’s feasibility through a case study involving 5G PM files. Test results of the ingestion and reporting components are presented, identifying the hardware and software required to support up to one billion counters per hour. This proposal can help telecommunications operators to have a reference Big Data framework to face the current and future challenges in the NMS, for instance, the support of data analytics in addition to the well-known services.This work was supported by the Unidad de Gestión de Investigación y Proyección Social from the Escuela Politécnica Nacional

    Cloud Based IoT Architecture

    Get PDF
    The Internet of Things (IoT) and cloud computing have grown in popularity over the past decade as the internet becomes faster and more ubiquitous. Cloud platforms are well suited to handle IoT systems as they are accessible and resilient, and they provide a scalable solution to store and analyze large amounts of IoT data. IoT applications are complex software systems and software developers need to have a thorough understanding of the capabilities, limitations, architecture, and design patterns of cloud platforms and cloud-based IoT tools to build an efficient, maintainable, and customizable IoT application. As the IoT landscape is constantly changing, research into cloud-based IoT platforms is either lacking or out of date. The goal of this thesis is to describe the basic components and requirements for a cloud-based IoT platform, to provide useful insights and experiences in implementing a cloud-based IoT solution using Microsoft Azure, and to discuss some of the shortcomings when combining IoT with a cloud platform

    Big Data na gestão eficiente das Smart Grids. HDS: Uma Plataforma Híbrida, Dinâmica e Inteligente

    Get PDF
    [POR]Nos últimos anos tem-se verificado um acréscimo exponencial de informação gerada e disponibilizada a cada dia. Devido ao rápido avanço tecnológico (dispositivos móveis; sensores; comunicação wireless; etc.) biliões e biliões de bytes são criados todos os dias. Este fenómeno, denominado por Big Data, é caracterizado por 5 Vs (i.e. Volume, Velocidade, Variedade, Veracidade, Valor) e cada um deles representa verdadeiros desafios (e.g. como recolher e transportar um grande volume de informação; como armazenar essa informação; como minerá-la, como analisá-la e extrair conhecimento, como garantir a sua segurança e privacidade, como processá-la em tempo real, etc.). É unanime na comunidade científica que o valor a extrair de toda esta informação constituirá um fator de extrema importância para a tomada de decisão, determinante no sucesso das mais variadíssimas áreas económicas, bem como na resolução de inúmeros problemas. Nestas áreas inclui-se o ecossistema energético que por razões ecológicas, económicas e políticas conduziu ao repensar da forma como consumimos e produzimos energia. Devido ao aumento das necessidades energéticas provocado pelo avanço tecnológico, ao previsto esgotamento dos recursos energéticos não renováveis e devido às diretivas para a eficiência energética impostas pela União Europeia, muitos têm sido os estudos feitos na área da gestão de recursos energéticos. O termo Smart Grids surgiu nas últimas décadas com o objetivo de definir um ecossistema energético inteligente, que visa não só a integração de inteligência, mas também de automação na operabilidade extremamente complexa de todos os seus processos. As Smart Grids têm sido alvo de grandes estudos e investimentos dos quais têm resultado avanços significativos. No entanto, alguns desafios estão ainda por concretizar nomeadamente na gestão do seu complexo fluxo de dados. É neste contexto que se enquadra a presente dissertação cujo principal objetivo se centra na obtenção de soluções para alguns dos problemas identificados no domínio de Smart Grids com recurso às novas técnicas e metodologias propostas na área de Big Data. Este trabalho apresenta um estudo sobre os recentes e crescentes avanços tecnológicos realizados na área de Big Data, onde são identificados os seus grandes desafios. Destes destacam-se a complexidade na gestão de fluxos contínuos e desordenados, a necessidade de reduzir o tempo despendido na prépreparação dos dados e o desafio de explorar soluções que proporcionem a automatização analítica. Por outro lado, o estudo analisa o impacto da aplicação nas novas tecnologias no desenvolvimento das Smart Grids, no qual se conclui que apesar de embrionária, a sua aplicação é imprescindível para a evolução do ecossistema energético. Deste estudo resultou ainda a identificação dos principais desafios na área das Smart Grids, dos quais se destacam a complexidade na gestão do seu fluxo de dados em tempo real e a necessidade de melhorar a precisão das previsões de consumo e produção de energia. Face aos desafios identificados foi proposto um modelo conceptual, baseado na arquitetura Docker Container, para o desenvolvimento de uma plataforma. Este modelo objetiva a flexibilidade e agilidade de forma a permitir a integração e validação das novas e crescentes abordagens tecnológicas propostas na área de Big Data, necessárias ao desenvolvimento das Smart Grids. A fim de validar o modelo proposto, foi desenvolvida uma stack onde foram implementados vários serviços que visaram contribuir para os desafios identificados na área de Big Data e Smart Grids, nomeadamente: visualização e monitorização dos dados recolhidos em tempo real; preparação dos dados recolhidos em tempo real; previsão em tempo real de várias séries temporais simultaniamente; deteção de anomalias; avaliação da precisão das previsões e geração de novos modelos para a previsão de consumo e produção de energia segundo determinados critérios. Finalmente foram desenvolvidos vários casos de estudo cujos resultados obtidos permitiram concluir sobre a importância da pré-preparação dos dados na fase analítica, sobre a eficiência na automatização analítica e sobre as vantagens da análise de ponta (Edge Analytics). Ao contrário de abordagens mais tradicionais que visam a execução centralizada do processo analítico, o edge analytics explora a possibilidade de executar a analise de dados de forma descentralizada a partir de um ponto não central do sistema. Os resultados permitiram concluir que o edge analytics traz vantagens acrescidas para a precisão das previsões. Permitiram ainda, inferir sobre como recolher os resultados a fim de se obter uma melhor precisão nas previsões, i.e., quanto mais específica e ajustada ao contexto forem executadas as previsões maior será a sua precisão.[ES]En los últimos años se ha verificado un aumento exponencial de información generada y disponible cada día. Debido al rápido avance tecnológico (dispositivos móviles, sensores, comunicación inalámbrica, etc.) billones y billones de bytes se crean todos los días. Este fenómeno, denominado Big Data, se caracteriza por 5 Vs (es decir, Volumen, Velocidad, Variedad, Veracidad, Valor) y cada uno de ellos representa verdaderos desafíos (por ejemplo, cómo recoger y transportar un gran volumen de información, cómo almacenar esa información, minarla, cómo analizarla y extraer conocimiento, cómo garantizar su seguridad y privacidad, cómo procesarla en tiempo real, etc.). Es unánime en la comunidad científica que el valor a extraer de toda esta información constituirá un factor de extrema importancia para la toma de decisión, determinante el éxito de las variadísimas áreas económicas, así como en la resolución de innumerables problemas. En estas áreas se incluye el ecosistema energético que por razones ecológicas, económicas y políticas condujo a repensar la forma en que consumimos y producimos energía. Debido al aumento de las necesidades energéticas provocado por el avance tecnológico, al previsto agotamiento de los recursos energéticos no renovables y debido a las directivas para la eficiencia energética impuestas por la Unión Europea, muchos han sido los estudios realizados en el ámbito de la gestión de recursos energéticos. El término Smart Grid surgió en las últimas décadas con el objetivo de definir un ecosistema energético inteligente, que apunta no sólo a la integración de inteligencia, sino también de automatización en la operatividad extremadamente compleja de todos sus procesos. Las Smart Grids han sido objeto de grandes estudios e inversiones de los cuales han resultado avances significativos. Sin embargo, algunos desafíos aún no se concretan en la gestión de su complejo flujo de datos. Es en este contexto que se encuadra la presente disertación cuyo principal objetivo se centra en la obtención de soluciones para algunos de los problemas identificados en el dominio de Smart Grids utilizando las nuevas técnicas y metodologías propuestas en el área de Big Data. Este trabajo presenta un estudio sobre los recientes y crecientes avances tecnológicos realizados en el área de Big Data, donde se identifican sus grandes desafíos. De ellos se destacan la complejidad en la gestión de flujos continuos y desordenados, la necesidad de reducir el tiempo empleado en la prepreparación de los datos y el desafío de explorar soluciones que proporcionen la automatización analítica. Por otro lado, el estudio analiza el impacto de la aplicación de nuevas tecnologías en el desarrollo de las Smart Grids, en el que se concluye que, a pesar de embrionaria, su aplicación es imprescindible para la evolución del ecosistema energético. De este estudio resultó también la identificación de los principales desafíos en el área de las Smart Grids, de los cuales se destacan la complejidad en la gestión de su flujo de datos en tiempo real y la necesidad de mejorar la precisión de las previsiones de consumo y producción de energía. En cuanto a los desafíos identificados, se propuso un modelo conceptual, basado en la arquitectura Docker Container, para el desarrollo de una plataforma. Este modelo tiene como objetivo la flexibilidad y agilidad para permitir la integración y validación de los nuevos y crecientes enfoques tecnológicos propuestos en el área de Big Data, necesarios para el desarrollo de las Smart Grids. Con el fin de validar el modelo propuesto, se desarrolló una stack donde se implementaron varios servicios que pretendían contribuir a los desafíos identificados en el área de Big Data y Smart Grids, en particular: visualización y seguimiento de los datos recogidos en tiempo real; preparación de los datos recogidos en tiempo real; previsión en tiempo real de multillas series temporales simultáneamente; detección de anomalías; evaluación de la precisión del predicción y generación de nuevos modelos para la previsión de consumo y producción de energía según ciertos criterios. Finalmente, se desarrollaron una serie de casos de estudo cuyos resultados nos permitieron concluir sobre la importancia de la preparación previa de los datos en la fase analítica, la eficiencia en la automatización analítica y las ventajas del análisis de borde (Edge Analytics). A diferencia de los enfoques más tradicionales para la ejecución centralizada del proceso analítico, el análisis de borde explora la posibilidad de realizar análisis de datos de forma descentralizada desde un punto no central del sistema. Los resultados permitieron concluir que el análisis de borde aporta ventajas añadidas a la precisión de los pronósticos. También nos permitieron inferir cómo recopilar los resultados para obtener una mejor precisión en las predicciones, por ejemplo, cuanto más precisos y ajustados al contexto se ejecuten los pronósticos, mayor será su precisión.[EN]In recent years, there has been an exponential increase of information generated and made available every day. Due to rapid technological advancement (e.g., mobile devices, sensors, wireless communication, etc.) billions and billions of bytes are created every day. This phenomenon, called Big Data, is characterized by 5 Vs (i.e., Volume, Velocity, Variety, Veracity, Value) and each represents real challenges (e.g., how to collect and carry a large amount of information; how to store this information; how mining it, analyzing it and extracting knowledge; how to ensure its security and privacy; how to process it in real time, etc.). It is unanimous in the scientific community that the value to be extracted from all this information will be a factor of extreme importance for the decision making, determining the success of the most varied economic areas, as well as the resolution of numerous problems. These areas include the energy ecosystem that, for ecological, economic and political reasons, led us to rethink the way we consume and produce energy. Due to the increase in energy needs caused by technological advances, the expected depletion of non-renewable energy resources and due to the energy efficiency directives imposed by the European Union, many studies have been carried out in the area of energy resources management. The term Smart Grid has emerged in the last decades with the objective of defining an intelligent energy ecosystem, which aims not only to integrate intelligence but also to automate the extremely complex operability of all its processes. Smart grids have been the subject of major studies and investments which have resulted in significant advances. However, some challenges have to be addressed in the management of its complex data flow. It is in this context that the present dissertation falls, with the main objective on obtaining solutions to some of the problems identified in the field of Smart Grids using new techniques and methodologies proposed in the area of Big Data. This paper presents a study on the recent and growing technological advances in the area of Big Data, where its major challenges are identified. These include complexity in the management of continuous and disordered flows, the need to reduce the time spent in pre-preparation of data and the challenge of exploring solutions that provide analytical automation. On the other hand, the study analyzes the impact of the application in the new technologies in the development of the Smart Grids, in which it is concluded that, although embryonic, its application is essential for the evolution of the energy ecosystem. This study also resulted in the identification of the main challenges in the area of Smart Grids, which highlight the complexity in managing its data flow in real time and the need to improve the accuracy of energy consumption and production forecasts. Given the identified challenges, a conceptual model, based on the Docker Container architecture, was proposed for the development of a platform. This model aims at flexibility and agility in order to allow the integration and validation of the new and growing technological approaches proposed in the area of Big Data, necessary for the development of Smart Grids. In order to validate the proposed model, a stack was developed where several services were implemented that aimed to contribute to the challenges identified in the area of Big Data and Smart Grids, namely: visualization and monitoring of data collected in real time; preparation of data collected in real time; real-time forecasting of multiple time series simultaneously; detection of anomalies; evaluation of the accuracy of forecasting and generation of new models for the forecast of consumption and production of energy according to certain criteria. Finally, a number of case studies were developed whose results allowed us to conclude on the importance of the pre-preparation of the data in the analytical phase, on the efficiency in the analytical automation and on the advantages of the Edge Analytics. Unlike more traditional approaches to the centralized execution of the analytic process, edge analytics explores the possibility of performing data analysis in a decentralized way from a non-central point of the system. The results allowed to conclude that edge analytics brings added advantages to the precision of the forecasts. Results allowed us to infer how to collect the data in order to obtain a better precision in the predictions, i.e., the more precise and context-adjusted the forecasts are executed the greater their accuracy
    corecore