21 research outputs found

    Data Warehousing in the Cloud

    Get PDF
    Um data warehouse, mais que um conceito, é um sistema concebido para armazenar a informação relacionada com as atividades de uma organização de forma consolidada e que sirva de ponto único para toda e qualquer relatório ou análise que possa ser efetuada. Este sistema possibilita a análise de grandes volumes de informação que tipicamente têm origem nos sistemas transacionais de uma organização (OLTP – Online Transaction Processing). Este conceito surgiu da necessidade de integrar dados corporativos espalhados pelos vários servidores aplicacionais que uma organização possa ter, para que fosse possível tornar os dados acessíveis a todos os utilizadores que necessitam de consumir informação e tomar decisões com base nela. Com o surgimento de cada vez mais dados, surgiu também a necessidade de os analisar. No entanto os sistemas de data warehouse atuais não têm a capacidade suficiente para o tratamento da quantidade enorme de dados que atualmente é produzida e que necessita de ser tratada e analisada. Surge então o conceito de cloud computing. Cloud computing é um modelo que permite o acesso ubíquo e a pedido, através da Internet, a um conjunto de recursos de computação partilhados ou não (tais como redes, servidores ou armazenamento) que podem ser rapidamente aprovisionados ou libertados apenas com um simples pedido e sem intervenção humana para disponibilizar/libertar. Neste modelo, os recursos são praticamente ilimitados e em funcionamento conjunto debitam um poder de computação muito elevado que pode e deve ser utilizado para os mais variados fins. Da conjugação de ambos estes conceitos, surge o cloud data warehouse que eleva a forma como os sistemas tradicionais de data warehouse são definidos ao permitir que as suas fontes possam estar localizada em qualquer lugar desde que acessível pela Internet, tirando também partido do grande poder computacional de uma infraestrutura na nuvem. Apesar das vantagens reconhecidas, há ainda alguns desafios sendo dois dos mais sonantes a segurança e a forma como os dados são transferidos para a nuvem. Nesta dissertação foi feito um estudo comparativo entre variadas soluções de data warehouse na cloud com o objectivo de recomendar a melhor solução de entre as estudadas e alvo de testes. Foi feita uma avaliação com base em critérios da Gartner e num inquérito sobre o tema. Desta primeira avaliação surgiram as duas soluções que foram alvo de uma comparação mais fina e sobre as quais foram feitos os testes cuja avaliação ditou a recomendação.A data warehouse, rather than a concept, is a system designed to store the information related to the activities of an organization in a consolidated way and that serves as a single point of truth for any report or analysis that can be carried out. It enables the analysis of large amounts of information that typically comes from the organization's transactional systems (OLTP). This concept arose from the need to integrate corporate data across multiple application servers that an organization might have, so that it would be possible to make data accessible to all users who need to consume information and make decisions based on it. With the appearance of more and more data, there has also been a need to analyze it. However, today's data warehouse systems do not have the capacity to handle the huge amount of data that is currently produced and needs to be handled or analyzed. Then comes the concept of cloud computing. Cloud computing is a model that enables ubiquitous and on-demand access to a set of shared or non-shared computing resources (such as networks, servers, or storage) that can be quickly provisioned or released only with a simple request and without human intervention to get it done. In this model, the features are almost unlimited and in working together they bring a very high computing power that can and should be used for the most varied purposes. From the combination of both these concepts, emerges the cloud data warehouse. It elevates the way traditional data warehouse systems are defined by allowing their sources to be located anywhere as long as it is accessible through the Internet, also taking advantage of the great computational power of an infrastructure in the cloud. Despite the recognized advantages, there are still some challenges. Two of the most important are the security and the way data is transferred to the cloud. In this dissertation a comparative study between several data warehouse solutions in the cloud was carried out with the aim of recommending the best solution among the studied solutions. An assessment was made based on Gartner criteria and a survey on the subject. From this first evaluation came the two solutions that were the target of a finer comparison and on which the tests whose assessment dictated the recommendation were made

    What CIOs and CTOs Need to Know About Big Data and Data-Intensive Computing

    Get PDF
    This paper was completed as part of the final research component in the University of Oregon Applied Information Management Master's Degree Program [see htpp://aim.uoregon.edu].The nature of business computing is changing due to the proliferation of massive data sets referred to as big data, that can be used to produce business analytics (Borkar, Carey, & Li, 2012). This annotated bibliography presents literature published between 2000 and 2012. It provides information to CIOs and CTOs about big data by: (a) identifying business examples, (b) describing the relationship to data-intensive computing, (c) exploring opportunities and limitations, and (d) identifying cost factors

    Towards a big data reference architecture

    Get PDF

    Experimental evaluation of big data querying tools

    Get PDF
    Nos últimos anos, o termo Big Data tornou-se um tópico bastanta debatido em várias áreas de negócio. Um dos principais desafios relacionados com este conceito é como lidar com o enorme volume e variedade de dados de forma eficiente. Devido à notória complexidade e volume de dados associados ao conceito de Big Data, são necessários mecanismos de consulta eficientes para fins de análise de dados. Motivado pelo rápido desenvolvimento de ferramentas e frameworks para Big Data, há muita discussão sobre ferramentas de consulta e, mais especificamente, quais são as mais apropriadas para necessidades analíticas específica. Esta dissertação descreve e compara as principais características e arquiteturas das seguintes conhecidas ferramentas analíticas para Big Data: Drill, HAWQ, Hive, Impala, Presto e Spark. Para testar o desempenho dessas ferramentas analíticas para Big Data, descrevemos também o processo de preparação, configuração e administração de um Cluster Hadoop para que possamos instalar e utilizar essas ferramentas, tendo um ambiente capaz de avaliar seu desempenho e identificar quais cenários mais adequados à sua utilização. Para realizar esta avaliação, utilizamos os benchmarks TPC-H e TPC-DS, onde os resultados mostraram que as ferramentas de processamento em memória como HAWQ, Impala e Presto apresentam melhores resultados e desempenho em datasets de dimensão baixa e média. No entanto, as ferramentas que apresentaram tempos de execuções mais lentas, especialmente o Hive, parecem apanhar as ferramentas de melhor desempenho quando aumentamos os datasets de referência

    Study, selection and evaluation of an IoT platform for data collection and analysis for medical sensors

    Get PDF
    Dissertação de mestrado integrado em Medical InformaticsEvery day, huge amounts of data are generated in the healthcare environments from several sources, such as medical sensors, EMRs, pharmacy and medical imaging. All of this data provides a great opportunity for big data applications to discover and understand patterns or associations between data, in order to support medical decision-making processes. Big data technologies carry several benefits for the healthcare sector, including preventive care, better diagnosis, personalized treatment to each patient and even reduce medical costs. However, the storage and management of big data presents a challenge that traditional data base management systems can not fulfill. On the contrary, NoSQL databases are distributed and horizontally scalable data stores, representing a suitable solution for handling big data. Most of medical data is generated from sensor embedded devices. The concept of IoT, in the healthcare environment, enables the connection and communication of those devices and other available resources over the Internet, to perform or help in healthcare activities such as diagnosing, monitoring or even surgeries. IoT technologies applied to the healthcare sector aim to improve the access and quality of care for every patient, as well as to reduce medical costs. This master thesis presents the integration of both big data and IoT concepts, by developing an IoT platform designed for data collection and analysis for medical sensors. For that purpose, an open source platform, Kaa, was deployed with both HBase and Cassandra as NoSQL database solutions. Furthermore, a big data processing engine, Spark, was also implemented on the system. From the results obtained by executing several performance experiments, it is possible to conclude that the developed platform is suitable for implementation on an healthcare environment, where huge amounts of data are rapidly generated. The results also made it possible to perform a comparison between the performance of the platform with Cassandra and HBase, showing that the last one presents slightly better results in terms of the average response time.Atualmente, uma grande quantidade de dados é gerada todos os dias em ambientes hospitalares provenientes de diversas fontes, como por exemplo sensores médicos, registos eletrónicos, farmácias e imagens médicas. Todos estes dados proporcionam uma grande oportunidade para aplicações de big data, permitindo revelar e interpretar padrões ou associações entre os dados de forma a auxiliar no processo de tomada de decisão médica. As tecnologias de big data comportam diversos benefícios para o sector de saúde, incluindo a prestação de cuidados preventivos, diagnósticos mais eficientes, tratamento personalizado para cada paciente e até mesmo reduzir os custos médicos. No entanto, o armazenamento e a gestão da big data apresenta um desafio que os sistemas de gestão de base de dados tradicionais não são capazes de ultrapassar. Não obstante, as bases de dados NoSQL representam uma solução de armazenamento de dados distribuída e escalável horizontalmente, sendo, portanto, apropriadas para lidar com big data. Uma grande parte dos dados médicos é gerada através de dispositivos embebidos com sensores. O conceito de IoT, no ambiente das unidades de saúde, permite a conexão e comunicação desses dispositivos e outros recursos disponíveis através da Internet, de forma a realizar ou auxiliar nas atividades de saúde, como por exemplo o diagnóstico, a monitorização ou atá mesmo em cirurgias. As tecnologias IoT visam melhorar o acesso e qualidade dos cuidados de saúde para todos os pacientes, bem como reduzir os custos na prestação dos mesmos. Esta tese de mestrado apresenta, assim, a integração de ambos os conceitos de big data e IoT, propondo o desenvolvimento de uma plataforma projetada para a recolha e análise de dados de sensores médicos. Para essa finalidade, foi utilizada uma plataforma IoT de código aberto, Kaa, juntamente com duas bases de dados NoSQL, HBase e Cassandra. Adicionalmente, foi também implementado um mecanismo de processamento de dados, também de código aberto, o Spark. Com base nos resultados obtidos através da realização de diversas experiências de avaliação de desempenho, foi possível concluir que a plataforma desenvolvida é adequada para a implementação em ambientes de prestação de cuidados de saúde, onde grandes quantidades de dados são rapidamente geradas. Os resultados permitiram também realizar uma comparação entre o desempenho da plataforma com Cassandra e com HBase, realçando que esta última apresenta resultados ligeiramente melhores em termos do tempo médio de resposta

    10381 Summary and Abstracts Collection -- Robust Query Processing

    Get PDF
    Dagstuhl seminar 10381 on robust query processing (held 19.09.10 - 24.09.10) brought together a diverse set of researchers and practitioners with a broad range of expertise for the purpose of fostering discussion and collaboration regarding causes, opportunities, and solutions for achieving robust query processing. The seminar strove to build a unified view across the loosely-coupled system components responsible for the various stages of database query processing. Participants were chosen for their experience with database query processing and, where possible, their prior work in academic research or in product development towards robustness in database query processing. In order to pave the way to motivate, measure, and protect future advances in robust query processing, seminar 10381 focused on developing tests for measuring the robustness of query processing. In these proceedings, we first review the seminar topics, goals, and results, then present abstracts or notes of some of the seminar break-out sessions. We also include, as an appendix, the robust query processing reading list that was collected and distributed to participants before the seminar began, as well as summaries of a few of those papers that were contributed by some participants
    corecore