21 research outputs found
Data Warehousing in the Cloud
Um data warehouse, mais que um conceito, é um sistema concebido para armazenar a informação relacionada com as atividades de uma organização de forma consolidada e que sirva de ponto único para toda e qualquer relatório ou análise que possa ser efetuada. Este sistema possibilita a análise de grandes volumes de informação que tipicamente têm origem nos sistemas transacionais de uma organização (OLTP – Online Transaction Processing). Este conceito surgiu da necessidade de integrar dados corporativos espalhados pelos vários servidores aplicacionais que uma organização possa ter, para que fosse possível tornar os dados acessíveis a todos os utilizadores que necessitam de consumir informação e tomar decisões com base nela. Com o surgimento de cada vez mais dados, surgiu também a necessidade de os analisar. No entanto os sistemas de data warehouse atuais não têm a capacidade suficiente para o tratamento da quantidade enorme de dados que atualmente é produzida e que necessita de ser tratada e analisada. Surge então o conceito de cloud computing. Cloud computing é um modelo que permite o acesso ubíquo e a pedido, através da Internet, a um conjunto de recursos de computação partilhados ou não (tais como redes, servidores ou armazenamento) que podem ser rapidamente aprovisionados ou libertados apenas com um simples pedido e sem intervenção humana para disponibilizar/libertar. Neste modelo, os recursos são praticamente ilimitados e em funcionamento conjunto debitam um poder de computação muito elevado que pode e deve ser utilizado para os mais variados fins. Da conjugação de ambos estes conceitos, surge o cloud data warehouse que eleva a forma como os sistemas tradicionais de data warehouse são definidos ao permitir que as suas fontes possam estar localizada em qualquer lugar desde que acessível pela Internet, tirando também partido do grande poder computacional de uma infraestrutura na nuvem. Apesar das vantagens reconhecidas, há ainda alguns desafios sendo dois dos mais sonantes a segurança e a forma como os dados são transferidos para a nuvem. Nesta dissertação foi feito um estudo comparativo entre variadas soluções de data warehouse na cloud com o objectivo de recomendar a melhor solução de entre as estudadas e alvo de testes. Foi feita uma avaliação com base em critérios da Gartner e num inquérito sobre o tema. Desta primeira avaliação surgiram as duas soluções que foram alvo de uma comparação mais fina e sobre as quais foram feitos os testes cuja avaliação ditou a recomendação.A data warehouse, rather than a concept, is a system designed to store the information related to the activities of an organization in a consolidated way and that serves as a single point of truth for any report or analysis that can be carried out. It enables the analysis of large amounts of information that typically comes from the organization's transactional systems (OLTP). This concept arose from the need to integrate corporate data across multiple application servers that an organization might have, so that it would be possible to make data accessible to all users who need to consume information and make decisions based on it. With the appearance of more and more data, there has also been a need to analyze it. However, today's data warehouse systems do not have the capacity to handle the huge amount of data that is currently produced and needs to be handled or analyzed. Then comes the concept of cloud computing. Cloud computing is a model that enables ubiquitous and on-demand access to a set of shared or non-shared computing resources (such as networks, servers, or storage) that can be quickly provisioned or released only with a simple request and without human intervention to get it done. In this model, the features are almost unlimited and in working together they bring a very high computing power that can and should be used for the most varied purposes. From the combination of both these concepts, emerges the cloud data warehouse. It elevates the way traditional data warehouse systems are defined by allowing their sources to be located anywhere as long as it is accessible through the Internet, also taking advantage of the great computational power of an infrastructure in the cloud. Despite the recognized advantages, there are still some challenges. Two of the most important are the security and the way data is transferred to the cloud. In this dissertation a comparative study between several data warehouse solutions in the cloud was carried out with the aim of recommending the best solution among the studied solutions. An assessment was made based on Gartner criteria and a survey on the subject. From this first evaluation came the two solutions that were the target of a finer comparison and on which the tests whose assessment dictated the recommendation were made
Recommended from our members
Prediction And Recommendations On The It Leaners\u27 Learning Path As A Collective Intelligence Using A Data Mining Technique
With the recent advances in computer technology along with pervasive internet accesses, data analytics is getting more attention than ever before. In addition, research areas on data analysis are diverging and integrating lots of different fields such as a business and social sector. Especially, recent researches focus on the data analysis for a better intelligent decision making and prediction system. This paper analyzes data collected from current IT learners who have already studied various IT subjects to find the IT learners’ learning patterns. The most popular learning patterns are identified through an association rule data mining using an arules package running under R studio. Experimental results are used to recommend the IT learning path to rudimentary IT learners. It is expected that our research promotes IT learning field and results in a platform of IT learning helpful to IT learners
What CIOs and CTOs Need to Know About Big Data and Data-Intensive Computing
This paper was completed as part of the final research component in the University of Oregon Applied Information Management Master's Degree Program [see htpp://aim.uoregon.edu].The nature of business computing is changing due to the proliferation of massive data sets referred to as big data, that can be used to produce business analytics (Borkar, Carey, & Li, 2012). This annotated bibliography presents literature published between 2000 and 2012. It provides information to CIOs and CTOs about big data by: (a) identifying business examples, (b) describing the relationship to data-intensive computing, (c) exploring opportunities and limitations, and (d) identifying cost factors
Experimental evaluation of big data querying tools
Nos últimos anos, o termo Big Data tornou-se um tópico bastanta debatido em várias
áreas de negócio. Um dos principais desafios relacionados com este conceito é como lidar
com o enorme volume e variedade de dados de forma eficiente. Devido à notória
complexidade e volume de dados associados ao conceito de Big Data, são necessários
mecanismos de consulta eficientes para fins de análise de dados. Motivado pelo rápido
desenvolvimento de ferramentas e frameworks para Big Data, há muita discussão sobre
ferramentas de consulta e, mais especificamente, quais são as mais apropriadas para
necessidades analíticas específica. Esta dissertação descreve e compara as principais
características e arquiteturas das seguintes conhecidas ferramentas analíticas para Big Data:
Drill, HAWQ, Hive, Impala, Presto e Spark. Para testar o desempenho dessas ferramentas
analíticas para Big Data, descrevemos também o processo de preparação, configuração e
administração de um Cluster Hadoop para que possamos instalar e utilizar essas ferramentas,
tendo um ambiente capaz de avaliar seu desempenho e identificar quais cenários mais
adequados à sua utilização. Para realizar esta avaliação, utilizamos os benchmarks TPC-H e
TPC-DS, onde os resultados mostraram que as ferramentas de processamento em memória
como HAWQ, Impala e Presto apresentam melhores resultados e desempenho em datasets de
dimensão baixa e média. No entanto, as ferramentas que apresentaram tempos de execuções
mais lentas, especialmente o Hive, parecem apanhar as ferramentas de melhor desempenho
quando aumentamos os datasets de referência
Study, selection and evaluation of an IoT platform for data collection and analysis for medical sensors
Dissertação de mestrado integrado em Medical InformaticsEvery day, huge amounts of data are generated in the healthcare environments from several
sources, such as medical sensors, EMRs, pharmacy and medical imaging. All of this
data provides a great opportunity for big data applications to discover and understand patterns
or associations between data, in order to support medical decision-making processes.
Big data technologies carry several benefits for the healthcare sector, including preventive
care, better diagnosis, personalized treatment to each patient and even reduce medical costs.
However, the storage and management of big data presents a challenge that traditional data
base management systems can not fulfill. On the contrary, NoSQL databases are distributed
and horizontally scalable data stores, representing a suitable solution for handling big data.
Most of medical data is generated from sensor embedded devices. The concept of IoT,
in the healthcare environment, enables the connection and communication of those devices
and other available resources over the Internet, to perform or help in healthcare activities
such as diagnosing, monitoring or even surgeries. IoT technologies applied to the healthcare
sector aim to improve the access and quality of care for every patient, as well as to
reduce medical costs.
This master thesis presents the integration of both big data and IoT concepts, by developing
an IoT platform designed for data collection and analysis for medical sensors. For
that purpose, an open source platform, Kaa, was deployed with both HBase and Cassandra
as NoSQL database solutions. Furthermore, a big data processing engine, Spark, was also
implemented on the system.
From the results obtained by executing several performance experiments, it is possible
to conclude that the developed platform is suitable for implementation on an healthcare
environment, where huge amounts of data are rapidly generated. The results also made it
possible to perform a comparison between the performance of the platform with Cassandra
and HBase, showing that the last one presents slightly better results in terms of the average
response time.Atualmente, uma grande quantidade de dados é gerada todos os dias em ambientes
hospitalares provenientes de diversas fontes, como por exemplo sensores médicos, registos
eletrónicos, farmácias e imagens médicas. Todos estes dados proporcionam uma grande
oportunidade para aplicações de big data, permitindo revelar e interpretar padrões ou
associações entre os dados de forma a auxiliar no processo de tomada de decisão médica.
As tecnologias de big data comportam diversos benefícios para o sector de saúde, incluindo
a prestação de cuidados preventivos, diagnósticos mais eficientes, tratamento personalizado
para cada paciente e até mesmo reduzir os custos médicos. No entanto, o armazenamento
e a gestão da big data apresenta um desafio que os sistemas de gestão de base de dados
tradicionais não são capazes de ultrapassar. Não obstante, as bases de dados NoSQL representam
uma solução de armazenamento de dados distribuída e escalável horizontalmente,
sendo, portanto, apropriadas para lidar com big data.
Uma grande parte dos dados médicos é gerada através de dispositivos embebidos com
sensores. O conceito de IoT, no ambiente das unidades de saúde, permite a conexão
e comunicação desses dispositivos e outros recursos disponíveis através da Internet, de
forma a realizar ou auxiliar nas atividades de saúde, como por exemplo o diagnóstico, a
monitorização ou atá mesmo em cirurgias. As tecnologias IoT visam melhorar o acesso e
qualidade dos cuidados de saúde para todos os pacientes, bem como reduzir os custos na
prestação dos mesmos.
Esta tese de mestrado apresenta, assim, a integração de ambos os conceitos de big data
e IoT, propondo o desenvolvimento de uma plataforma projetada para a recolha e análise
de dados de sensores médicos. Para essa finalidade, foi utilizada uma plataforma IoT
de código aberto, Kaa, juntamente com duas bases de dados NoSQL, HBase e Cassandra.
Adicionalmente, foi também implementado um mecanismo de processamento de dados,
também de código aberto, o Spark.
Com base nos resultados obtidos através da realização de diversas experiências de avaliação
de desempenho, foi possível concluir que a plataforma desenvolvida é adequada para a
implementação em ambientes de prestação de cuidados de saúde, onde grandes quantidades
de dados são rapidamente geradas. Os resultados permitiram também realizar uma
comparação entre o desempenho da plataforma com Cassandra e com HBase, realçando
que esta última apresenta resultados ligeiramente melhores em termos do tempo médio de
resposta
10381 Summary and Abstracts Collection -- Robust Query Processing
Dagstuhl seminar 10381 on robust query processing (held 19.09.10 -
24.09.10) brought together a diverse set of researchers and practitioners
with a broad range of expertise for the purpose of fostering discussion
and collaboration regarding causes, opportunities, and solutions for
achieving robust query processing.
The seminar strove to build a unified view across
the loosely-coupled system components responsible for
the various stages of database query processing.
Participants were chosen for their experience with database
query processing and, where possible, their prior work in academic
research or in product development towards robustness in database query
processing.
In order to pave the way to motivate, measure, and protect future advances
in robust query processing, seminar 10381 focused on developing tests
for measuring the robustness of query processing.
In these proceedings, we first review the seminar topics, goals,
and results, then present abstracts or notes of some of the seminar break-out
sessions.
We also include, as an appendix,
the robust query processing reading list that
was collected and distributed to participants before the seminar began,
as well as summaries of a few of those papers that were
contributed by some participants