39,095 research outputs found
Experimental evaluation of big data querying tools
Nos últimos anos, o termo Big Data tornou-se um tópico bastanta debatido em várias
áreas de negócio. Um dos principais desafios relacionados com este conceito é como lidar
com o enorme volume e variedade de dados de forma eficiente. Devido à notória
complexidade e volume de dados associados ao conceito de Big Data, são necessários
mecanismos de consulta eficientes para fins de análise de dados. Motivado pelo rápido
desenvolvimento de ferramentas e frameworks para Big Data, há muita discussão sobre
ferramentas de consulta e, mais especificamente, quais são as mais apropriadas para
necessidades analíticas específica. Esta dissertação descreve e compara as principais
características e arquiteturas das seguintes conhecidas ferramentas analíticas para Big Data:
Drill, HAWQ, Hive, Impala, Presto e Spark. Para testar o desempenho dessas ferramentas
analíticas para Big Data, descrevemos também o processo de preparação, configuração e
administração de um Cluster Hadoop para que possamos instalar e utilizar essas ferramentas,
tendo um ambiente capaz de avaliar seu desempenho e identificar quais cenários mais
adequados à sua utilização. Para realizar esta avaliação, utilizamos os benchmarks TPC-H e
TPC-DS, onde os resultados mostraram que as ferramentas de processamento em memória
como HAWQ, Impala e Presto apresentam melhores resultados e desempenho em datasets de
dimensão baixa e média. No entanto, as ferramentas que apresentaram tempos de execuções
mais lentas, especialmente o Hive, parecem apanhar as ferramentas de melhor desempenho
quando aumentamos os datasets de referência
Stochastic Block Coordinate Frank-Wolfe Algorithm for Large-Scale Biological Network Alignment
With increasingly "big" data available in biomedical research, deriving
accurate and reproducible biology knowledge from such big data imposes enormous
computational challenges. In this paper, motivated by recently developed
stochastic block coordinate algorithms, we propose a highly scalable randomized
block coordinate Frank-Wolfe algorithm for convex optimization with general
compact convex constraints, which has diverse applications in analyzing
biomedical data for better understanding cellular and disease mechanisms. We
focus on implementing the derived stochastic block coordinate algorithm to
align protein-protein interaction networks for identifying conserved functional
pathways based on the IsoRank framework. Our derived stochastic block
coordinate Frank-Wolfe (SBCFW) algorithm has the convergence guarantee and
naturally leads to the decreased computational cost (time and space) for each
iteration. Our experiments for querying conserved functional protein complexes
in yeast networks confirm the effectiveness of this technique for analyzing
large-scale biological networks
- …