Search CORE

39,095 research outputs found

Dynamic data transformation for low latency querying in big data systems

Author: De Turck Filip
Ordonez Ante Leandro
Van Seghbroeck Gregory
Vanhove Thomas
Volckaert Bruno
Wauters Tim
Publication venue
Publication date: 01/01/2017
Field of study

Experimental evaluation of big data querying tools

Author: Rodrigues Mário Miguel Lucas
Publication venue
Publication date: 01/01/2017
Field of study

Nos últimos anos, o termo Big Data tornou-se um tópico bastanta debatido em várias áreas de negócio. Um dos principais desafios relacionados com este conceito é como lidar com o enorme volume e variedade de dados de forma eficiente. Devido à notória complexidade e volume de dados associados ao conceito de Big Data, são necessários mecanismos de consulta eficientes para fins de análise de dados. Motivado pelo rápido desenvolvimento de ferramentas e frameworks para Big Data, há muita discussão sobre ferramentas de consulta e, mais especificamente, quais são as mais apropriadas para necessidades analíticas específica. Esta dissertação descreve e compara as principais características e arquiteturas das seguintes conhecidas ferramentas analíticas para Big Data: Drill, HAWQ, Hive, Impala, Presto e Spark. Para testar o desempenho dessas ferramentas analíticas para Big Data, descrevemos também o processo de preparação, configuração e administração de um Cluster Hadoop para que possamos instalar e utilizar essas ferramentas, tendo um ambiente capaz de avaliar seu desempenho e identificar quais cenários mais adequados à sua utilização. Para realizar esta avaliação, utilizamos os benchmarks TPC-H e TPC-DS, onde os resultados mostraram que as ferramentas de processamento em memória como HAWQ, Impala e Presto apresentam melhores resultados e desempenho em datasets de dimensão baixa e média. No entanto, as ferramentas que apresentaram tempos de execuções mais lentas, especialmente o Hive, parecem apanhar as ferramentas de melhor desempenho quando aumentamos os datasets de referência

Repositório Comum

Querying Big Social Data

Author: Fan Wenfei
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2013
Field of study

Edinburgh Research Explorer

Bounded Evaluation: Querying Big Data with Bounded Resources

Author: Cao Yang
Fan Wenfei
Yuan Tengfei
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/08/2020
Field of study

Edinburgh Research Explorer

Stochastic Block Coordinate Frank-Wolfe Algorithm for Large-Scale Biological Network Alignment

Author: Qian Xiaoning
Wang Yijie
Publication venue
Publication date: 26/05/2015
Field of study

With increasingly "big" data available in biomedical research, deriving accurate and reproducible biology knowledge from such big data imposes enormous computational challenges. In this paper, motivated by recently developed stochastic block coordinate algorithms, we propose a highly scalable randomized block coordinate Frank-Wolfe algorithm for convex optimization with general compact convex constraints, which has diverse applications in analyzing biomedical data for better understanding cellular and disease mechanisms. We focus on implementing the derived stochastic block coordinate algorithm to align protein-protein interaction networks for identifying conserved functional pathways based on the IsoRank framework. Our derived stochastic block coordinate Frank-Wolfe (SBCFW) algorithm has the convergence guarantee and naturally leads to the decreased computational cost (time and space) for each iteration. Our experiments for querying conserved functional protein complexes in yeast networks confirm the effectiveness of this technique for analyzing large-scale biological networks

arXiv.org e-Print Archive

Springer - Publisher Connector