3 research outputs found

    大数据技术基础

    Get PDF
    本教程由厦门大学计算机科学系教师林子雨对大量网络资料和相关书籍内容进行阅读整理后编写而成,可以作为计算机专业研究生课程《大数据技术基础》的辅助教材。林子雨的E-mail是:[email protected] 林子雨的个人主页是:http://www.cs.xmu.edu.cn/linziyu介绍大数据技术相关基础知识,包括大数据概述、大数据处理模型、大数据关键技术、大数据时代面临的新挑战、NoSQL数据库、云数据库、Google Spanner、Hadoop、HDFS、HBase、MapReduce、Zookeeper、流计算、图计算和Google Dremel等

    Architecture of a Database System

    Get PDF
    数据库管理系统(DBMS)广泛存在于现代计算机系统中,并且是其重要的组成部分。它是学术界以及工业界数十年研究和发展的成果。在计算机发展史上,数据库属于最早开发的多用户服务系统之一,因此,它的研究也催生了许多为保证系统可拓展性以及稳定性的系统开发技术,这些技术如今被应用于许多其他的领域。虽然许多数据库的相关算法和概念广泛见于教科书中,但关于如何让一个数据库工作的系统设计问题却鲜有资料介绍。本文从体系架构角度探讨数据库设计的一些准则,包括处理模型、并行架构、存储系统设计、事务处理系统、查询处理及优化结构以及具有代表性的共享组件和应用。当业界有多种设计方式可供选择时,我们以当前成功的商业开源软件作为参考标准

    SALA: A Skew-avoiding and Locality-aware Algorithm for MapReduce-based Join

    No full text
    MapReduce是由Google提出的并行计算框架,具备高可扩展性、高可用性和良好的容错性,现已广泛应用于处理大规模数据。连接操作是大数据分析中的一个常见运算,随着数据规模的进一步增大,如何有效处理基于MapReduce的连接操作成为学术界与工业界的一个研究热点。 然而,传统的基于MapReduce的连接算法在处理倾斜数据时效率不高,主要存在两个问题:(1)传统算法采用的哈希分区模式在划分数据时容易发生分区倾斜,从而导致负载不均,最终延长了整个连接操作的完成时间;(2)连接操作在Map阶段产生了大量中间结果,传统算法没有考虑数据局部性,因此需要消耗较多时间在网络中传输中间结果。传统的基于M...MapReduce proposed by Google is a parallel programming model and now widely used in processing large-scale data with its high scalability, availability and fault-tolerance. With the further increase in the size of the data, how to deal with the join operation which is a common operation in data analysis based on MapReduce has become the hotspot both in academia and industry area. However, traditi...学位:工程硕士院系专业:信息科学与技术学院_工程硕士(计算机技术)学号:2302013115317
    corecore