2 research outputs found

    オブジェクトストレージに対するクライアント協調型の重複排除方式適応への試み

    Get PDF
    近年,動画ファイルや画像データを始めとする非構造化データの増大に伴い,従来のファイルストレージのI/O にボトルネックが生じるようになった.こうした,急激に増大するデータに対する課題を解決する手段としてオブジェクトストレージと呼ばれるストレージシステムが注目を集めている.オブジェクトストレージでは,データをオブジェクトという単位でフラットな空間に保存することで安価に大容量なストレージを構築することが可能となった.一方でストレージの容量効率を高める重複排除技術も注目を集めているが,重複排除の処理には大量のメモリと処理のための時間が必要となる.そのため,低コストかつ大容量を特徴とするオブジェクトストレージにおいて通常の重複排除を適応させることは難しい. 本研究では,クライアント協調型の重複排除方式と提案することで重複排除にかかる処理負荷の一部をクライアント側へオフロードし,オブジェクトストレージに対する重複排除の適応を試みる.本稿では,提案方式実現へ向けインライン方式での重複排除機能を搭載した簡易オブジェクトストレージを実装し.重複排除の負荷実験を行った.結果として実験環境下にてデータを固定長サイズ読み込み,そのハッシュを計算する処理が,データをストレージに保存する処理と比較した時に,最大で約130 倍メモリを消費していることが分かった

    Design of Global Data Deduplication for A Scale-out Distributed Storage System

    No full text
    Scale-out distributed storage systems can uphold balanced data growth in terms of capacity and performance on an on-demand basis. However, it is a challenge to store and manage large sets of contents being generated by the explosion of data. One of the promising solutions to mitigate big data issues is data deduplication, which removes redundant data across many nodes of the storage system. Nevertheless, it is non-trivial to apply a conventional deduplication design to the scale-out storage due to the following root causes. First, chunk-lookup for deduplication is not as scalable and extendable as the underlying storage system supports. Second, managing the metadata associated to deduplication requires a huge amount of design and implementation modifications of the existing distributed storage system. Lastly, the data processing and additional I/O traffic imposed by deduplication can significantly degrade performance of the scale-out storage. To address these challenges, we propose a new deduplication method, which is highly scalable and compatible with the existing scale-out storage. Specifically, our deduplication method employs a double hashing algorithm that leverages hashes used by the underlying scale-out storage, which addresses the limits of current fingerprint hashing. In addition, our design integrates the meta-information of file system and deduplication into a single object, and it controls the deduplication ratio at online by being aware of system demands based on post-processing. We implemented the proposed deduplication method on an open source scale-out storage. The experimental results show that our design can save more than 90% of the total amount of storage space, under the execution of diverse standard storage workloads, while offering the same or similar performance, compared to the conventional scale-out storage.N
    corecore