2 research outputs found

    Tallennusmenetelmät hajautetulle dockerisoidulle pilvelle

    Get PDF
    Distributed Object and Block Storages systems are studied in this thesis and their suitability as a storage solution for a dockerized cloud was evaluated. Docker is a relatively new virtualization framework. In beginning it was designed for containerizing processes on single host environments. However, it started to be used in multi host configurations and clouds, which has caused need for persistent storage solutions which are not relaying on host machine storage. Two open source distributed storage solutions were studied. Swift is an eventually consistent Object Storage system developed for the Openstack project. Ceph is a consistent storage system including object, block and file system storage subsystems. Swift and Ceph Object Storage systems were compared against each other. The Ceph Block Storage performance was evaluated against the virtual machine disk. The results show that Ceph has double the throughput in small objects from 8KB to 128KB compared to Swift throughput, and 30% better performance in files from 256KB to 100MB. The main trend between Swift and Ceph is that Ceph has better throughput on read operations in all object sizes. The Ceph Block Storage system was able to utilize 88.5% of the virtual machine disk write throughput. Throughput efficiency was calculated by multiplying write throughput of Ceph block by three and it dividing by virtual machine disk write throughput. Ceph block throughput needed to be tripled because replication tripled amount of disk writes. Ceph journal files were not stored on the disk so those wont affect efficiency.Työssä käsitellään hajautettuja objekti- ja lohko -tallennusmenetelmiä sekä niiden sopivuutta pysyväistallennukseksi dockerisoituun pilveen. Docker on suhteellisen uusi virtualisointityökalu ja se oli alunperin suunniteltu pelkästään yhden koneen prosessien virtualisointiin. Sitä kuitenkin alettiin käyttämään pilvipalveluissa virtualisointityökaluna, mikä on aiheuttanut tarpeen hajautetulle tallentamiselle, sillä tallentaminen isäntäkoneen kovalevylle ei ole toimiva ratkaisu pilvipalveluissa. Työssä käsiteltiin kahta avoimen lähdekoodin hajautettua tallennusjärjestelmää, Swift ja Ceph. Swift on Openstack projektin objekti-tallennusjärjestelmä. Ceph puolestaan tukee hajautettuja objekti, lohko, ja tietojärjestelmä tallennusmenetelmiä. Objekti-tallennuksessa Swiftin ja Cephin suorituskykyjä verrattiin toisiinsa ja lohkotallennuksessa Cephin suorituskykyä verrattiin virtuaalikoneen suorituskykyyn. Tuloksissa huomattiin Cephin saavuttavan kaksinkertaisen suorituskyvyn verrattuna Swiftiin, kun testin objektien koko oli 8 kilotavusta 128 kilotavuun. Näitä suuremmilla objekteilla aina 100MB saakka suorituskyky ero oli enää 30 % Cephin hyväksi. Yleisesti Cephi saavutti paremman suorituskyvyn objekteja luettaessa verrattuna Swiftiin. Cephin lohko tallennus osoitti testeissä hyvää suorituskykyä kyetessään 88,5 % kirjoitus hyötysuhteeseen verrattaessa virtuaalikoneen kovalevyyn. Hyötysuhde laskettiin kertomalla Cephin lohkon surituskyky kolmella ja jakamalla se virtuaalikoneen kovalevyn suoritusteholla. Cephin suorituskyky kerrottiin kolmella sillä Cephi tallentaa kaiken kolmeen kertaan. Cephin lokikirjoituksia ei tarvinnut huomioida yhtälössä sillä niitä ei tallennettu kovalevylle

    Evaluation of Storage Systems for Big Data Analytics

    Get PDF
    abstract: Recent trends in big data storage systems show a shift from disk centric models to memory centric models. The primary challenges faced by these systems are speed, scalability, and fault tolerance. It is interesting to investigate the performance of these two models with respect to some big data applications. This thesis studies the performance of Ceph (a disk centric model) and Alluxio (a memory centric model) and evaluates whether a hybrid model provides any performance benefits with respect to big data applications. To this end, an application TechTalk is created that uses Ceph to store data and Alluxio to perform data analytics. The functionalities of the application include offline lecture storage, live recording of classes, content analysis and reference generation. The knowledge base of videos is constructed by analyzing the offline data using machine learning techniques. This training dataset provides knowledge to construct the index of an online stream. The indexed metadata enables the students to search, view and access the relevant content. The performance of the application is benchmarked in different use cases to demonstrate the benefits of the hybrid model.Dissertation/ThesisMasters Thesis Computer Science 201
    corecore