2 research outputs found

    In-Network Redundancy Generation for Opportunistic Speedup of Backup

    Full text link
    Erasure coding is a storage-efficient alternative to replication for achieving reliable data backup in distributed storage systems. During the storage process, traditional erasure codes require a unique source node to create and upload all the redundant data to the different storage nodes. However, such a source node may have limited communication and computation capabilities, which constrain the storage process throughput. Moreover, the source node and the different storage nodes might not be able to send and receive data simultaneously -- e.g., nodes might be busy in a datacenter setting, or simply be offline in a peer-to-peer setting -- which can further threaten the efficacy of the overall storage process. In this paper we propose an "in-network" redundancy generation process which distributes the data insertion load among the source and storage nodes by allowing the storage nodes to generate new redundant data by exchanging partial information among themselves, improving the throughput of the storage process. The process is carried out asynchronously, utilizing spare bandwidth and computing resources from the storage nodes. The proposed approach leverages on the local repairability property of newly proposed erasure codes tailor made for the needs of distributed storage systems. We analytically show that the performance of this technique relies on an efficient usage of the spare node resources, and we derive a set of scheduling algorithms to maximize the same. We experimentally show, using availability traces from real peer-to-peer applications as well as Google data center availability and workload traces, that our algorithms can, depending on the environment characteristics, increase the throughput of the storage process significantly (up to 90% in data centers, and 60% in peer-to-peer settings) with respect to the classical naive data insertion approach

    Modelos de Previsão de Curto Prazo para um Sistema Automatizado de Backup de Dados.

    Get PDF
    À medida em que cada vez mais a Tecnologia da Informação e Comunicação – TIC torna-se uma área crítica ao sucesso dos negócios, as organizações precisam adotar medidas adicionais para assegurar a disponibilidade de seus serviços (dados, aplicações, entre outros). Entretanto, os serviços de TIC muitas vezes não são planejados, analisados e monitorados a contento, o que impacta na garantia de qualidade aos clientes. O backup (cópia de segurança), serviço abordado nesta pesquisa, pode ser definido como sendo a replicação e armazenamento de dados com vistas ao restabelecimento dos negócios em situações de perdas. O objeto de estudo desta pesquisa é um dos sistemas automatizado de backup de dados em operação na Universidade Federal de Itajubá. Contudo, o principal objetivo é a construção de uma sequência lógica de passos (algoritmo), para a obtenção de modelos de previsão de curto prazo capazes de estimar em que ponto cada mídia de gravação atingirá sua capacidade limite de armazenamento. Os registros analisados foram coletados através dos metadados disponibilizados pelo sistema de backup em um período compreendido entre Outubro de 2012 à Maio de 2014. Para a obtenção dos modelos de previsão utilizou-se uma metodologia composta por Regressão Linear Simples Univariada em conjunto com Regressão Linear Simples Segmentada em alguns casos. Os resultados obtidos pela execução iterativa do algoritmo proposto mostraram aderência às características das séries analisadas. Foram verificadas: medidas de acurácia, significância da regressão, normalidade dos resíduos através de cartas de controle, ajuste do modelo, entre outras. Ao final, foi concebido um pseudocódigo que torna possível a automação da metodologia aplicada
    corecore