2 research outputs found
In-Network Redundancy Generation for Opportunistic Speedup of Backup
Erasure coding is a storage-efficient alternative to replication for
achieving reliable data backup in distributed storage systems. During the
storage process, traditional erasure codes require a unique source node to
create and upload all the redundant data to the different storage nodes.
However, such a source node may have limited communication and computation
capabilities, which constrain the storage process throughput. Moreover, the
source node and the different storage nodes might not be able to send and
receive data simultaneously -- e.g., nodes might be busy in a datacenter
setting, or simply be offline in a peer-to-peer setting -- which can further
threaten the efficacy of the overall storage process. In this paper we propose
an "in-network" redundancy generation process which distributes the data
insertion load among the source and storage nodes by allowing the storage nodes
to generate new redundant data by exchanging partial information among
themselves, improving the throughput of the storage process. The process is
carried out asynchronously, utilizing spare bandwidth and computing resources
from the storage nodes. The proposed approach leverages on the local
repairability property of newly proposed erasure codes tailor made for the
needs of distributed storage systems. We analytically show that the performance
of this technique relies on an efficient usage of the spare node resources, and
we derive a set of scheduling algorithms to maximize the same. We
experimentally show, using availability traces from real peer-to-peer
applications as well as Google data center availability and workload traces,
that our algorithms can, depending on the environment characteristics, increase
the throughput of the storage process significantly (up to 90% in data centers,
and 60% in peer-to-peer settings) with respect to the classical naive data
insertion approach
Modelos de Previsão de Curto Prazo para um Sistema Automatizado de Backup de Dados.
À medida em que cada vez mais a Tecnologia da Informação e Comunicação – TIC torna-se uma área crÃtica ao sucesso dos negócios, as organizações precisam adotar medidas adicionais para assegurar a disponibilidade de seus serviços (dados, aplicações, entre outros). Entretanto, os serviços de TIC muitas vezes não são planejados, analisados e monitorados a contento, o que impacta na garantia de qualidade aos clientes. O backup (cópia de segurança), serviço abordado nesta pesquisa, pode ser definido como sendo a replicação e armazenamento de dados com vistas ao restabelecimento dos negócios em situações de perdas. O objeto de estudo desta pesquisa é um dos sistemas automatizado de backup de dados em operação na Universidade Federal de Itajubá. Contudo, o principal objetivo é a construção de uma sequência lógica de passos (algoritmo), para a obtenção de modelos de previsão de curto prazo capazes de estimar em que ponto cada mÃdia de gravação atingirá sua capacidade limite de armazenamento. Os registros analisados foram coletados através dos metadados disponibilizados pelo sistema de backup em um perÃodo compreendido entre Outubro de 2012 à Maio de 2014. Para a obtenção dos modelos de previsão utilizou-se uma metodologia composta por Regressão Linear Simples Univariada em conjunto com Regressão Linear Simples Segmentada em alguns casos. Os resultados obtidos pela execução iterativa do algoritmo proposto mostraram aderência à s caracterÃsticas das séries analisadas. Foram verificadas: medidas de acurácia, significância da regressão, normalidade dos resÃduos através de cartas de controle, ajuste do modelo, entre outras. Ao final, foi concebido um pseudocódigo que torna possÃvel a automação da metodologia aplicada