46 research outputs found

    Passive NFS Tracing of Email and Research Workloads

    Get PDF
    We present an analysis of a pair of NFS traces of contemporary email and research workloads. We show that although the research workload resembles previously studied workloads, the email workload is quite different. We also perform several new analyses that demonstrate the periodic nature of file system activity, the effect of out-of-order NFS calls, and the strong relationship between the name of a file and its size, lifetime, and access pattern.Engineering and Applied Science

    Capture and analysis of the NFS workload of an ISP email service

    Get PDF
    Tese de mestrado Segurança Informática, Universidade de Lisboa, Faculdade de Ciências, 2009Os objectivos desta tese são capturar a carga de comandos NFS de um serviço de email de um provedor de Internet, converter a captura para um formato mais flexível, e analisar as características do mesmo. Até ao momento, nenhum outro trabalho publicado, analisou a carga de comandos de um serviço de email de um provedor de Internet. Um novo estudo, irá ajudar a compreender qual o impacto das diferenças na carga de comandos de um sistema de ficheiros de rede, e o que caracteriza a carga de comandos de um sistema de email real. A captura será analisada, de forma a encontrar novas propriedades que futuros sistemas de ficheiros poderão suportar ou explorar. Nesta tese, fazemos uma análise exaustiva de como capturar altos débitos de tráfego, que envolve vários desafios. Identificamos os problemas encontrados e explicamos como contornar esses problemas. Devido ao elevado tamanho da captura e devido ao espaço limitado de armazenamento disponível, precisámos de converter a captura para um formato mais compacto e flexível, de forma a podermos fazer uma análise de forma eficiente. Descrevemos os desafios para analisar grandes volumes de dados e quais as técnicas utilizadas. Visto que a captura contém dados sensíveis das caixas de correio dos utilizadores, tivemos que anonimizar a captura. Descrevemos que dados têm de ser anonimizados de forma a disponibilizarmos a captura gratuitamente. Também analisamos a captura e demonstramos as características únicas da captura estudada, tais como a natureza periódica da actividade do sistema de ficheiros, a distribuição de tamanhos de todos os ficheiros acedidos, a sequencialidade dos dados acedidos e os tipos de anexos mais comuns numa típica caixa de correio.The aims of this thesis are to capture a real-world NFS workload of an ISP email service, convert the traces to a more useful and flexible format and analyze the characteristics of the workload. No published work has ever analyzed a large-scale, real-world ISP email workload. A new study will help to understand how these changes impact network file system workloads and what characterizes a real-world email workload. Storage traces are analyzed to find properties that future systems should support or exploit. In this thesis, we provide an in-depth explanation of how we were able to capture high data rates, which involves several challenges. We identify the bottlenecks faced and explain how we circumvented them. Due to the large size of the captured workload and limited available storage, we needed to convert the traces to a more compact and flexible format so we could further analyze the workload in an efficient manner. We describe the challenges of analyzing large datasets and the techniques that were used. Since the workload contains sensitive information about the mailboxes, we had to anonymize the workload. We will describe what needed to be anonymized and how it was done. This was an important step to get permission from the ISP to publish the anonymized traces, which will be available for free download. We also performed several analyses that demonstrate unique characteristics of the studied workload, such as the periodic nature of file system activity, the file size distribution for all accessed files, the sequentiality of accessed data, and the most common type of attachments found in a typical mailbox

    CRAID: Online RAID upgrades using dynamic hot data reorganization

    Get PDF
    Current algorithms used to upgrade RAID arrays typically require large amounts of data to be migrated, even those that move only the minimum amount of data required to keep a balanced data load. This paper presents CRAID, a self-optimizing RAID array that performs an online block reorganization of frequently used, long-term accessed data in order to reduce this migration even further. To achieve this objective, CRAID tracks frequently used, long-term data blocks and copies them to a dedicated partition spread across all the disks in the array. When new disks are added, CRAID only needs to extend this process to the new devices to redistribute this partition, thus greatly reducing the overhead of the upgrade process. In addition, the reorganized access patterns within this partition improve the array’s performance, amortizing the copy overhead and allowing CRAID to offer a performance competitive with traditional RAIDs. We describe CRAID’s motivation and design and we evaluate it by replaying seven real-world workloads including a file server, a web server and a user share. Our experiments show that CRAID can successfully detect hot data variations and begin using new disks as soon as they are added to the array. Also, the usage of a dedicated partition improves the sequentiality of relevant data access, which amortizes the cost of reorganizations. Finally, we prove that a full-HDD CRAID array with a small distributed partition (<1.28% per disk) can compete in performance with an ideally restriped RAID-5 and a hybrid RAID-5 with a small SSD cache.Peer ReviewedPostprint (published version

    Flexible allocation and space management in storage systems

    Get PDF
    In this dissertation, we examine some of the challenges faced by the emerging networked storage systems. We focus on two main issues. Current file systems allocate storage statically at the time of their creation. This results in many suboptimal scenarios, for example: (a) space on the disk is not allocated well across multiple file systems, (b) data is not organized well for typical access patterns. We propose Virtual Allocation for flexible storage allocation. Virtual allocation separates storage allocation from the file system. It employs an allocate-on-write strategy, which lets applications fit into the actual usage of storage space without regard to the configured file system size. This improves flexibility by allowing storage space to be shared across different file systems. We present the design of virtual allocation and an evaluation of it through benchmarks based on a prototype system on Linux. Next, based on virtual allocation, we consider the problem of balancing locality and load in networked storage systems with multiple storage devices (or bricks). Data distribution affects locality and load balance across the devices in a networked storage system. We propose user-optimal data migration scheme which tries to balance locality and load balance in such networked storage systems. The presented approach automatically and transparently manages migration of data blocks among disks as data access patterns and loads change over time. We built a prototype system on Linux and present the design of user-optimal migration and an evaluation of it through realistic experiments

    Metrologia da captura e reprodução de rastros de sistemas de arquivos.

    Get PDF
    Métodos para avaliação de desempenho têm, por por muitos anos, apoiado a adoção, desenvolvimento e operação de sistemas de arquivos. Em particular, a reprodução de rastros de utilização é um método bastante popular. Apesar de sua popularidade, alguns trabalhos produzidos recentemente contestam — embora sem comprovação empírica — a qualidade dos resultados obtidos com esse método. Em nossa opinião,este ceticismo se deve, em larga medida, à falta de métodos suficientemente embasados para detectar e quantificar os erros das medições baseadas em reproduções de rastros. Uma vez que não sabemos como diagnosticar o problema, é provável que novos trabalhos adotem métodos de reprodução inadequados ou criem novos métodos sem preocupações metodológicas mais amplas. Em outras palavras, estamos fadados a repetir os erros anteriores ou introduzir novos erros. Nossa tese é que podemos usar metrologia — a ciência de obter boas estimativas para medições conduzidas por meio de instrumentos de medição imperfeitos — para melhorar a qualidade da avaliação de desempenho de sistemas de arquivos baseada em rastros. Neste documento, desenvolvemos esta tese por meio de duas provas de conceito. A primeira considera métodos de captura de rastros, enquanto a segunda considera métodos de reprodução de rastros. Em ambas, consideramos ferramentas populares descritas na literatura. Na primeira prova de conceito, ao aplicar o protocolo de metrologia, descobrimos fontes de erro que tornam as medições de captura de rastros bastante tendenciosas, embora precisas. Nós também mostramos como compensar as fontes de erro por meio de um processo de calibração — prática ausente na literatura. Ainda, descobrimos que os métodos de captura são sensíveis ao efeitos de cargas de fundo, as quais, quando não identificadas, podem comprometer o processo de calibração. Na segunda, o protocolo de metrologia também nos permitiu observar fontes de erros que enfraquecem a qualidade das medições de reprodução. Embora o procedimento de calibração não seja aplicável na segunda prova de conceito, nossos resultados apontaram limitações nas ferramentas de reprodução que quando reconsideradas, permitiram a melhoria na qualidade dos métodos considerados
    corecore