8 research outputs found

    An Efficient Group-based Data Backup and Recovery Scheme in Cloud Computing Systems

    Get PDF
    [[abstract]]In cloud computing systems with huge volumes of data, fault tolerance is of critical importance. To enhance data fault tolerance in cloud systems, we introduce a new groupbased data backup and recovery scheme in this paper. The new scheme performs efficient diskless checkpointing practices to maintain data correctness via alternative processors upon processor failure. The basic idea is to place six processors in a transmission group, with each processor sending data to only two member processors. In face of processor failure, such a practice helps reduce the needed data backup volume and recovery time, and reaches up to 3/6 fault-tolerance ratios. Our scheme attains the performance gain mainly because (1) it allows a processor to receive only two backup data from the group - each processor hence performs only one XOR during data backup, and (2) all groups work independently in parallel so that the needed data backup and recovery time is reduced to that for a single group. To compare the performance of our scheme and related schemes, we carry out extended simulation runs with results indicating improved survival counts, fault-tolerance ratios and computation overhead for our scheme.[[notice]]補正完

    Khaos: Dynamically Optimizing Checkpointing for Dependable Distributed Stream Processing

    Full text link
    Distributed Stream Processing systems are becoming an increasingly essential part of Big Data processing platforms as users grow ever more reliant on their ability to provide fast access to new results. As such, making timely decisions based on these results is dependent on a system's ability to tolerate failure. Typically, these systems achieve fault tolerance and the ability to recover automatically from partial failures by implementing checkpoint and rollback recovery. However, owing to the statistical probability of partial failures occurring in these distributed environments and the variability of workloads upon which jobs are expected to operate, static configurations will often not meet Quality of Service constraints with low overhead. In this paper we present Khaos, a new approach which utilizes the parallel processing capabilities of virtual cloud automation technologies for the automatic runtime optimization of fault tolerance configurations in Distributed Stream Processing jobs. Our approach employs three subsequent phases which borrows from the principles of Chaos Engineering: establish the steady-state processing conditions, conduct experiments to better understand how the system performs under failure, and use this knowledge to continuously minimize Quality of Service violations. We implemented Khaos prototypically together with Apache Flink and demonstrate its usefulness experimentally

    Asynchronous checkpoint migration with MRNet in the Scalable Checkpoint / Restart Library

    Full text link
    Applications running on today's supercomputers tolerate failures by periodically saving their state in checkpoint files on stable storage, such as a parallel file system. Although this approach is simple, the overhead of writing the checkpoints can be prohibitive, especially for large-scale jobs. In this paper, we present initial results of an enhancement to our Scalable Checkpoint/Restart Library (SCR). We employ MRNet, a tree-based overlay network library, to transfer checkpoints from the compute nodes to the parallel file system asynchronously. This enhancement increases application efficiency by removing the need for an application to block while checkpoints are transferred to the parallel file system. We show that the integration of SCR with MRNet can reduce the time spent in I/O operations by as much as 15x. However, our experiments exposed new scalability issues with our initial implementation. We discuss the sources of the scalability problems and our plans to address them

    Метод та засоби відновлення даних в системах їх віддаленого зберігання з використанням лінійних надлишкових кодів

    Get PDF
    Робота складається із вступу та 4 розділів. Сумарний об’єм роботи: 89 аркушів тексту, 9 ілюстрацій та 3 таблиці. Для магістерської дисертації було використано літературу з 65 різноманітних джерел. Актуальність. Поява хмарних технологій докорінно змінила способи довготривалого зберігання і розповсюдження інформації. Надійність є невід’ємним елементом збереження даних на віддалених носіях. Для підвищення надійності інформацію розбивають на частини та зберігають на різних віддалених носіях. Відновлення втраченої інформації відбувається за рахунок неушкоджених частин даних. Одним із відомих методів є резервування. Ефективність резервування досягається балансом між надійністю збереження даних, швидкістю їх відновлення та об’ємом резервної інформації. Отже, задача підвищення ефективності відновлення втраченої інформації, що зберігається на віддалених носіях, та створення методу резервування даних, що відповідають сучасним вимогам, є актуальною з сучасним розвитком хмарних технологій та за поширеного використання сервісів віддаленого збереження інформації. Мета і завдання дослідження. Мета магістерської роботи полягає в підвищенні ефективності відновлення блоків даних за рахунок урахування їх важливості, шляхом збільшення ймовірності відновлення більш важливих блоків за умови, що кількість втрачених блоків перевищує поріг гарантованого відновлення. Для досягнення поставленої мети в магістерські дисертації вирішуються такі задачі: 1. Аналіз особливостей сучасного та перспективного стану розподіленого віддаленого зберігання даних користувачів з використанням хмарних технологій, обґрунтування критеріїв ефективності відновлення втраченої інформації, яка зберігається на віддалених сховищах. Аналітичний огляд існуючих методів резервування та відновлення втрачених даних, виявлення можливостей підвищення їх ефективності, а також визначення напрямків досліджень. 2. Розробка методу відновлення втрачених даних, який відрізняється від відомих тим, що дозволяє враховувати інформаційну важливість окремих блоків даних шляхом побудови матриці формування резервних блоків. 3. Розробка способу прискореного відновлення втрачених при віддаленому зберіганні блоків даних шляхом використання спеціальних таблиць. 4. Розробка програмних засобів для реалізації розробленого методу резервування та відновлення втрачених при віддаленому зберіганні блоків даних, а також імітаційного та статистичного моделювання його функціонування. 5. Теоретичне та експериментальне дослідження ефективності розробленого методу. Об’єкт дослідження – процеси резервування та відновлення інформаційних блоків при їх рознесеному зберіганні на віддалених сховищах з використанням хмарних технологій. Предмет дослідження – методи формування резервних блоків і методи відновлення втрачених інформаційних блоків з використанням резервних даних. Методи досліджень базуються на теорії ймовірності та математичної статистики, теорії лінійних кодів, методах організації резервування, а також на використанні методів імітаційного та статистичного моделювання. Наукова новизна одержаних результатів роботи. Розроблено метод відновлення втрачених при віддаленому зберіганні даних, який відрізняється від відомих тим, що дозволяє враховувати інформаційну важливість окремих блоків даних шляхом побудови матриці формування резервних блоків з використанням пріоритетів, що забезпечує підвищення ймовірності відновлення більш важливих блоків при зменшенні ймовірності реконструювання менш важливих за умови, що кількість втрачених блоків перевищує поріг гарантованого відновлення. Практична значимість результатів дослідження визначається тим, що воно направлено на урахування особливостей реальних систем віддаленого зберігання інформації в хмарах з урахуванням важливості даних. Управління резервуванням даних здійснюється на рівні користувача, що дозволяє адаптувати систему резервування та відновлення до потреб користувача. В комплексі з спеціальною організацією розміщення даних користувачів на сховищах та моніторингом доступності даних, застосування цього методу дозволяє звести практично до нуля ймовірність їх втрати. Апробація результатів дисертації. Основні результати дисертації доповідались та обговорювались на 4-х міжнародних науково-технічних конференціях: 1. Міжнародна наукова конференція “Security, Fault Tolerance, Intelligence: ICSFTI2019”. м.Київ, 14-15 травня 2019 р. 2. Міжнародна наукова конференція “Science and Technology of the XXI Century” м.Київ, 17 грудня 2020 р. 3. ІІ-га Міжнародна науково-практична конференція “Наука та концепції”. м.Київ, 29-30 квітня 2019 р. 4. ІІІ-тя Міжнародна науково-практична конференція “Наука та концепції”. м.Київ, 14-15 травня 2020 р. Публікації. Основні положення магістерської дисертації опубліковані в 4 наукових працях, серед яких всі – матеріали наукових конференцій. 1. Doroshenko L. Organization of Reservation and Reconstruction of Data / Doroshenko L., Markovskyi O., Honchar A. // International Conference ICSFTI2019 (Kyiv, May 14−15, 2019). Kyiv, 2019. P. 29-34. 2. Doroshenko L. Organization of Data Recovery when Storing in the “Clouds” / Doroshenko L. // Proceedings of the XXІ International Students R&D Online Conference (Kyiv, 17 December, 2020). Kyiv, 2020. P. 29-31. 3. Дорошенко Л.Ю. Метод резервування даних з використанням лінійних відновлюючих кодів / Л.Ю. Дорошенко, В.Ю. Куц // Матеріали ІІ міжнарод. наук.-практ. конф. Наука та концепції: (м. Київ, 29-30 квіт. 2019 р.). Київ, 2019. С. 19-22. 4. Дорошенко Л.Ю. Організація відновлення даних при їх зберіганні в хмарах / Л.Ю. Дорошенко, О.В. Русанова, В.Ю. Куц // Матеріали ІІІ міжнарод. наук.-практ. конф. (м. Київ, 14-15 трав. 2020 р.). Київ, 2020. С. 33-37

    Algorithm-Based Fault Tolerance for Two-Sided Dense Matrix Factorizations

    Get PDF
    The mean time between failure (MTBF) of large supercomputers is decreasing, and future exascale computers are expected to have a MTBF of around 30 minutes. Therefore, it is urgent to prepare important algorithms for future machines with such a short MTBF. Eigenvalue problems (EVP) and singular value problems (SVP) are common in engineering and scientific research. Solving EVP and SVP numerically involves two-sided matrix factorizations: the Hessenberg reduction, the tridiagonal reduction, and the bidiagonal reduction. These three factorizations are computation intensive, and have long running times. They are prone to suffer from computer failures. We designed algorithm-based fault tolerant (ABFT) algorithms for the parallel Hessenberg reduction and the parallel tridiagonal reduction. The ABFT algorithms target fail-stop errors. These two fault tolerant algorithms use a combination of ABFT and diskless checkpointing. ABFT is used to protect frequently modified data . We carefully design the ABFT algorithm so the checksums are valid at the end of each iterative cycle. Diskless checkpointing is used for rarely modified data. These checkpoints are in the form of checksums, which are small in size, so the time and storage cost to store them in main memory is small. Also, there are intermediate results which need to be protected for a short time window. We store a copy of this data on the neighboring process in the process grid. We also designed algorithm-based fault tolerant algorithms for the CPU-GPU hybrid Hessenberg reduction algorithm and the CPU-GPU hybrid bidiagonal reduction algorithm. These two fault tolerant algorithms target silent errors. Our design employs both ABFT and diskless checkpointing to provide data redundancy. The low cost error detection uses two dot products and an equality test. The recovery protocol uses reverse computation to roll back the state of the matrix to a point where it is easy to locate and correct errors. We provided theoretical analysis and experimental verification on the correctness and efficiency of our fault tolerant algorithm design. We also provided mathematical proof on the numerical stability of the factorization results after fault recovery. Experimental results corroborate with the mathematical proof that the impact is mild

    Heterogeneity aware fault tolerance for extreme scale computing

    Get PDF
    Upcoming Extreme Scale, or Exascale, Computing Systems are expected to deliver a peak performance of at least 10^18 floating point operations per second (FLOPS), primarily through significant expansion in scale. A major concern for such large scale systems, however, is how to deal with failures in the system. This is because the impact of failures on system efficiency, while utilizing existing fault tolerance techniques, generally also increases with scale. Hence, current research effort in this area has been directed at optimizing various aspects of fault tolerance techniques to reduce their overhead at scale. One characteristic that has been overlooked so far, however, is heterogeneity, specifically in the rate at which individual components of the underlying system fail, and in the execution profile of a parallel application running on such a system. In this thesis, we investigate the implications of such types of heterogeneity for fault tolerance in large scale high performance computing (HPC) systems. To that end, we 1) study how knowledge of heterogeneity in system failure likelihoods can be utilized to make current fault tolerance schemes more efficient, 2) assess the feasibility of utilizing application imbalance for improved fault tolerance at scale, and 3) propose and evaluate changes to system level resource managers in order to achieve reliable job placement over resources with unequal failure likelihoods. The results in this thesis, taken together, demonstrate that heterogeneity in failure likelihoods significantly changes the landscape of fault tolerance for large scale HPC systems

    Resource management for extreme scale high performance computing systems in the presence of failures

    Get PDF
    2018 Summer.Includes bibliographical references.High performance computing (HPC) systems, such as data centers and supercomputers, coordinate the execution of large-scale computation of applications over tens or hundreds of thousands of multicore processors. Unfortunately, as the size of HPC systems continues to grow towards exascale complexities, these systems experience an exponential growth in the number of failures occurring in the system. These failures reduce performance and increase energy use, reducing the efficiency and effectiveness of emerging extreme-scale HPC systems. Applications executing in parallel on individual multicore processors also suffer from decreased performance and increased energy use as a result of applications being forced to share resources, in particular, the contention from multiple application threads sharing the last-level cache causes performance degradation. These challenges make it increasingly important to characterize and optimize the performance and behavior of applications that execute in these systems. To address these challenges, in this dissertation we propose a framework for intelligently characterizing and managing extreme-scale HPC system resources. We devise various techniques to mitigate the negative effects of failures and resource contention in HPC systems. In particular, we develop new HPC resource management techniques for intelligently utilizing system resources through the (a) optimal scheduling of applications to HPC nodes and (b) the optimal configuration of fault resilience protocols. These resource management techniques employ information obtained from historical analysis as well as theoretical and machine learning methods for predictions. We use these data to characterize system performance, energy use, and application behavior when operating under the uncertainty of performance degradation from both system failures and resource contention. We investigate how to better characterize and model the negative effects from system failures as well as application co-location on large-scale HPC computing systems. Our analysis of application and system behavior also investigates: the interrelated effects of network usage of applications and fault resilience protocols; checkpoint interval selection and its sensitivity to system parameters for various checkpoint-based fault resilience protocols; and performance comparisons of various promising strategies for fault resilience in exascale-sized systems

    Методи і засоби підвищення ефективності відновлення даних, втрачених при їх віддаленому зберіганні та передачі в мережах

    Get PDF
    Дисертація присвячена проблемі підвищення ефективності відновлення даних, втрачених при їх віддаленому зберіганні в розподілених системах або при передачі глобальною мережею. В роботі проведено аналіз факторів. що впливають на ефективність відновлення даних, втрачених під час їх довготривалого зберігання на віддалених розподілених системах, а також в процесі їх передачі глобальною мережею. Відновлення втрачених під час зберігання даних здійснюється за рахунок резервних даних, які також зберігаються на віддалених розподілених системах. Відновлення втрачених, або затриманих понад критичний проміжок часу даних при передачі в мережах також здійснюється шляхом передачі резервної інформації разом з основною. Основний акцент в дисертаційному дослідженні зроблено на підвищенні швидкості відновлення втрачених даних та зменшенні об’єму резервних даних за рахунок урахування особливостей реальних систем віддаленого зберігання даних користувачів. Для прискорення відновлення втрачених при віддаленому зберіганні даних розроблено метод, оснований на використанні розріджених матриць формування резервних блоків. В реальних системах віддаленого зберігання інформації користувачів та системах комп’ютерного управління віддаленими об'єктами з використанням Інтернету в якості середовища обміну даних, важливу роль відіграє час відновлення втрачених інформаційних блоків чи затриманих доставкою понад критичний час пакетів даних. Запропоновано ефективне технологічне рішення відновлення інформаційних блоків на основі попередньо створених таблиць специфікацій. За рахунок оптимізації вибору варіанту реконструювання і використання передобчислень досягається прискорення на 10-15% відновлення втрачених блоків
    corecore