    Identifying recovery patterns from resource usage data of cluster systems

    Failure of Cluster Systems has proven to be of adverse effect and it can be costly. System administrators have employed divide and conquer approach to diagnosing the root-cause of such failure in order to take corrective or preventive measures. Most times, event logs are the source of the information about the failures. Events that characterized failures are then noted and categorized as causes of failure. However, not all the ’causative’ events lead to eventual failure, as some faults sequence experience recovery. Such sequences or patterns constitute challenge to system administrators and failure prediction tools as they add to false positives. Their presence are always predicted as “failure causing“, while in reality, they will not. In order to detect such recovery patterns of events from failure patterns, we proposed a novel approach that utilizes resource usage data of cluster systems to identify recovery and failure sequences. We further propose an online detection approach to the same problem. We experiment our approach on data from Ranger Supercomputer System and the results are positive.Keywords: Change point detection; resource usage data; recovery sequence; detection; large-scale HPC system

    Система управління якістю надання послуг критичними ІТ-інфраструктурами

    Актуальність роботи полягає в тому, що якби проблеми в критичних ІТ-інфраструктурах можна було б виявляти заздалегідь, можна було б вчасно застосувати відповідні дії для уникнення таких ситуацій. Використання системи стане одним з факторів збільшення конкурентоспроможності підприємства та дозволить економити значні ресурси в майбутньому. Об’єктом дослідження є система управління якістю надання послуг критичною ІТ-інфраструктурою. Предметом дослідження є показники якості надання послуг критичною ІТ-інфраструктурою. Дана робота має на меті створення системи управління якістю надання послуг критичними ІТ-інфраструктурами, основною задачею якої є предиктивний моніторинг стану системи, оповіщення про можливі несправності у майбутньому на основі аналізу попередніх даних про використання ресурсів системою.The reason for the relevance of a master's thesis is if the problems that arise in critical IT-infrastructure were detected in advance, it could be possible to fix them and avoid such situations in the future. The use of such system may lead to rise of the enterprise competitiveness and resource economy. The object of the study is the quality management system for critical IT infrastructure service delivery. The subject of the study is the metrics of quality of critical IT infrastructure service delivery. The purpose of this work is to create the quality management system for critical IT infrastructure service delivery. The major task of such system is a predictive monitoring of system’s state, alerting in the situation of possible critical failures in the future based on the resource usage historical data