8 research outputs found

    Self-Adaptive Scheduler Parameterization

    Get PDF
    High-end parallel systems present a tremendous research challenge on how to best allocate their resources to match dynamic workload characteristics and user habits that are often unique to each system. Although thoroughly investigated, job scheduling for production systems remains an inexact science, requiring significant experience and intuition from system administrators to properly configure batch schedulers. State-of-the-art schedulers provide many parameters for their configuration, but tuning these to optimize performance and to appropriately respond to the continuously varying characteristics of the workloads can be very difficult — the effects of different parameters and their interactions are often unintuitive. In this paper, we introduce a new and general methodology for automating the difficult process of job scheduler parameterization. Our proposed methodology is based on online simulations of a model of the actual system to provide on-the-fly suggestions to the scheduler for automated parameter adjustment. Detailed performance comparisons via simulation using actual supercomputing traces from the Parallel Workloads Archive indicate that this self-adaptive parameterization via online simulation consistently outperforms other workload-aware methods for scheduler parameterization. This methodology is unique, flexible, and practical in that it requires no a priori knowledge of the workload, it works well even in the presence of poor user runtime estimates, and it can be used to address any system statistic of interest

    Simulation techniques in an artificial society model

    Get PDF
    Artificial society refers to a generic class of agent-based simulation models used to discover global social structures and collective behavior produced by simple local rules and interaction mechanisms. Artificial society models are applicable in a variety of disciplines, including the modeling of chemical and biological processes, natural phenomena, and complex adaptive systems. We focus on the underlying simulation techniques used in artificial society discrete-event simulation models, including model time evolution and computational performance.;Although for some applications synchronous time evolution is the correct modeling approach, many other applications are better represented using asynchronous time evolution. We claim that asynchronous time evolution can eliminate potential simulation artifacts produced using synchronous time evolution. Using an adaptation of a popular artificial society model, we show that very different output can result based solely on the choice of asynchronous or synchronous time evolution. Based on the event list implementation chosen, the use of discrete-event simulation to incorporate asynchronous time evolution can incur a substantial loss in computational performance. Accordingly, we evaluate select event list implementations within the artificial society simulation model and demonstrate that acceptable performance can be achieved.;In addition to the artificial society model, we show that transforming from a synchronous to an asynchronous system proves beneficial for scheduling resources in a parallel system. We focus on non-FCFS job scheduling policies that permit jobs to backfill, i.e., to move ahead in the queue, given that they do not delay certain previously submitted jobs. Instead of using a single queue of jobs, we propose a simple yet effective backfilling scheduling policy that effectively separates short from long jobs by incorporating multiple queues. By monitoring system performance, our policy adapts its configuration parameters in response to severe changes in the job arrival pattern and/or resource demands. Detailed performance comparisons via simulation using actual parallel workload traces indicate that our proposed policy consistently outperforms traditional backfilling in a variety of contexts

    DESIGN AND EVALUATION OF RESOURCE ALLOCATION AND JOB SCHEDULING ALGORITHMS ON COMPUTATIONAL GRIDS

    Get PDF
    Grid, an infrastructure for resource sharing, currently has shown its importance in many scientific applications requiring tremendously high computational power. Grid computing enables sharing, selection and aggregation of resources for solving complex and large-scale scientific problems. Grids computing, whose resources are distributed, heterogeneous and dynamic in nature, introduces a number of fascinating issues in resource management. Grid scheduling is the key issue in grid environment in which its system must meet the functional requirements of heterogeneous domains, which are sometimes conflicting in nature also, like user, application, and network. Moreover, the system must satisfy non-functional requirements like reliability, efficiency, performance, effective resource utilization, and scalability. Thus, overall aim of this research is to introduce new grid scheduling algorithms for resource allocation as well as for job scheduling for enabling a highly efficient and effective utilization of the resources in executing various applications. The four prime aspects of this work are: firstly, a model of the grid scheduling problem for dynamic grid computing environment; secondly, development of a new web based simulator (SyedWSim), enabling the grid users to conduct a statistical analysis of grid workload traces and provides a realistic basis for experimentation in resource allocation and job scheduling algorithms on a grid; thirdly, proposal of a new grid resource allocation method of optimal computational cost using synthetic and real workload traces with respect to other allocation methods; and finally, proposal of some new job scheduling algorithms of optimal performance considering parameters like waiting time, turnaround time, response time, bounded slowdown, completion time and stretch time. The issue is not only to develop new algorithms, but also to evaluate them on an experimental computational grid, using synthetic and real workload traces, along with the other existing job scheduling algorithms. Experimental evaluation confirmed that the proposed grid scheduling algorithms possess a high degree of optimality in performance, efficiency and scalability

    Енергоефективне обслуговування навантаження інформаційно-комунікаційної мережі

    Get PDF
    Прокопець Н.А. Енергоефективне обслуговування навантаження інформаційно-комунікаційної мережі. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 172 – Телекомунікації та радіотехніка. – Навчально-науковий інститут телекомунікаційних систем КПІ ім. Ігоря Сікорського, Київ, 2022. У дисертаційній роботі розв’язано актуальну науково-практичну задачу підвищення енергоефективності та продуктивності обслуговування навантаження інформаційно-комунікаційної мережі (ІКМ) при виконанні вимог щодо доступності системи обслуговування навантаження за рахунок застосування комплексного методу енергоефективного обслуговування навантаження. Функціонування сучасної ІКМ великою мірою залежить від програмного забезпечення (ПЗ), що виконує різноманітні мережеві задачі. Це обумовлено розвитком ряду технологій та концепцій, зокрема SDN (Software-Defined Networking), NFV (Network Functions Virtualization), логічного поділу мережі (Network Slicing), периферійних обчислень (Edge Computing) та bDDN (Big data driven networking). Задачі, що вирішуються в рамках цих концепцій, формують обчислювальне навантаження, для обслуговування якого необхідною є побудова та підтримка розподілених обчислювальних систем як невід’ємної частини архітектури ІКМ. При цьому, особливості цих типів навантаження формують специфічні вимоги щодо його обслуговування. Проведений у роботі аналіз вимог різних типів навантаження ІКМ згідно з рекомендаціями Міжнародної спілки електрозв’язку дозволив визначити основні показники ефективності системи розподіленого обслуговування навантаження у складі ІКМ та серверного кластера як одиниці розподіленого центру обробки даних (ЦОД) у складі ІКМ зокрема: показники енергоефективності та продуктивності обробки обчислювального навантаження, а також коефіцієнт готовності системи розподіленого обслуговування навантаження . На основі цих показників сформовано критерій оптимальності процесу обслуговування навантаження в інформаційно- комунікаційній мережі . В ході аналізу існуючих підходів щодо підвищення енергоефективності розподіленого обслуговування навантаження виявлено певні їх недоліки, а саме: статичні підходи не враховують динамічну змінюваність інтенсивності навантаження; динамічні підходи, що застосовуються на рівні апаратного забезпечення мають високу складність та вартість впровадження. Серед відомих динамічних підходів, що використовуються на рівні програмного забезпечення, підходи щодо консолідації та масштабування обчислювальних ресурсів не враховують показник доступності системи, можуть негативно впливати на продуктивність системи, особливо у випадку динамічних змін інтенсивності навантаження, не використовують індивідуальні характеристики енергоспоживання обчислювальних вузлів, що призводить до неоптимального використання обчислювальних ресурсів. Серед методів енергоефективного розподілу навантаження було відзначено алгоритм планування навантаження Backfill, основною перевагою якого є мінімізація простою обчислювальних вузлів за рахунок щільного розподілу обчислювальних робіт. Однак ефективність цього підходу значно зменшується у випадку невисокої інтенсивності вхідного навантаження, крім того, він не враховує індивідуальні характеристики енергоспоживання та продуктивності обчислювальних вузлів. Окремим сукупним недоліком існуючих підходів є те, що кожен з них вирішує задачу підвищення енергоефективності обслуговування навантаження з урахуванням лише частини аспектів цього процесу та показників його ефективності, що визначило необхідність систематизації та формалізації процесу обслуговування навантаження в інформаційно-комунікаційній мережі. З метою систематизації та формалізації процесу обслуговування навантаження ІКМ як об’єкта дослідження побудовано онтологічну модель досліджуваної системи розподіленого обслуговування навантаження. Це дозволило якісно описати складні взаємозв’язки між виділеними показниками ефективності досліджуваного процесу та параметрами, що впливають на них. З метою отримання кількісної оцінки взаємозв’язків між показниками ефективності досліджуваного процесу та параметрами, що на них впливають, побудовано математичну модель системи розподіленого обслуговування навантаження у складі ІКМ як системи масового обслуговування (СМО). У процесі побудови моделі запропоновано метод переходу від нестаціонарного неординарного вхідного потоку заявок до стаціонарного ординарного потоку шляхом дискретизації кривої інтенсивності вхідного навантаження та за допомогою переходу до комплектів серверів, що дозволило значно спростити розрахунки при допустимих втратах точності моделі. Для дискретизації кривої інтенсивності вхідного навантаження запропоновано використання методу квантування за рівнями, що дозволило узгодити величину кроку дискретизації функції зі швидкістю зміни інтенсивності вхідного навантаження. Для визначення кроку квантування запропоновано метод розрахунку порогових величин інтенсивностей вхідного навантаження як функцій кількості обчислювальних вузлів у системі. На основі побудованої математичної моделі запропоновано метод розрахунку шаблонів горизонтального масштабування, що дозволяє визначати оптимальну кількість активних обчислювальних вузлів у кластерах ЦОД ІКМ на кожному інтервалі часу, який визначається швидкістю зміни інтенсивності вхідного навантаження. Проаналізовано способи визначення індивідуальних моделей енергоспоживання обчислювальних вузлів розподілених ЦОД та обґрунтовано доцільність їх використання у процесі обслуговування навантаження ІКМ. Докладно розглянуто два способи визначення моделей енергоспоживання: емпіричний та програмний. Перший спосіб базується на безпосередньому вимірюванні енергоспоживання вузлів та подальшій інтерполяції отриманих залежностей поліномом ступеня з метою отримання аналітичних функцій. Другий спосіб базується на програмній оцінці енергетичних моделей з подальшою інтерполяцією отриманих функцій. Рекомендовано використання методу емпіричного визначення математичних моделей енергоспоживання для нових систем на етапі їх налаштування. У випадку введення нових вузлів до системи або під час її переатестації, рекомендовано використання аналітичного методу визначення моделей енергоспоживання. Побудовану математичну модель системи у вигляді СМО та розглянуті способи визначення індивідуальних моделей енергоспоживання обчислювальних вузлів покладено в основу нового комплексного методу енергоефективного обслуговування навантаження в ІКМ. Запропонований комплексний метод відрізняється від відомих використанням індивідуальних моделей енергоспоживання обчислювальних вузлів, поєднанням переваг підходів горизонтального масштабування та енергоефективного розподілу задач, врахуванням непередбачуваних динамічних змін інтенсивності вхідного навантаження, що дозволило підвищити енергоефективність процесу обслуговування навантаження без втрати продуктивності та за умови дотримання вимог щодо доступності системи. В рамках запропонованого комплексного методу удосконалено існуючі підходи щодо горизонтального масштабування обчислювальної системи шляхом використання індивідуальних моделей енергоспоживання обчислювальних вузлів та застосування механізму прогнозування динамічних відхилень вхідного навантаження, що дозволило забезпечити інтенсивніше використання найбільш енергоефективного обладнання та вчасно реагувати на непередбачувані зміни інтенсивності вхідного навантаження. На основі запропонованого комплексного методу енергоефективного обслуговування навантаження створено програмне забезпечення (ПЗ) керування обчислювальними ресурсами в ІКМ, яке дозволяє підвищити енергоефективність та продуктивність розподіленого обслуговування навантаження з дотриманням вимог щодо доступності системи обслуговування та може бути використано для підвищення енергоефективності та продуктивності обробки навантаження у периферійній та центральній хмарі в архітектурі мережі 5G. Ефективність запропонованого комплексного методу та ПЗ на його основі перевірено із використанням методів лабораторного експерименту та імітаційного моделювання. Шляхом лабораторного експерименту перевірено ефективність методу у невеликому серверному кластері з 4 обчислювальних вузлів. Імітаційна модель, адекватність якої доведено із використанням критерія Фішера, довела ефективність запропонованого комплексного методу у більшій розподіленій системі із 20 вузлів. Виграш запропонованого комплексного методу у порівнянні із відомими підходами Backfill та Round Robin за показником енергоефективності при цьому склав 9,953% та 26,382% відповідно. Виграш за показником продуктивності становив 5,593% та 49,458% відповідно. При цьому запропонований комплексний метод забезпечує виконання вимог щодо доступності обчислювальних вузлів розподілених ЦОД та дає виграш за обраним критерієм оптимальності на 15,722% у порівнянні із Backfill та на 88,887% у порівнянні з Round Robin, що доводить практичну цінність отриманих результатів дослідження.N.A. Prokopets Energy-efficient processing of the information and communication network workload. – Qualifying scientific work on manuscript rights. Thesis for graduation scientific degree of Philosophy Doctor by specialty 172 – Telecommunications and radio engineering. – Educational and Scientific Institute of Telecommunication Systems of KPI named after Igor Sikorsky, Kyiv, 2022. In the thesis, the important scientific and practical problem of increasing the energy efficiency and performance of workload processing in information and communication network (ICN) while meeting the requirements for the availability of the workload processing system was solved through the use of a comprehensive method of energyefficient workload processing. The functioning of a modern ICN largely depends on the software that performs various network tasks. This is due to the development of a number of technologies and concepts, including SDN (Software-Defined Networking), NFV (Network Functions Virtualization), Network Slicing, Edge Computing and bDDN (Big data driven networking). The tasks being solved within these concepts form a computing workload, for the processing of which it is necessary to build and maintain distributed computing systems as an integral part of the ICN architecture. At the same time, the peculiarities of these types of workload form specific requirements for its processing. The requirements analysis conducted for each of these workload types in accordance with the recommendations of the International Telecommunication Union allowed to determine the main performance indicators of the distributed workload processing system as part of the ICN and the server cluster as a unit of the distributed data center as part of the ICN, in particular: energy efficiency and performance indicators of workload processing, as well as the system availability factor . Based on these indicators, an optimality criterion of workload processing in ICN was proposed. During the analysis of the existing approaches to increase the energy efficiency of distributed workload processing, some shortcomings were revealed, namely: static approaches do not take into account the dynamic variability of the workload; dynamic approaches applied at the hardware level have high complexity and cost of implementation. Among the known dynamic approaches used at the software level, the approaches to consolidation and scaling of computing resources do not take into account the system availability indicator, which can negatively affect the system performance, especially in the case of dynamic changes in the workload arrival rate. They also do not use the individual characteristics of computing nodes’ energy consumption, which leads to suboptimal use of computing resources. Among the approaches to energy-efficient workload scheduling, the Backfill workload scheduling algorithm was noted, the main advantage of which is minimizing the downtime of computing nodes due to the dense distribution of computing work. However, the effectiveness of this approach is significantly reduced in the case of a low input workload arrival rate, in addition, it does not take into account the individual characteristics of energy consumption and performance of computing nodes. A separate collective disadvantage of the existing approaches is that each of them solves the problem of increasing the energy efficiency of workload processing taking into account only part of the aspects of this process and its efficiency indicators, which determined the need to systematize and formalize the workload processing process in the information and communication network. In order to systematize and formalize the workload processing process in the information and communication network as an object of research, an ontological model of a distributed workload processing system was built. This made it possible to qualitatively describe the complex relationships between the selected efficiency indicators of the process being researched and the parameters affecting them. In order to obtain a quantitative assessment of the relationships between the defined efficiency indicators and the parameters that affect them, a mathematical model of the distributed workload processing system within the ICN as a queuing system (QS) was built. While building the model, a method of transition from a non-stationary nonordinary input requests flow to a stationary ordinary flow was proposed by discretizing the intensity curve of the input workload and using the transition to sets of servers, which made it possible to significantly simplify calculations with permissible losses of model accuracy. For the discretization of the input workload arrival rate curve, the use of the quantization by levels was proposed, which made it possible to match the size of the discretization step with the rate of change of the input workload arrival rate. To determine the quantization step, a method of calculating threshold values of input workload arrival rate as a function of the number of computing nodes in the system is proposed. Based on the constructed mathematical model, a method for calculating horizontal scaling patterns is proposed, which allows determining the optimal number of active computing nodes in the system at each time interval, which is determined by the rate the input workload arrival rate change. The methods of determining individual energy consumption models of computing nodes were analyzed and the expediency of their use in the workload processing process in ICN was substantiated. Two methods of determining energy consumption models were considered in detail: empirical and software-based methods. The first method is based on the direct measurement of the energy consumption of the nodes and further interpolation of the obtained dependencies by a polynomial of a degree in order to obtain analytical functions. The second method is based on software-based evaluation of energy consumption models with subsequent interpolation of the obtained functions. It is recommended to use the method of empirical energy consumption models determination for new systems at the stage of their configuration. In the case of introducing new nodes to the system or during its re-configuration, it is recommended to use a software-based method for determining energy consumption models. The built mathematical model of the system in the form of QS and the considered methods of determining individual energy consumption models of computing nodes became the basis of a new comprehensive method of energy-efficient workload processing in computing nodes of distributed data centers. The proposed comprehensive method differs from known ones in the use of individual models of computing nodes’ energy consumption, a combination of the advantages of horizontal scaling approaches and energy-efficient scheduling, while taking into account dynamic changes in the input workload arrival rate, which made it possible to increase the energy efficiency of the workload processing without loss of performance and subject to compliance with system availability requirements. As part of the proposed comprehensive method, the existing approaches to horizontal scaling of the computer system were improved by using individual models of computer nodes’ energy consumption and mechanism for predicting dynamic deviations of the input workload arrival rate, which made it possible to ensure more intensive use of the most energy-efficient equipment and to respond in time to unpredictable changes in the input workload arrival rate. On the basis of the proposed comprehensive method of energy-efficient workload processing, software for managing computing resources has been created, which allows to increase the energy efficiency and performance of distributed workload processing while complying with the requirements for system availability, and can be used to increase the energy efficiency and performance of workload processing in edge and central cloud within the 5G network architecture. The effectiveness of the proposed comprehensive method and the software based on it was verified using the methods of laboratory experiment and simulation modeling. The effectiveness of the method was tested in a small server cluster with 4 computing nodes by means of the experiment. The simulation model, the adequacy of which was proven using Fisher's test, proved the effectiveness of the proposed comprehensive method in a larger distributed system with 20 nodes. The performance of the proposed comprehensive method in comparison with the known Backfill and Round Robin approaches in terms of energy efficiency was 9.953% and 26.382%, respectively. The performance gain was 5.593% and 49.458% respectively. At the same time, the proposed comprehensive method ensures the fulfillment of the requirements regarding the system availability and gives a gain according to the proposed optimality criterion by 15.722% in comparison with Backfill and by 88.887% in comparison with Round Robin, which proves the practical value of the obtained research results

    DESIGN AND EVALUATION OF RESOURCE ALLOCATION AND JOB SCHEDULING ALGORITHMS ON COMPUTATIONAL GRIDS

    Get PDF
    Grid, an infrastructure for resource sharing, currently has shown its importance in many scientific applications requiring tremendously high computational power. Grid computing enables sharing, selection and aggregation of resources for solving complex and large-scale scientific problems. Grids computing, whose resources are distributed, heterogeneous and dynamic in nature, introduces a number of fascinating issues in resource management. Grid scheduling is the key issue in grid environment in which its system must meet the functional requirements of heterogeneous domains, which are sometimes conflicting in nature also, like user, application, and network. Moreover, the system must satisfy non-functional requirements like reliability, efficiency, performance, effective resource utilization, and scalability. Thus, overall aim of this research is to introduce new grid scheduling algorithms for resource allocation as well as for job scheduling for enabling a highly efficient and effective utilization of the resources in executing various applications. The four prime aspects of this work are: firstly, a model of the grid scheduling problem for dynamic grid computing environment; secondly, development of a new web based simulator (SyedWSim), enabling the grid users to conduct a statistical\ud analysis of grid workload traces and provides a realistic basis for experimentation in resource allocation and job scheduling algorithms on a grid; thirdly, proposal of a new grid resource allocation method of optimal computational cost using synthetic and real workload traces with respect to other allocation methods; and finally, proposal of some new job scheduling algorithms of optimal performance considering parameters like waiting time, turnaround time, response time, bounded slowdown, completion time and stretch time. The issue is not only to develop new algorithms, but also to evaluate them on an experimental computational grid, using synthetic and real workload traces, along with the other existing job scheduling algorithms. Experimental evaluation confirmed that the proposed grid scheduling algorithms possess a high degree of optimality in performance, efficiency and scalability

    Self-adapting Backfilling Scheduling for Parallel Systems

    No full text
    We focus on non-FCFS job scheduling policies for parallel systems that allow jobs to backfill, i.e., to move ahead in the queue, given that they do not delay certain previously submitted jobs. Consistent with commercial schedulers that maintain multiple queues where jobs are assigned according to the user-estimated duration, we propose a self-adapting backfilling policy that maintains multiple job queues to separate short from long jobs. The proposed policy adjusts its configuration parameters by continuously monitoring the system and quickly reacting to sudden fluctuations in the workload arrival pattern and/or severe changes in resource demands. Detailed performance comparisons via simulation using actual Supercomputing traces from the Parallel Workload Archive indicate that the proposed policy consistently outperforms traditional backfilling

    Power-Aware Job Dispatching in High Performance Computing Systems

    Get PDF
    This works deals with the power-aware job dispatching problem in supercomputers; broadly speaking the dispatching consists of assigning finite capacity resources to a set of activities, with a special concern toward power and energy efficient solutions. We introduce novel optimization approaches to address its multiple aspects. The proposed techniques have a broad application range but are aimed at applications in the field of High Performance Computing (HPC) systems. Devising a power-aware HPC job dispatcher is a complex, where contrasting goals must be satisfied. Furthermore, the online nature of the problem request that solutions must be computed in real time respecting stringent limits. This aspect historically discouraged the usage of exact methods and favouring instead the adoption of heuristic techniques. The application of optimization approaches to the dispatching task is still an unexplored area of research and can drastically improve the performance of HPC systems. In this work we tackle the job dispatching problem on a real HPC machine, the Eurora supercomputer hosted at the Cineca research center, Bologna. We propose a Constraint Programming (CP) model that outperforms the dispatching software currently in use. An essential element to take power-aware decisions during the job dispatching phase is the possibility to estimate jobs power consumptions before their execution. To this end, we applied Machine Learning techniques to create a prediction model that was trained and tested on the Euora supercomputer, showing a great prediction accuracy. Then we finally develop a power-aware solution, considering the same target machine, and we devise different approaches to solve the dispatching problem while curtailing the power consumption of the whole system under a given threshold. We proposed a heuristic technique and a CP/heuristic hybrid method, both able to solve practical size instances and outperform the current state-of-the-art techniques
    corecore