8 research outputs found
Self-Adaptive Scheduler Parameterization
High-end parallel systems present a tremendous research challenge on how to best allocate their resources to match dynamic workload characteristics and user habits that are often unique to each system. Although thoroughly investigated, job scheduling for production systems remains an inexact science, requiring significant experience and intuition from system administrators to properly configure batch schedulers. State-of-the-art schedulers provide many parameters for their configuration, but tuning these to optimize performance and to appropriately respond to the continuously varying characteristics of the workloads can be very difficult — the effects of different parameters and their interactions are often unintuitive.
In this paper, we introduce a new and general methodology for automating the difficult process of job scheduler parameterization. Our proposed methodology is based on online simulations of a model of the actual system to provide on-the-fly suggestions to the scheduler for automated parameter adjustment. Detailed performance comparisons via simulation using actual supercomputing traces from the Parallel Workloads Archive indicate that this self-adaptive parameterization via online simulation consistently outperforms other workload-aware methods for scheduler parameterization. This methodology is unique, flexible, and practical in that it requires no a priori knowledge of the workload, it works well even in the presence of poor user runtime estimates, and it can be used to address any system statistic of interest
Simulation techniques in an artificial society model
Artificial society refers to a generic class of agent-based simulation models used to discover global social structures and collective behavior produced by simple local rules and interaction mechanisms. Artificial society models are applicable in a variety of disciplines, including the modeling of chemical and biological processes, natural phenomena, and complex adaptive systems. We focus on the underlying simulation techniques used in artificial society discrete-event simulation models, including model time evolution and computational performance.;Although for some applications synchronous time evolution is the correct modeling approach, many other applications are better represented using asynchronous time evolution. We claim that asynchronous time evolution can eliminate potential simulation artifacts produced using synchronous time evolution. Using an adaptation of a popular artificial society model, we show that very different output can result based solely on the choice of asynchronous or synchronous time evolution. Based on the event list implementation chosen, the use of discrete-event simulation to incorporate asynchronous time evolution can incur a substantial loss in computational performance. Accordingly, we evaluate select event list implementations within the artificial society simulation model and demonstrate that acceptable performance can be achieved.;In addition to the artificial society model, we show that transforming from a synchronous to an asynchronous system proves beneficial for scheduling resources in a parallel system. We focus on non-FCFS job scheduling policies that permit jobs to backfill, i.e., to move ahead in the queue, given that they do not delay certain previously submitted jobs. Instead of using a single queue of jobs, we propose a simple yet effective backfilling scheduling policy that effectively separates short from long jobs by incorporating multiple queues. By monitoring system performance, our policy adapts its configuration parameters in response to severe changes in the job arrival pattern and/or resource demands. Detailed performance comparisons via simulation using actual parallel workload traces indicate that our proposed policy consistently outperforms traditional backfilling in a variety of contexts
DESIGN AND EVALUATION OF RESOURCE ALLOCATION AND JOB SCHEDULING ALGORITHMS ON COMPUTATIONAL GRIDS
Grid, an infrastructure for resource sharing, currently has shown its importance in
many scientific applications requiring tremendously high computational power. Grid
computing enables sharing, selection and aggregation of resources for solving
complex and large-scale scientific problems. Grids computing, whose resources are
distributed, heterogeneous and dynamic in nature, introduces a number of fascinating
issues in resource management. Grid scheduling is the key issue in grid environment
in which its system must meet the functional requirements of heterogeneous domains,
which are sometimes conflicting in nature also, like user, application, and network.
Moreover, the system must satisfy non-functional requirements like reliability,
efficiency, performance, effective resource utilization, and scalability. Thus, overall
aim of this research is to introduce new grid scheduling algorithms for resource
allocation as well as for job scheduling for enabling a highly efficient and effective
utilization of the resources in executing various applications.
The four prime aspects of this work are: firstly, a model of the grid scheduling
problem for dynamic grid computing environment; secondly, development of a new
web based simulator (SyedWSim), enabling the grid users to conduct a statistical
analysis of grid workload traces and provides a realistic basis for experimentation in
resource allocation and job scheduling algorithms on a grid; thirdly, proposal of a new
grid resource allocation method of optimal computational cost using synthetic and
real workload traces with respect to other allocation methods; and finally, proposal of
some new job scheduling algorithms of optimal performance considering parameters
like waiting time, turnaround time, response time, bounded slowdown, completion
time and stretch time. The issue is not only to develop new algorithms, but also to
evaluate them on an experimental computational grid, using synthetic and real
workload traces, along with the other existing job scheduling algorithms.
Experimental evaluation confirmed that the proposed grid scheduling algorithms
possess a high degree of optimality in performance, efficiency and scalability
Енергоефективне обслуговування навантаження інформаційно-комунікаційної мережі
Прокопець Н.А. Енергоефективне обслуговування навантаження
інформаційно-комунікаційної мережі. – Кваліфікаційна наукова праця на правах
рукопису.
Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю
172 – Телекомунікації та радіотехніка. – Навчально-науковий інститут
телекомунікаційних систем КПІ ім. Ігоря Сікорського, Київ, 2022.
У дисертаційній роботі розв’язано актуальну науково-практичну задачу
підвищення енергоефективності та продуктивності обслуговування навантаження
інформаційно-комунікаційної мережі (ІКМ) при виконанні вимог щодо
доступності системи обслуговування навантаження за рахунок застосування
комплексного методу енергоефективного обслуговування навантаження.
Функціонування сучасної ІКМ великою мірою залежить від програмного
забезпечення (ПЗ), що виконує різноманітні мережеві задачі. Це обумовлено
розвитком ряду технологій та концепцій, зокрема SDN (Software-Defined
Networking), NFV (Network Functions Virtualization), логічного поділу мережі
(Network Slicing), периферійних обчислень (Edge Computing) та bDDN (Big data
driven networking). Задачі, що вирішуються в рамках цих концепцій, формують
обчислювальне навантаження, для обслуговування якого необхідною є побудова та
підтримка розподілених обчислювальних систем як невід’ємної частини
архітектури ІКМ. При цьому, особливості цих типів навантаження формують
специфічні вимоги щодо його обслуговування. Проведений у роботі аналіз вимог
різних типів навантаження ІКМ згідно з рекомендаціями Міжнародної спілки
електрозв’язку дозволив визначити основні показники ефективності системи
розподіленого обслуговування навантаження у складі ІКМ та серверного кластера
як одиниці розподіленого центру обробки даних (ЦОД) у складі ІКМ зокрема:
показники енергоефективності та продуктивності обробки обчислювального
навантаження, а також коефіцієнт готовності системи розподіленого
обслуговування навантаження . На основі цих показників сформовано
критерій оптимальності процесу обслуговування навантаження в інформаційно-
комунікаційній мережі .
В ході аналізу існуючих підходів щодо підвищення енергоефективності
розподіленого обслуговування навантаження виявлено певні їх недоліки, а саме:
статичні підходи не враховують динамічну змінюваність інтенсивності
навантаження; динамічні підходи, що застосовуються на рівні апаратного
забезпечення мають високу складність та вартість впровадження. Серед відомих
динамічних підходів, що використовуються на рівні програмного забезпечення,
підходи щодо консолідації та масштабування обчислювальних ресурсів не
враховують показник доступності системи, можуть негативно впливати на
продуктивність системи, особливо у випадку динамічних змін інтенсивності
навантаження, не використовують індивідуальні характеристики
енергоспоживання обчислювальних вузлів, що призводить до неоптимального
використання обчислювальних ресурсів. Серед методів енергоефективного
розподілу навантаження було відзначено алгоритм планування навантаження
Backfill, основною перевагою якого є мінімізація простою обчислювальних вузлів
за рахунок щільного розподілу обчислювальних робіт. Однак ефективність цього
підходу значно зменшується у випадку невисокої інтенсивності вхідного
навантаження, крім того, він не враховує індивідуальні характеристики
енергоспоживання та продуктивності обчислювальних вузлів. Окремим сукупним
недоліком існуючих підходів є те, що кожен з них вирішує задачу підвищення
енергоефективності обслуговування навантаження з урахуванням лише частини
аспектів цього процесу та показників його ефективності, що визначило
необхідність систематизації та формалізації процесу обслуговування навантаження
в інформаційно-комунікаційній мережі.
З метою систематизації та формалізації процесу обслуговування навантаження
ІКМ як об’єкта дослідження побудовано онтологічну модель досліджуваної
системи розподіленого обслуговування навантаження. Це дозволило якісно
описати складні взаємозв’язки між виділеними показниками ефективності
досліджуваного процесу та параметрами, що впливають на них.
З метою отримання кількісної оцінки взаємозв’язків між показниками
ефективності досліджуваного процесу та параметрами, що на них впливають,
побудовано математичну модель системи розподіленого обслуговування
навантаження у складі ІКМ як системи масового обслуговування (СМО). У процесі
побудови моделі запропоновано метод переходу від нестаціонарного
неординарного вхідного потоку заявок до стаціонарного ординарного потоку
шляхом дискретизації кривої інтенсивності вхідного навантаження та за
допомогою переходу до комплектів серверів, що дозволило значно спростити
розрахунки при допустимих втратах точності моделі. Для дискретизації кривої
інтенсивності вхідного навантаження запропоновано використання методу
квантування за рівнями, що дозволило узгодити величину кроку дискретизації
функції зі швидкістю зміни інтенсивності вхідного навантаження. Для визначення
кроку квантування запропоновано метод розрахунку порогових величин
інтенсивностей вхідного навантаження як функцій кількості обчислювальних
вузлів у системі. На основі побудованої математичної моделі запропоновано метод
розрахунку шаблонів горизонтального масштабування, що дозволяє визначати
оптимальну кількість активних обчислювальних вузлів у кластерах ЦОД ІКМ на
кожному інтервалі часу, який визначається швидкістю зміни інтенсивності
вхідного навантаження.
Проаналізовано способи визначення індивідуальних моделей
енергоспоживання обчислювальних вузлів розподілених ЦОД та обґрунтовано
доцільність їх використання у процесі обслуговування навантаження ІКМ.
Докладно розглянуто два способи визначення моделей енергоспоживання:
емпіричний та програмний. Перший спосіб базується на безпосередньому
вимірюванні енергоспоживання вузлів та подальшій інтерполяції отриманих
залежностей поліномом ступеня з метою отримання аналітичних
функцій. Другий спосіб базується на програмній оцінці енергетичних моделей з
подальшою інтерполяцією отриманих функцій. Рекомендовано використання
методу емпіричного визначення математичних моделей енергоспоживання для
нових систем на етапі їх налаштування. У випадку введення нових вузлів до
системи або під час її переатестації, рекомендовано використання аналітичного
методу визначення моделей енергоспоживання.
Побудовану математичну модель системи у вигляді СМО та розглянуті
способи визначення індивідуальних моделей енергоспоживання обчислювальних
вузлів покладено в основу нового комплексного методу енергоефективного
обслуговування навантаження в ІКМ. Запропонований комплексний метод
відрізняється від відомих використанням індивідуальних моделей
енергоспоживання обчислювальних вузлів, поєднанням переваг підходів
горизонтального масштабування та енергоефективного розподілу задач,
врахуванням непередбачуваних динамічних змін інтенсивності вхідного
навантаження, що дозволило підвищити енергоефективність процесу
обслуговування навантаження без втрати продуктивності та за умови дотримання
вимог щодо доступності системи. В рамках запропонованого комплексного методу
удосконалено існуючі підходи щодо горизонтального масштабування
обчислювальної системи шляхом використання індивідуальних моделей
енергоспоживання обчислювальних вузлів та застосування механізму
прогнозування динамічних відхилень вхідного навантаження, що дозволило
забезпечити інтенсивніше використання найбільш енергоефективного обладнання
та вчасно реагувати на непередбачувані зміни інтенсивності вхідного
навантаження.
На основі запропонованого комплексного методу енергоефективного
обслуговування навантаження створено програмне забезпечення (ПЗ) керування
обчислювальними ресурсами в ІКМ, яке дозволяє підвищити енергоефективність
та продуктивність розподіленого обслуговування навантаження з дотриманням
вимог щодо доступності системи обслуговування та може бути використано для
підвищення енергоефективності та продуктивності обробки навантаження у
периферійній та центральній хмарі в архітектурі мережі 5G.
Ефективність запропонованого комплексного методу та ПЗ на його основі
перевірено із використанням методів лабораторного експерименту та імітаційного
моделювання. Шляхом лабораторного експерименту перевірено ефективність
методу у невеликому серверному кластері з 4 обчислювальних вузлів. Імітаційна
модель, адекватність якої доведено із використанням критерія Фішера, довела
ефективність запропонованого комплексного методу у більшій розподіленій
системі із 20 вузлів. Виграш запропонованого комплексного методу у порівнянні із
відомими підходами Backfill та Round Robin за показником енергоефективності при
цьому склав 9,953% та 26,382% відповідно. Виграш за показником продуктивності
становив 5,593% та 49,458% відповідно. При цьому запропонований комплексний
метод забезпечує виконання вимог щодо доступності обчислювальних вузлів
розподілених ЦОД та дає виграш за обраним критерієм оптимальності на 15,722%
у порівнянні із Backfill та на 88,887% у порівнянні з Round Robin, що доводить
практичну цінність отриманих результатів дослідження.N.A. Prokopets Energy-efficient processing of the information and communication
network workload. – Qualifying scientific work on manuscript rights.
Thesis for graduation scientific degree of Philosophy Doctor by specialty 172 –
Telecommunications and radio engineering. – Educational and Scientific Institute of
Telecommunication Systems of KPI named after Igor Sikorsky, Kyiv, 2022.
In the thesis, the important scientific and practical problem of increasing the energy
efficiency and performance of workload processing in information and communication
network (ICN) while meeting the requirements for the availability of the workload
processing system was solved through the use of a comprehensive method of energyefficient
workload processing.
The functioning of a modern ICN largely depends on the software that performs
various network tasks. This is due to the development of a number of technologies and
concepts, including SDN (Software-Defined Networking), NFV (Network Functions
Virtualization), Network Slicing, Edge Computing and bDDN (Big data driven
networking). The tasks being solved within these concepts form a computing workload,
for the processing of which it is necessary to build and maintain distributed computing
systems as an integral part of the ICN architecture. At the same time, the peculiarities of
these types of workload form specific requirements for its processing. The requirements
analysis conducted for each of these workload types in accordance with the
recommendations of the International Telecommunication Union allowed to determine
the main performance indicators of the distributed workload processing system as part of
the ICN and the server cluster as a unit of the distributed data center as part of the ICN,
in particular: energy efficiency and performance indicators of workload processing,
as well as the system availability factor . Based on these indicators, an optimality
criterion of workload processing in ICN was proposed.
During the analysis of the existing approaches to increase the energy efficiency of
distributed workload processing, some shortcomings were revealed, namely: static
approaches do not take into account the dynamic variability of the workload; dynamic
approaches applied at the hardware level have high complexity and cost of
implementation. Among the known dynamic approaches used at the software level, the
approaches to consolidation and scaling of computing resources do not take into account
the system availability indicator, which can negatively affect the system performance,
especially in the case of dynamic changes in the workload arrival rate. They also do not
use the individual characteristics of computing nodes’ energy consumption, which leads
to suboptimal use of computing resources. Among the approaches to energy-efficient
workload scheduling, the Backfill workload scheduling algorithm was noted, the main
advantage of which is minimizing the downtime of computing nodes due to the dense
distribution of computing work. However, the effectiveness of this approach is
significantly reduced in the case of a low input workload arrival rate, in addition, it does
not take into account the individual characteristics of energy consumption and
performance of computing nodes. A separate collective disadvantage of the existing
approaches is that each of them solves the problem of increasing the energy efficiency of
workload processing taking into account only part of the aspects of this process and its
efficiency indicators, which determined the need to systematize and formalize the
workload processing process in the information and communication network.
In order to systematize and formalize the workload processing process in the
information and communication network as an object of research, an ontological model
of a distributed workload processing system was built. This made it possible to
qualitatively describe the complex relationships between the selected efficiency
indicators of the process being researched and the parameters affecting them.
In order to obtain a quantitative assessment of the relationships between the defined
efficiency indicators and the parameters that affect them, a mathematical model of the
distributed workload processing system within the ICN as a queuing system (QS) was
built. While building the model, a method of transition from a non-stationary nonordinary
input requests flow to a stationary ordinary flow was proposed by discretizing
the intensity curve of the input workload and using the transition to sets of servers, which
made it possible to significantly simplify calculations with permissible losses of model
accuracy. For the discretization of the input workload arrival rate curve, the use of the
quantization by levels was proposed, which made it possible to match the size of the
discretization step with the rate of change of the input workload arrival rate. To determine
the quantization step, a method of calculating threshold values of input workload arrival
rate as a function of the number of computing nodes in the system is proposed. Based on
the constructed mathematical model, a method for calculating horizontal scaling patterns
is proposed, which allows determining the optimal number of active computing nodes in
the system at each time interval, which is determined by the rate the input workload arrival
rate change.
The methods of determining individual energy consumption models of computing
nodes were analyzed and the expediency of their use in the workload processing process
in ICN was substantiated. Two methods of determining energy consumption models were
considered in detail: empirical and software-based methods. The first method is based on
the direct measurement of the energy consumption of the nodes and further interpolation
of the obtained dependencies by a polynomial of a degree in order to obtain analytical
functions. The second method is based on software-based evaluation of energy
consumption models with subsequent interpolation of the obtained functions. It is
recommended to use the method of empirical energy consumption models determination
for new systems at the stage of their configuration. In the case of introducing new nodes
to the system or during its re-configuration, it is recommended to use a software-based
method for determining energy consumption models.
The built mathematical model of the system in the form of QS and the considered
methods of determining individual energy consumption models of computing nodes
became the basis of a new comprehensive method of energy-efficient workload
processing in computing nodes of distributed data centers. The proposed comprehensive
method differs from known ones in the use of individual models of computing nodes’
energy consumption, a combination of the advantages of horizontal scaling approaches
and energy-efficient scheduling, while taking into account dynamic changes in the input
workload arrival rate, which made it possible to increase the energy efficiency of the
workload processing without loss of performance and subject to compliance with system
availability requirements. As part of the proposed comprehensive method, the existing
approaches to horizontal scaling of the computer system were improved by using
individual models of computer nodes’ energy consumption and mechanism for predicting
dynamic deviations of the input workload arrival rate, which made it possible to ensure
more intensive use of the most energy-efficient equipment and to respond in time to
unpredictable changes in the input workload arrival rate.
On the basis of the proposed comprehensive method of energy-efficient workload
processing, software for managing computing resources has been created, which allows
to increase the energy efficiency and performance of distributed workload processing
while complying with the requirements for system availability, and can be used to
increase the energy efficiency and performance of workload processing in edge and
central cloud within the 5G network architecture.
The effectiveness of the proposed comprehensive method and the software based on
it was verified using the methods of laboratory experiment and simulation modeling. The
effectiveness of the method was tested in a small server cluster with 4 computing nodes
by means of the experiment. The simulation model, the adequacy of which was proven
using Fisher's test, proved the effectiveness of the proposed comprehensive method in a
larger distributed system with 20 nodes. The performance of the proposed comprehensive
method in comparison with the known Backfill and Round Robin approaches in terms of
energy efficiency was 9.953% and 26.382%, respectively. The performance gain was
5.593% and 49.458% respectively. At the same time, the proposed comprehensive
method ensures the fulfillment of the requirements regarding the system availability and
gives a gain according to the proposed optimality criterion by 15.722% in comparison
with Backfill and by 88.887% in comparison with Round Robin, which proves the
practical value of the obtained research results
DESIGN AND EVALUATION OF RESOURCE ALLOCATION AND JOB SCHEDULING ALGORITHMS ON COMPUTATIONAL GRIDS
Grid, an infrastructure for resource sharing, currently has shown its importance in
many scientific applications requiring tremendously high computational power. Grid
computing enables sharing, selection and aggregation of resources for solving
complex and large-scale scientific problems. Grids computing, whose resources are
distributed, heterogeneous and dynamic in nature, introduces a number of fascinating
issues in resource management. Grid scheduling is the key issue in grid environment
in which its system must meet the functional requirements of heterogeneous domains,
which are sometimes conflicting in nature also, like user, application, and network.
Moreover, the system must satisfy non-functional requirements like reliability,
efficiency, performance, effective resource utilization, and scalability. Thus, overall
aim of this research is to introduce new grid scheduling algorithms for resource
allocation as well as for job scheduling for enabling a highly efficient and effective
utilization of the resources in executing various applications.
The four prime aspects of this work are: firstly, a model of the grid scheduling
problem for dynamic grid computing environment; secondly, development of a new
web based simulator (SyedWSim), enabling the grid users to conduct a statistical\ud
analysis of grid workload traces and provides a realistic basis for experimentation in
resource allocation and job scheduling algorithms on a grid; thirdly, proposal of a new
grid resource allocation method of optimal computational cost using synthetic and
real workload traces with respect to other allocation methods; and finally, proposal of
some new job scheduling algorithms of optimal performance considering parameters
like waiting time, turnaround time, response time, bounded slowdown, completion
time and stretch time. The issue is not only to develop new algorithms, but also to
evaluate them on an experimental computational grid, using synthetic and real
workload traces, along with the other existing job scheduling algorithms.
Experimental evaluation confirmed that the proposed grid scheduling algorithms
possess a high degree of optimality in performance, efficiency and scalability
Self-adapting Backfilling Scheduling for Parallel Systems
We focus on non-FCFS job scheduling policies for parallel systems that allow jobs to backfill, i.e., to move ahead in the queue, given that they do not delay certain previously submitted jobs. Consistent with commercial schedulers that maintain multiple queues where jobs are assigned according to the user-estimated duration, we propose a self-adapting backfilling policy that maintains multiple job queues to separate short from long jobs. The proposed policy adjusts its configuration parameters by continuously monitoring the system and quickly reacting to sudden fluctuations in the workload arrival pattern and/or severe changes in resource demands. Detailed performance comparisons via simulation using actual Supercomputing traces from the Parallel Workload Archive indicate that the proposed policy consistently outperforms traditional backfilling
Power-Aware Job Dispatching in High Performance Computing Systems
This works deals with the power-aware job dispatching problem in supercomputers; broadly speaking the dispatching consists of assigning finite capacity resources to a set of activities, with a special concern toward power and energy efficient solutions. We introduce novel optimization approaches to address its multiple aspects.
The proposed techniques have a broad application range but are aimed at applications in the field of High Performance Computing (HPC) systems.
Devising a power-aware HPC job dispatcher is a complex, where contrasting goals must be satisfied. Furthermore, the online nature of the problem request that solutions must be computed in real time respecting stringent limits. This aspect historically discouraged the usage of exact methods and favouring instead the adoption of heuristic techniques. The application of optimization approaches to the dispatching task is still an unexplored area of research and can drastically improve the performance of HPC systems.
In this work we tackle the job dispatching problem on a real HPC machine, the Eurora supercomputer hosted at the Cineca research center, Bologna. We propose a Constraint Programming (CP) model that outperforms the dispatching software currently in use. An essential element to take power-aware decisions during the job dispatching phase is the possibility to estimate jobs power consumptions before their execution. To this end, we applied Machine Learning techniques to create a prediction model that was trained and tested on the Euora supercomputer, showing a great prediction accuracy. Then we finally develop a power-aware solution, considering the same target machine, and we devise different approaches to solve the dispatching problem while curtailing the power consumption of the whole system under a given threshold. We proposed a heuristic technique and a CP/heuristic hybrid method, both able to solve practical size instances and outperform the current state-of-the-art techniques