2 research outputs found
Метод адаптації глибоких нейронних мереж до апаратного забезпечення зі спеціалізованою архітектурою
Таран В.І. Метод адаптації глибоких нейронних мереж до апаратного
забезпечення зі спеціалізованою архітектурою. – Кваліфікаційна наукова
праця на правах рукопису.
Дисертація на здобуття наукового ступеня доктора філософії за
спеціальністю 123 – Комп’ютерна інженерія з галузі знань 12 – Інформаційні
технології. – Національний Технічний Університет України «Київський
Політехнічний Інститут імені Ігоря Сікорського», Київ, 2022.
Дисертаційна робота присвячена розробці комплексного методу
адаптації глибоких нейронних мереж, що дозволяє підвищити
продуктивність та ефективність обробки даних глибокими нейронними
мережами на апаратному забезпеченні зі спеціалізованою архітектурою.
Вперше було розроблено комплексний метод адаптації глибоких
нейронних мереж для спеціалізованих обчислювальних архітектур.
Розроблено метод адаптивного ітеративного прунінгу для зменшення
розміру моделей нейронних мереж за рахунок поступового зменшення
розміру мережі шляхом видалення зайвих каналів у згорткових шарах та
додатковому навчанні отриманої зменшеної моделі для відновлення точності
розпізнавання. Відповідно до розробленого методу, гіперпараметри мережі
адаптивно змінюються, щоб компенсувати втрати точності після кожної
ітерації прунінгу та зменшити час ітерації обробки даних.
Розроблено метод підвищення ефективності процесу обробки даних
нейронними мережами на спеціалізованих обчислювальних архітектурах, що
враховує технічні особливості обробки даних за допомогою глибоких
нейронних мереж на спеціалізованих прискорювачах, наприклад, ітерація
виконання обчислень. Також цей метод дозволяє визначити параметри такі, як розмір порції даних, щоб збільшити продуктивність обробки даних за
рахунок зменшення впливу накладних витрат ініціалізації і передачі даних.
Розроблено метод підвищення ефективності інфраструктури для
обробки даних за допомогою глибоких нейронних мереж за рахунок зміни
програмної та апаратної складової такої, як операційна система та інтерфейси
підключення. Це дозволяє збільшити продуктивність та ефективність
обробки даних за допомогою нейронних мереж на цільовій системі.
Розроблено програмний компонент діагностики легеневих аномалій за
даними рентген знімків для дослідження ефективності роботи
спеціалізованого прискорювача Coral Edge TPU USB в задачах медичного
застосунку. В якості архітектури глибокої нейронної мережі для даної задачі
було обрано ResNet50, яку було треновано на наборі даних ChestXray та
адаптовано під спеціалізований прискорювач відповідно до розробленого
комплексного методу адаптації.
Проведено аналіз результатів застосування методу адаптації глибоких
нейронних мереж, що включає в себе адаптивний ітеративний прунінг,
підвищення ефективності процесу обробки даних нейронною мережею та
підвищення ефективності програмно-апаратної складової цільової хостсистеми. За результатами застосування розробленого методу адаптивного
ітеративного прунінгу було досягнуто прискорення 32,2 із точністю
розпізнавання 96,2% (10 ітерацій прунінгу). За результатами аналізу
технічних особливостей роботи спеціалізованих обчислювальних архітектур
було виявлено, що значні показники прискорення, при використанні TPU у
порівнянні з GPU, досягаються на пізніх ітераціях (>3) виконання обробки
даних моделями глибоких нейронних мереж, коли витрати на ініціалізацію не
впливають на продуктивність. Даний фактор треба враховувати при
підвищенні ефективності процесу обробки даних нейронними мережами на
прискорювачах зі спеціалізованою архітектурою. В результаті аналізу факторів, що впливають на продуктивність цільової інфраструктури обробки
даних за допомогою глибоких нейронних мереж, було досягнуто значних
різниць в продуктивності при застосуванні різних комбінацій забезпечення
цільової інфраструктури. При цьому, досягнуте прискорення склало 8,7.
Розроблені методи є складовою комплексного методу адаптації
глибоких нейронних мереж і дозволяють підготувати обрану модель
нейронної мережі для її застосування на зазначених вище прискорювачах
нейронних мереж зі спеціалізованою архітектурою.Taran V.I. Method of deep neural networks adaptation for hardware with
specialized architecture. - Qualified scientific work on the rights of the manuscript.
Dissertation for the degree of Doctor of Philosophy in the specialty 123 -
Computer Engineering and 12 - Information Technologies. - National Technical
University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute", Kyiv, 2022.
The dissertation work is devoted to the development of the complex
adaptation method of deep neural networks, which allows to increase productivity
and efficiency of deep neural networks applications on the hardware with
specialized architecture.
The complex deep neural networks adaptation method for specialized
hardware was developed.
The method of adaptive iterative pruning for decreasing neural network
model size was developed, which is based on subsequent decrease of the model
size by removing redundant channels in convolution layers and additional model
training for accuracy recovery. According to the proposed method, model hyper
parameters are changed after every iteration to compensate accuracy loss and to
achieve time decreasing of data processing iteration.
The method of neural network data processing efficiency improvement for
specialized accelerators was developed. It is based on the technical aspects of deep
neural network data processing on hardware with specialized architectures, for
example data processing iteration and allows to determine processing parameters
for decreasing influence of overheads.
The method of neural network processing infrastructure efficiency
improvement was developed. It allows to optimize hardware and software
configuration of the target system for increasing deep neural network data
processing productivity. The testing software for medical diagnostics in the context of edge
computing was developed. It utilizes the developed deep neural networks
adaptation method and specialized accelerator Coral Edge TPU.
The result analysis of the deep neural network adaptation method application
was performed. It includes adaptive iterative pruning method, data processing
efficiency improvement method and computational infrastructure efficiency
improvement method. The speedup up to 32,2 and 96,2% accuracy were achieved
after performing 10 iteration of the developed adaptive iterative pruning method.
Based on the technical processing properties analysis for specialized processing
architectures, some factors were identified, which have influence on the data
processing. The considerable speedup values, while utilizing TPU compared to
GPU, were achieved on the later data processing iterations (>3) with deep neural
networks models, when initialization overheads had small influence on the
accelerator performance. Such factor should be taken into account, while
improving deep neural networks data processing efficiency on the accelerators
with specialized architecture. Based on the deep neural network processing
infrastructure analysis of factors, which had influence on the processing
productivity, the following was identified. Considerable productivity difference
was achieved, while utilizing different software and hardware combinations of the
processing infrastructure. The achieved speedup value was up to 8,7.
Developed methods are parts of the complex deep neural networks
adaptation method. It allows to prepare the selected neural network model for
application on the accelerator with specialized architecture
Exploration of block-wise dynamic sparseness
Neural networks have achieved state of the art performance across a wide
variety of machine learning tasks, often with large and computation-heavy
models. Inducing sparseness as a way to reduce the memory and computation
footprint of these models has seen significant research attention in recent
years. In this paper, we present a new method for \emph{dynamic sparseness},
whereby part of the computations are omitted dynamically, based on the input.
For efficiency, we combined the idea of dynamic sparseness with block-wise
matrix-vector multiplications. In contrast to static sparseness, which
permanently zeroes out selected positions in weight matrices, our method
preserves the full network capabilities by potentially accessing any trained
weights. Yet, matrix vector multiplications are accelerated by omitting a
pre-defined fraction of weight blocks from the matrix, based on the input.
Experimental results on the task of language modeling, using recurrent and
quasi-recurrent models, show that the proposed method can outperform a
magnitude-based static sparseness baseline. In addition, our method achieves
similar language modeling perplexities as the dense baseline, at half the
computational cost at inference time