2 research outputs found

    Метод адаптації глибоких нейронних мереж до апаратного забезпечення зі спеціалізованою архітектурою

    Get PDF
    Таран В.І. Метод адаптації глибоких нейронних мереж до апаратного забезпечення зі спеціалізованою архітектурою. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 123 – Комп’ютерна інженерія з галузі знань 12 – Інформаційні технології. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2022. Дисертаційна робота присвячена розробці комплексного методу адаптації глибоких нейронних мереж, що дозволяє підвищити продуктивність та ефективність обробки даних глибокими нейронними мережами на апаратному забезпеченні зі спеціалізованою архітектурою. Вперше було розроблено комплексний метод адаптації глибоких нейронних мереж для спеціалізованих обчислювальних архітектур. Розроблено метод адаптивного ітеративного прунінгу для зменшення розміру моделей нейронних мереж за рахунок поступового зменшення розміру мережі шляхом видалення зайвих каналів у згорткових шарах та додатковому навчанні отриманої зменшеної моделі для відновлення точності розпізнавання. Відповідно до розробленого методу, гіперпараметри мережі адаптивно змінюються, щоб компенсувати втрати точності після кожної ітерації прунінгу та зменшити час ітерації обробки даних. Розроблено метод підвищення ефективності процесу обробки даних нейронними мережами на спеціалізованих обчислювальних архітектурах, що враховує технічні особливості обробки даних за допомогою глибоких нейронних мереж на спеціалізованих прискорювачах, наприклад, ітерація виконання обчислень. Також цей метод дозволяє визначити параметри такі, як розмір порції даних, щоб збільшити продуктивність обробки даних за рахунок зменшення впливу накладних витрат ініціалізації і передачі даних. Розроблено метод підвищення ефективності інфраструктури для обробки даних за допомогою глибоких нейронних мереж за рахунок зміни програмної та апаратної складової такої, як операційна система та інтерфейси підключення. Це дозволяє збільшити продуктивність та ефективність обробки даних за допомогою нейронних мереж на цільовій системі. Розроблено програмний компонент діагностики легеневих аномалій за даними рентген знімків для дослідження ефективності роботи спеціалізованого прискорювача Coral Edge TPU USB в задачах медичного застосунку. В якості архітектури глибокої нейронної мережі для даної задачі було обрано ResNet50, яку було треновано на наборі даних ChestXray та адаптовано під спеціалізований прискорювач відповідно до розробленого комплексного методу адаптації. Проведено аналіз результатів застосування методу адаптації глибоких нейронних мереж, що включає в себе адаптивний ітеративний прунінг, підвищення ефективності процесу обробки даних нейронною мережею та підвищення ефективності програмно-апаратної складової цільової хостсистеми. За результатами застосування розробленого методу адаптивного ітеративного прунінгу було досягнуто прискорення 32,2 із точністю розпізнавання 96,2% (10 ітерацій прунінгу). За результатами аналізу технічних особливостей роботи спеціалізованих обчислювальних архітектур було виявлено, що значні показники прискорення, при використанні TPU у порівнянні з GPU, досягаються на пізніх ітераціях (>3) виконання обробки даних моделями глибоких нейронних мереж, коли витрати на ініціалізацію не впливають на продуктивність. Даний фактор треба враховувати при підвищенні ефективності процесу обробки даних нейронними мережами на прискорювачах зі спеціалізованою архітектурою. В результаті аналізу факторів, що впливають на продуктивність цільової інфраструктури обробки даних за допомогою глибоких нейронних мереж, було досягнуто значних різниць в продуктивності при застосуванні різних комбінацій забезпечення цільової інфраструктури. При цьому, досягнуте прискорення склало 8,7. Розроблені методи є складовою комплексного методу адаптації глибоких нейронних мереж і дозволяють підготувати обрану модель нейронної мережі для її застосування на зазначених вище прискорювачах нейронних мереж зі спеціалізованою архітектурою.Taran V.I. Method of deep neural networks adaptation for hardware with specialized architecture. - Qualified scientific work on the rights of the manuscript. Dissertation for the degree of Doctor of Philosophy in the specialty 123 - Computer Engineering and 12 - Information Technologies. - National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute", Kyiv, 2022. The dissertation work is devoted to the development of the complex adaptation method of deep neural networks, which allows to increase productivity and efficiency of deep neural networks applications on the hardware with specialized architecture. The complex deep neural networks adaptation method for specialized hardware was developed. The method of adaptive iterative pruning for decreasing neural network model size was developed, which is based on subsequent decrease of the model size by removing redundant channels in convolution layers and additional model training for accuracy recovery. According to the proposed method, model hyper parameters are changed after every iteration to compensate accuracy loss and to achieve time decreasing of data processing iteration. The method of neural network data processing efficiency improvement for specialized accelerators was developed. It is based on the technical aspects of deep neural network data processing on hardware with specialized architectures, for example data processing iteration and allows to determine processing parameters for decreasing influence of overheads. The method of neural network processing infrastructure efficiency improvement was developed. It allows to optimize hardware and software configuration of the target system for increasing deep neural network data processing productivity. The testing software for medical diagnostics in the context of edge computing was developed. It utilizes the developed deep neural networks adaptation method and specialized accelerator Coral Edge TPU. The result analysis of the deep neural network adaptation method application was performed. It includes adaptive iterative pruning method, data processing efficiency improvement method and computational infrastructure efficiency improvement method. The speedup up to 32,2 and 96,2% accuracy were achieved after performing 10 iteration of the developed adaptive iterative pruning method. Based on the technical processing properties analysis for specialized processing architectures, some factors were identified, which have influence on the data processing. The considerable speedup values, while utilizing TPU compared to GPU, were achieved on the later data processing iterations (>3) with deep neural networks models, when initialization overheads had small influence on the accelerator performance. Such factor should be taken into account, while improving deep neural networks data processing efficiency on the accelerators with specialized architecture. Based on the deep neural network processing infrastructure analysis of factors, which had influence on the processing productivity, the following was identified. Considerable productivity difference was achieved, while utilizing different software and hardware combinations of the processing infrastructure. The achieved speedup value was up to 8,7. Developed methods are parts of the complex deep neural networks adaptation method. It allows to prepare the selected neural network model for application on the accelerator with specialized architecture

    Exploration of block-wise dynamic sparseness

    No full text
    Neural networks have achieved state of the art performance across a wide variety of machine learning tasks, often with large and computation-heavy models. Inducing sparseness as a way to reduce the memory and computation footprint of these models has seen significant research attention in recent years. In this paper, we present a new method for \emph{dynamic sparseness}, whereby part of the computations are omitted dynamically, based on the input. For efficiency, we combined the idea of dynamic sparseness with block-wise matrix-vector multiplications. In contrast to static sparseness, which permanently zeroes out selected positions in weight matrices, our method preserves the full network capabilities by potentially accessing any trained weights. Yet, matrix vector multiplications are accelerated by omitting a pre-defined fraction of weight blocks from the matrix, based on the input. Experimental results on the task of language modeling, using recurrent and quasi-recurrent models, show that the proposed method can outperform a magnitude-based static sparseness baseline. In addition, our method achieves similar language modeling perplexities as the dense baseline, at half the computational cost at inference time
    corecore