Search CORE

1 research outputs found

Метод трансформації класифікаційних міток зображення в сегментаційні маски

Author: Сидорський В. С.
Publication venue: 'Kyiv Politechnic Institute'
Publication date: 01/01/2022
Field of study

Задача бінарної або багато класової сегментації зображення постає в багатьох областях промислово-сті, медицини, сільського господарства та інших прикладних областях діяльності людини. На даний момент існує велика кількість алгоритмів машинного навчання, які можуть бути використані для цього, проте найбільш ефек-тивним підходом на сьогодні є згорткові нейронні мережі. Водночас нейронні мережі потребують більших тренува-льних вибірок в порівнянні з класичними алгоритми машинного навчання. Водночас накопичення тренувальної вибірки потребує великої кількості людських і фінансових ресурсів, а також часу. Отже постає задача дослідити методи зменшення кількості ресурсів для накопичення тренувального набору даних. Попередні дослідження в цій сфері були присвячені методам часткового навчання або ж навчання без вчителя. Проте всі вони потребують накопичення певної тренувальної вибірки - масок для зображень. В даному дослідженні буде розглянуто інший підхід - трансформація класифікаційної розмітки (міток класів) в сегментаційну (маски зо-бражень). Важливо зазначити, що подібні підходи достатньо нові та малодосліджені. Запропонований метод не пот-ребує накопичення масок зображень, а значить і великої кількості ресурсів для їх збору. Розглянутий метод грун-тується на алгоритмі GradCam, який дає можливість отримати активаційну маску зображення, маючи лише мітку классу. Проте для подальшого використання отриманої маски, необхідно застосувати ряд перетворень для покра-щення якості сегментації. Для підтвердження ефективності запропонованого методу були проведені експерименти на задачі сегментації дефектів на листах сталі — Kaggle-Severstal: Steel Defect Detection. Експериментальні резуль-тати показали адекватність запропонованого підходу - було отримано маски, якість яких достатня для локалізації дефектів. Результати були оцінені за метрикою Dice: класична схема тренування – 0.621, запропонований підхід – 0.465. Проте запропонований метод потребує значно менше ресурсів в порівнянні з підходам класичного навчання та багатьма підходами часткового навчання.Semantic image segmentation plays a crucial role in a wide range of industrial applications and has been receiving significant attention. Unfortunately, image segmentation tasks are notoriously difficult and different industries often require human experts. Convolutional neural networks (CNNs) have been successfully applied in many fields of image segmentation. But all of them still require a huge amount of hand-labeled data for training. A lot of research was conducted in the field of unsupervised and semi-supervised learning, which studies how to shrink the amount of training data at the same time preserving the quality of the model. But still another field of research - transformation of “cheap” (in terms of time, money and human resources) markup into “expensive” is novel. In this work a new approach of generating semantic segmentation masks, using only classification labels of the image, was proposed. Proposed method is based on the GradCam algorithm, which can produce image activation heatmap, using only class label. But GradCams’ heatmaps are raw for final use, so additional techniques and transforms should be applied in order to get final usable masks. Experiments were con-ducted on the task of detecting defects on steel plates — Kaggle- Severstal: Steel Defect Detection. After that Dice metric was computed using a classical training approach and proposed method: classical approach - 0.621, proposed method - 0.465. Proposed approach requires much less human resources compared to the classical approach. Moreover, after visual inspection of results it is obvious that the proposed approach has successfully completed the task of defect localization

Electronic Archive of Kyiv Polytechnic Institute