    Применение нейронных сетей архитектуры UNet, DeepLabV3, PSPNet для семантической сегментации лица на фотографии

    У даній роботі досліджено можливість та доцільність застосування штучних нейронних мереж архітектури UNet, DeepLabV3, PSPNet для вирішення задачі семантичної сегментації обличчя на фотографії. Навчання мережі проводилося на датасеті Labeled Faces in the Wild (LFW) Part Labels Database. Семантична сегментація проводилася по 3 класам: волосся, область обличчя, фон. В результаті дослідження вдалося досягти достатньо високої точності сегментації для мережі UNet (Mean IoU = 85.6%, Pixel Accuracy = 95.7%), що відповідає рівню найкращих реалізацій моделей на датасеті LFW, при цьому досліджена модель достатньо компактна, завдяки чому може використовуватися у мобільних та веб-додатках.This paper describes research on ability and feasibility of applying neural networks of UNet, DeepLabV3, PSPNet architectures in semantic segmentation of faces. The training was performed on Labeled Faces in the Wild (LFW) Part Labels Database. Semantic segmentation was performed by 3 classes: hair, face region, background. As the result of the research it was achieved fairly high level of segmentation accuracy for model UNet (Mean IoU = 85.6%, Pixel Accuracy = 95.7%) which is comparable with results of state of the art models on LFW dataset, meanwhile the trained model is compact enough to be appropriate for using in mobile and web applications.В данной работе исследована возможность и целесообразность применения искусственных нейронных сетей архитектуры UNet, DeepLabV3, PSPNet для решения задачи семантической сегментации лица на фотографии. Обучение сети проводилось на датасете Labeled Faces in the Wild (LFW) Part Labels Database. Семантическая сегментация проводилась по 3 классам: волосы, область лица, фон. В результате исследования удалось достичь достаточно высокой точности сегментации для сети UNet (Mean IoU = 85.6%, Pixel Accuracy = 95.7%), что соответствует уровню лучших реализаций моделей на датасете LFW, при этом исследованая модель достаточно компактна, благодаря чему может использоваться в мобильных и веб-приложениях

    Dynamic Face Video Segmentation via Reinforcement Learning

    For real-time semantic video segmentation, most recent works utilised a dynamic framework with a key scheduler to make online key/non-key decisions. Some works used a fixed key scheduling policy, while others proposed adaptive key scheduling methods based on heuristic strategies, both of which may lead to suboptimal global performance. To overcome this limitation, we model the online key decision process in dynamic video segmentation as a deep reinforcement learning problem and learn an efficient and effective scheduling policy from expert information about decision history and from the process of maximising global return. Moreover, we study the application of dynamic video segmentation on face videos, a field that has not been investigated before. By evaluating on the 300VW dataset, we show that the performance of our reinforcement key scheduler outperforms that of various baselines in terms of both effective key selections and running speed. Further results on the Cityscapes dataset demonstrate that our proposed method can also generalise to other scenarios. To the best of our knowledge, this is the first work to use reinforcement learning for online key-frame decision in dynamic video segmentation, and also the first work on its application on face videos.Comment: CVPR 2020. 300VW with segmentation labels is available at: https://github.com/mapleandfire/300VW-Mas