Rozpoznání emocí na základě výrazu tváře pomocí strojového učení

Abstract

Being able to recognize emotions is a key component in communication between humans. This component however, is missing in human-machine communication. The recent advancements in Deep Learning (DL) brought with it many public data sets for Facial Expression Recognition (FER). Consequently, DL approaches became popular for emotion recognition, especially Convolutional Neural Networks (CNNs). In this work we present two different architectures utilizing single CNN for predicting basic human emotions. Furthermore, we present an architecture based on Decision Tree classifier, where the decision nodes are CNN models. Presented architectures are trained on a well-known FER data set (identified under the name of FER2013). We achieved state-of-the-art performance using a single CNN model based on the VGG architecture on this data set. We then evaluate performance of our model and test its generalization abilities over an external data set. In addition, we apply Transfer Learning methodology to reuse knowledge assimilated over FER2013 data set. We create a new model, that will be utilizing this transferred knowledge and test it over an external data set (identified under the name of CK+). Employing this new model, we achieved state-of-the-art performance on the CK+ data set.Byť schopný rozpoznať emócie je kľúčové pre medzi-ľudskú komunikáciu. Táto vlastnosť však chýba pri komunikácii medzi človekom a počítačom. S nedávnym pokrom v hlbokom učení sa vyskytlo veľké množstvo verejne dostupných data setov na účeli rozponávania emócií na základe výrazu tváre. Metódy hlbokého učenia sa následkom toho stali pre tento problém populárne, najmä však konvolučné neuronové siete. V tejto práci prezentujeme dve rôzne architektúry využívajúce jednu konvolučnú neuronovú sieť pre rozponávanie základných ľudských emócií. Okrem toho, prezentujeme aj architektúru založenú na rozhodovacom strome, kde jednotlivé uzly predstavujú konvolučné neuronové siete. Architektúry ktoré prezentujeme sú trénované na známom data sete určenom pre rozpoznávanie emócií na základe výrazu tváre (nazývaný FER2013). Použitím modelu s jednou konvolučnou neuronovou sieťou založenou na VGG architektúre sme dosiahli výsledky porovnateľné s dostupnými výsledkami v odbornej literatúre pre data set FER2013. Ďalej sme otestovali výkonnosť tohto modelu a zároveň aj jeho generalizačné schopnosti na externom data sete. Okrem toho, aplikujeme aj metódy preneseného učenia, aby sme mohli znovu využiť znalosti nadobudnuté pomocou učenia na FER2013 data sete. Vytvoríme nový model, ktorý bude tieto znalosti využívať a otestujeme ich na externom data sete (nazývanom CK+). Využitím tohto modelu sme taktiež dosiahli výsledky na úrovni dostupnej odbornej literatúry pre data set CK+.460 - Katedra informatikyvýborn

    Similar works