25 research outputs found

    Video Based Deep CNN Model for Depression Detection

    Get PDF
    Our face reflects our feelings towards anything and everything we see, smell, teste or feel through any of our senses. Hence multiple attempts have been made since last few decades towards understanding the facial expressions. Emotion detection has numerous applications since Safe Driving, Health Monitoring Systems, Marketing and Advertising etc. We propose an Automatic Depression Detection (ADD) system based on Facial Expression Recognition (FER). We propose a model to optimize the FER system for understanding seven basic emotions (joy, sadness, fear, anger, surprise, disgust and neutral) and use it for detection of Depression Level in the subject. The proposed model will detect if a person is in depression and if so, up to what extent. Our model will be based on a Deep Convolution Neural Network (DCNN)

    The Relationship Between Speech Features Changes When You Get Depressed: Feature Correlations for Improving Speed and Performance of Depression Detection

    Full text link
    This work shows that depression changes the correlation between features extracted from speech. Furthermore, it shows that using such an insight can improve the training speed and performance of depression detectors based on SVMs and LSTMs. The experiments were performed over the Androids Corpus, a publicly available dataset involving 112 speakers, including 58 people diagnosed with depression by professional psychiatrists. The results show that the models used in the experiments improve in terms of training speed and performance when fed with feature correlation matrices rather than with feature vectors. The relative reduction of the error rate ranges between 23.1% and 26.6% depending on the model. The probable explanation is that feature correlation matrices appear to be more variable in the case of depressed speakers. Correspondingly, such a phenomenon can be thought of as a depression marker

    Betegségek automatikus szétválasztása időben eltolt akusztikai jellemzők korrelációs struktúrája alapján

    Get PDF
    Egyes betegségtípusok különböző módon befolyásolhatják beszédképzésünk összetett mechanizmusait, patológiás beszédet eredményezve. Biomarkerek kinyerése a beszédből megbízható jelzői lehetnek a különböző betegségtípusoknak. A cikk célja egészséges és különböző betegségtípusokban szenvedő bemondók beszédmintáinak különválasztása. A vizsgált betegségtípusok a következők: depresszió, Parkinson-kór, hangképző szervek morfológiai elváltozása, a funkcionális diszfónia és a rekurrens paresis. Az osztályozó bemenetére formánsfrekvenciák (F1, F2, F3), a mel-szűrő sáv energia értékei, a mel-frekvencia kepsztrális együtthatók (MFCCs), az alapfrekvencia (F0) és az intenzitás időben eltolt értékeinek korrelációs mátrixaiból származtatott értékei kerültek. Szupport vektor gépet, valamint k-legközelebbi szomszéd osztályozási eljárásokat használtunk az eredmények összehasonlítására. Hatosztályos osztályozás esetben a legjobb osztályozási pontosság 54.8%-nak adódott, míg négyosztályos esetben 77.6%. Az elért eredmények alapján kijelenthető, hogy egy beszédalapú rendszer létrehozható, amely segít a klinikai személyzetnek a korai diagnózis felállításában

    Depresszió súlyosságának becslése beszédjel alapján magyar nyelven

    Get PDF
    AA depresszió korunk egyik legelterjedtebb, gyógyítható betegsége, ám diagnosztizálása szaktudást igényel, és így a kórkép felállítása a társadalom egy szűk rétegére hárul. A depresszió súlyossága nagyban befolyásolja az ebben szenvedő beteg életminőséget. Depresszió hatására megváltoznak az emberi beszédproduktum egyes jellemzői, amelyek számszerűsíthetőek és mérhetőek. Emiatt lehetőség nyílik a depresszió beszédjel alapú detektálásra, ami megkönnyítheti, illetve szélesebb körben lehetővé teheti a betegség diagnosztizálását. Ezen okok miatt fontos kutatási terület a depressziós állapot beszédjel alapú felismerése és súlyosságának becslése. Ebben a cikkben bemutatunk egy Szupport Vektor Regressziós számításon alapuló automatikus rendszert, ami képes a beszédjel alapján megbecsülni nemcsak a depresszió meglétét, hanem a beszélő állapotának súlyosságát is. Megvizsgáljuk, hogyan változik a rendszer pontossága, ha külön rendszert alkalmazunk a nők és a férfiak esetén, illetve ha felhasználjuk a beszéd fonéma szintű szegmentálását a beszédet leíró jellemzők előállítása során

    Depresszió detektálása korrelációs struktúrán alkalmazott konvolúciós hálók segítségével

    Get PDF
    Jelen kutatásban a depressziós állapot automatikus detektálásának lehetőségét vizsgáltuk a beszédjelből kinyert speciális korrelációs struktúrán alkalmazott konvolúciós neurális hálok segítségével. A depresszió korunk egyik legelterjedtebb gyógyítható pszichiátriai betegsége. A depressziótól szenvedő egyén életminőségét nagymértékben befolyásolja a depresszió súlyossága, ami extrém esetben öngyilkossághoz is vezethet. Ezek alapján kulcsfontosságú, hogy már korai stádiumában felismerhető legyen a betegség és az illető megfelelő kezelésben részesüljön, azonban a depresszió diagnosztizálása szakértelmet kíván, emiatt fontos a depresszió esetleges jelenlétének automatikus jelzése. Ebben a cikkben egy olyan eljárást mutatunk be, ami beszédjel feldolgozása alapján tisztán spektrális jellemzőkön keresztül képes felismerni a depressziót konvolúciós neurális hálók alkalmazásának segítségével. Bemutatjuk, hogyan változik a depresszió detektálásának pontossága különböző akusztikai-fonetikai jellemzők felhasználása alapján, illetve a korrelációs struktúrának változtatása következtében. A módszer alkalmazásával 84%-os pontossággal tudtuk elkülöníteni az egészséges és depressziós személyeket a beszédmintáik alapján

    Investigating word affect features and fusion of probabilistic predictions incorporating uncertainty in AVEC 2017

    Full text link
    © 2017 Association for Computing Machinery. Predicting emotion intensity and severity of depression are both challenging and important problems within the broader field of affective computing. As part of the AVEC 2017, we developed a number of systems to accomplish these tasks. In particular, word affect features, which derive human affect ratings (e.g. arousal and valence) from transcripts, were investigated for predicting depression severity and liking, showing great promise. A simple system based on the word affect features achieved an RMSE of 6.02 on the test set, yielding a relative improvement of 13.6% over the baseline. For the emotion prediction sub-challenge, we investigated multimodal fusion, which incorporated a measure of uncertainty associated with each prediction within an Output-Associative fusion framework for arousal and valence prediction, whilst liking prediction systems mainly focused on text-based features. Our best emotion prediction systems provided significant relative improvements over the baseline on the test set of 39.5%, 17.6%, and 29.3% for arousal, valence, and liking. Of particular note is that consistent improvements were observed when incorporating prediction uncertainty across various system configurations for predicting arousal and valence, suggesting the importance of taking into consideration prediction uncertainty for fusion and more broadly the advantages of probabilistic predictions

    The Geneva Minimalistic Acoustic Parameter Set (GeMAPS) for Voice Research and Affective Computing

    Get PDF
    Work on voice sciences over recent decades has led to a proliferation of acoustic parameters that are used quite selectively and are not always extracted in a similar fashion. With many independent teams working in different research areas, shared standards become an essential safeguard to ensure compliance with state-of-the-art methods allowing appropriate comparison of results across studies and potential integration and combination of extraction and recognition systems. In this paper we propose a basic standard acoustic parameter set for various areas of automatic voice analysis, such as paralinguistic or clinical speech analysis. In contrast to a large brute-force parameter set, we present a minimalistic set of voice parameters here. These were selected based on a) their potential to index affective physiological changes in voice production, b) their proven value in former studies as well as their automatic extractability, and c) their theoretical significance. The set is intended to provide a common baseline for evaluation of future research and eliminate differences caused by varying parameter sets or even different implementations of the same parameters. Our implementation is publicly available with the openSMILE toolkit. Comparative evaluations of the proposed feature set and large baseline feature sets of INTERSPEECH challenges show a high performance of the proposed set in relation to its size
    corecore