Depression Recognition Method Based on Acoustic Signal Analysis Integrating Attention Mechanism and Bi-LSTM

Abstract

为有效地通过语音识别抑郁状态,在将语音进行滤波、降采样等预处理后通过短时傅里叶变换成时频图,输入本文提出的DD-AudioNet(一种融合注意力机制与双向长短时记忆网络的卷积神经网络)进行训练,提取神经网络的瓶颈层向量作为深度学习特征,共128个,再加上声学、频域、停顿、Mel频率倒谱系数和色度5类常用特征共计563个,基于特征选择方法Lasso选择了26个.用迁移学习方法CORAL拉近训练集和测试集的特征分布,最后通过逻辑回归、随机森林和XgBoost分别进行分类辨识.实验结果表明,本文通过高维度特征定义与选择,设计的DD-AudioNet提取的深度学习特征可有效提升基于语音的抑郁状态辨识能力.</p

    Similar works