Key Technologies of Detecting Depression with Voice Features

Abstract

抑郁症是一种以抑郁症状为核心并伴随大量其他症状的精神疾病。目前诊断以主观为主,而客观的评估工具对促进抑郁症的更加快速和准确的治疗尤为重要。语音数据临床容易获取,但是语音与抑郁症二者之间还存在以下问题:语音特征是否显著预测抑郁症,纳人混淆变量一一人口学信息后,语音对抑郁症预测的贡献大小;语音特征能否区分是否抑郁;二者关联是否跨情境跨情绪稳定;以及语音特征是否能够在复杂临床诊断情境中保持高鉴别力。 研究一通过二元逻辑回归模型调查语音特征与抑郁症之间的关联是否显著。并纳人人口统计学信息,将其对预测是否抑郁的贡献作为基线水平。本研究收集584抑郁症患者和548名健康人的语音数据。结果发现,有四种语音特征对抑郁症预测起到了主要贡献:PC1 (OR=0.58, P &lt;0.0001) , PC6 (OR=1.57, P &lt;0.001) ,PC17 ( OR = 1. 53 , P &lt;0.0001)和PC24 ( OR = 1.45 , P &lt;0. 05 )。语音特征对抑郁症的单独贡献达到了35.65% (Nagelkerke&#39;s R2)。 研究二设立三种分类模型:单独基于语音的模型;单独基于人口学变量的模型;基于语音与人口学变量的模型。同时该研究纳人了其他数据集作为测试集以便说明模型的泛化能力。本研究包含三个语音数据集,数据集一同研究一,用于分类模型构建。数据集二包含500名抑郁症患者,404名健康人。数据集三包含45名抑郁症患者与58名健康人。结果发现,与以人口学变量建立的抑郁症分类预测模型相比,包含语音的模型(单独基于语音的模型;基于语音和人口学变量建立的模型)一致的达到了较高的分类准确性(F-measure)。在其他数据集上进行测试,得到的结果也是一致的。在该研究中,语音特征单独预测模型在不同测试集上的分类准确性均达到80% 。 研究三收集了45名抑郁症患者与58名健康人的语音数据。研究采用了3(情绪状态:正性,中性,负性)*3(任务类型:语言问答,文本朗读,图片描述)的实验设计,运用机器学习分类算法一一逻辑回归(Logistic Regression, LR)来构建抑郁识别模型。实验结果表明,语音对不同情境下不同情绪状态下的AUC值均在0.6以上(65.7-80.9),语音的抑郁识别准确性可以达到82.9% o 研究四设定了三种不同的分类任务:1)对健康与非健康组进行分类;2)对健康组与各种精神疾病进行分类;3)对精神疾病两两分类。匹配后有32名躁郁症患者,抑郁症患者106例,健康患者114例,精神分裂症患者20例。从语音中提取MFCC特征并抽取i-vectors。逻辑回归模型评估结果显示:分类抑郁症和双相障碍的模型AUC值为0.5 (F-score=0.44 )。对于其他分类任务,AUC值均在0.75到0.92之间(F-score:0.73~0.91)。在模型性能的比较上,差异检验发现,抑郁症和双相障碍分类模型的性能(AUC )显著差于针对双相障碍与精神分裂症的分类模型(corrected P &lt; 0.05 )。其他分类任务模型好坏差异不显著。而语音特征对抑郁症和双相障碍的分类效果不理想。 本研究对语音特征与抑郁症的关系进行了系统的探讨,说明了以下几点:(1)语音特征能够显著预测抑郁症,语音对抑郁症具有可观的贡献;(2)语音特征能够实际预测抑郁症,模型具有一定的泛化能力;(3)语音的预测作用是跨情境跨情绪稳定的;(4)语音能够在精神疾病临床诊断的复杂情境下具有较高的鉴别能力。这些关键技术研究为进一步探究语音作为临床抑郁症诊断工具的可能性奠定了坚实的基础。</p

    Similar works