Search CORE

2 research outputs found

A Voice Disease Detection Method Based on MFCCs and Shallow CNN

Author: Cai Hao
Ding Fei
Li Can
Xie Xiaoping
Publication venue
Publication date: 17/04/2023
Field of study

The incidence rate of voice diseases is increasing year by year. The use of software for remote diagnosis is a technical development trend and has important practical value. Among voice diseases, common diseases that cause hoarseness include spasmodic dysphonia, vocal cord paralysis, vocal nodule, and vocal cord polyp. This paper presents a voice disease detection method that can be applied in a wide range of clinical. We cooperated with Xiangya Hospital of Central South University to collect voice samples from sixty-one different patients. The Mel Frequency Cepstrum Coefficient (MFCC) parameters are extracted as input features to describe the voice in the form of data. An innovative model combining MFCC parameters and single convolution layer CNN is proposed for fast calculation and classification. The highest accuracy we achieved was 92%, it is fully ahead of the original research results and internationally advanced. And we use Advanced Voice Function Assessment Databases (AVFAD) to evaluate the generalization ability of the method we proposed, which achieved an accuracy rate of 98%. Experiments on clinical and standard datasets show that for the pathological detection of voice diseases, our method has greatly improved in accuracy and computational efficiency

arXiv.org e-Print Archive

Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks

Author: Dias Lucas
Publication venue
Publication date: 15/07/2020
Field of study

A fala ? o principal mecanismo natural de comunica??o entre seres humanos.O sistema de forma??o e transmiss?o natural da voz, principal elemento da fala, ? comprometido pelo surgimento de patologias lar?ngeas. Esta pesquisa trata da aplica??o de classificadores baseados em redes neurais profundas (Deep Neural Networks - DNNs) na discrimina??o entre sinais de vozes saud?veis e de vozes afetadas pelas patologias lar?ngeas organofuncionais edema de Reinke, carcinoma, leocoplasia, p?lipos e a paralisia das pregas vocais, de origem neurol?gica. A metodologia proposta ? baseada na an?lise do comportamento din?mico do sinal de voz avaliado, dispensando medidas ou aplica??es de t?cnicas comumente usadas na extra??o de caracter?sticas. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neur?nios ocultos ativados pela fun??o unidade linear retificada (Rectified LinearUnit - ReLU),um neur?nio na camada de sa?da,ativado pela fun??o sigmoide e uma camada de entrada que recebe os 400 dados que comp?e cada segmento extra?do do sinal de voz avaliado. No total, 07 algoritmos de aprendizagem, utilizando como fun??o custo a entropia cruzada bin?ria (Binary Cross-entropy), foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados nesta pesquisa foram extra?dos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saud?veis e 320 afetados por patologias lar?ngeas. A discrimina??o foi realizada por classes,sendo: a classe saud?vel; a classe patologias, composta por todos os sinais patol?gicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias lar?ngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia das pregas vocais, compondo a categoria de patologia lar?ngea de origem neurol?gica. Foram considerados 04 casos de classifica??o entre os sinais de voz selecionados, sendo eles: saud?vel x patologias, saud?vel x patologias organofuncionais, saud?vel x paralisia das pregas vocais e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo, 28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de correla??o de Mathews (CCM) (aplicado apenas na discrimina??o entre as classes patol?gicas), e pelas m?tricas acur?cia, sensibilidade e especificidade. Al?m disso, foram investigados os efeitos da inclus?o de taxas de sobreposi??o (0%,25%,50% e 75%) aplicadas durante a extra??o dos segmentos. A t?cnica de valida??o cruzada k- fold, com k = 10, foi implementada nesta pesquisa para sele??o dos conjuntos de dados de treino e teste. Os resultados indicam que o m?todo proposto possui o seu melhor desempenho na discrimina??o entre vozes saud?veis e afetadas por paralisia das pregas vocais, com base na detec??o de segmentos do sinal de voz sem taxa de sobreposi??o,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo de aprendizagem Adadelta,no qual foram obtidos ap?s a valida??o cruzada 88,68 ?3,04% para acur?cia, 92,04 ? 5,82% para sensibilidade, 85,33 ? 6,53% para especificidade e F1 score igual 0,89. Conclui-se que ? poss?vel discriminar vozes saud?veis e afetadas por patologias lar?ngeas, com base na an?lise do comportamento din?mico de segmentos do sinal de voz utilizando DNNs.Instituto Federal da Para?b

IFPB - Reposit??rio Digital