3 research outputs found
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
A fala ? o principal mecanismo natural de comunica??o entre seres humanos.O sistema de forma??o e transmiss?o natural da voz, principal elemento da fala, ? comprometido pelo surgimento de patologias lar?ngeas. Esta pesquisa trata da aplica??o de classificadores baseados
em redes neurais profundas (Deep Neural Networks - DNNs) na discrimina??o entre sinais
de vozes saud?veis e de vozes afetadas pelas patologias lar?ngeas organofuncionais edema de
Reinke, carcinoma, leocoplasia, p?lipos e a paralisia das pregas vocais, de origem neurol?gica. A metodologia proposta ? baseada na an?lise do comportamento din?mico do sinal de voz avaliado,
dispensando medidas ou aplica??es de t?cnicas comumente usadas na extra??o de caracter?sticas. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neur?nios ocultos
ativados pela fun??o unidade linear retificada (Rectified LinearUnit - ReLU),um neur?nio na
camada de sa?da,ativado pela fun??o sigmoide e uma camada de entrada que recebe os 400
dados que comp?e cada segmento extra?do do sinal de voz avaliado. No total, 07 algoritmos de
aprendizagem, utilizando como fun??o custo a entropia cruzada bin?ria (Binary Cross-entropy),
foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados
nesta pesquisa foram extra?dos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saud?veis e 320 afetados por patologias lar?ngeas. A discrimina??o
foi realizada por classes,sendo: a classe saud?vel; a classe patologias, composta por todos os
sinais patol?gicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias
lar?ngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia
das pregas vocais, compondo a categoria de patologia lar?ngea de origem neurol?gica. Foram
considerados 04 casos de classifica??o entre os sinais de voz selecionados, sendo eles: saud?vel x patologias, saud?vel x patologias organofuncionais, saud?vel x paralisia das pregas vocais
e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo,
28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de
correla??o de Mathews (CCM) (aplicado apenas na discrimina??o entre as classes patol?gicas),
e pelas m?tricas acur?cia, sensibilidade e especificidade. Al?m disso, foram investigados os
efeitos da inclus?o de taxas de sobreposi??o (0%,25%,50% e 75%) aplicadas durante a extra??o
dos segmentos. A t?cnica de valida??o cruzada k- fold, com k = 10, foi implementada nesta
pesquisa para sele??o dos conjuntos de dados de treino e teste. Os resultados indicam que o
m?todo proposto possui o seu melhor desempenho na discrimina??o entre vozes saud?veis e
afetadas por paralisia das pregas vocais, com base na detec??o de segmentos do sinal de voz sem
taxa de sobreposi??o,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo
de aprendizagem Adadelta,no qual foram obtidos ap?s a valida??o cruzada 88,68 ?3,04% para
acur?cia, 92,04 ? 5,82% para sensibilidade, 85,33 ? 6,53% para especificidade e F1 score igual 0,89.
Conclui-se que ? poss?vel discriminar vozes saud?veis e afetadas por patologias lar?ngeas, com
base na an?lise do comportamento din?mico de segmentos do sinal de voz utilizando DNNs.Instituto Federal da Para?b