3 research outputs found
Reconocimiento de patrones de habla usando MFCC y RNA
In this work the results of the design and development of an algorithm based on artificial intelligence and MFCC for recognizing speech patterns are presented. The using of MFCC allowed to characterize voice signals, having into account the noise in the record environment, which helps with the estimation of common patterns among these signals when presents disturbances. As a main result of this work, a recognizing rate between 93 and 96% for the selected vowels (/a/,/e/,/o/) was achieved. For the training a number of 22 samples were used and others 11 for the validation process. The samples were obtained from 11 test subjects, all of them of male genre.En este trabajo se presentan los resultados del diseño y desarrollo de un algoritmo basado en inteligencia artificial para el reconocimiento de patrones de vocablos del idioma español, utilizando Coeficientes Cepstrales en las Frecuencias de Mel o (MFCC), para representar el habla a través de la percepción auditiva del ser humano. La utilización de MFCC permitió caracterizar las señales de voz teniendo en cuenta el posible ruido presente en el ambiente de grabación, lo cual ayudo a la obtención de patrones comunes entre estas señales cuando presentan alteraciones. Como resultado se obtuvo un reconocimiento superior al 95% de las tres vocales escogidas, en este caso la /a/,/e/,/o/, entre un grupo de 22 muestras por vocal para el entrenamiento y 11 muestras para la validación. Las muestras fueron obtenidas de 11 personas, todas del género masculino
Self-Attention and Hybrid Features for Replay and Deep-Fake Audio Detection
Due to the successful application of deep learning, audio spoofing detection
has made significant progress. Spoofed audio with speech synthesis or voice
conversion can be well detected by many countermeasures. However, an automatic
speaker verification system is still vulnerable to spoofing attacks such as
replay or Deep-Fake audio. Deep-Fake audio means that the spoofed utterances
are generated using text-to-speech (TTS) and voice conversion (VC) algorithms.
Here, we propose a novel framework based on hybrid features with the
self-attention mechanism. It is expected that hybrid features can be used to
get more discrimination capacity. Firstly, instead of only one type of
conventional feature, deep learning features and Mel-spectrogram features will
be extracted by two parallel paths: convolution neural networks and a
short-time Fourier transform (STFT) followed by Mel-frequency. Secondly,
features will be concatenated by a max-pooling layer. Thirdly, there is a
Self-attention mechanism for focusing on essential elements. Finally, ResNet
and a linear layer are built to get the results. Experimental results reveal
that the hybrid features, compared with conventional features, can cover more
details of an utterance. We achieve the best Equal Error Rate (EER) of 9.67\%
in the physical access (PA) scenario and 8.94\% in the Deep fake task on the
ASVspoof 2021 dataset. Compared with the best baseline system, the proposed
approach improves by 74.60\% and 60.05\%, respectively
Diseño de un modelo algorítmico para la discriminación de patrones acústicos entre voces y pisadas humanas
Actualmente existe una gran demanda de soluciones innovadoras e informáticas
que permitan generar sistemas de vigilancia o que ayuden en esta labor. Es así
como se han generado diversos proyectos que buscan satisfacer las necesidades
de sistemas de este tipo. Mayormente, se ha utilizado la tecnología de imágenes y
utilizando drones o algún tipo de cámara, donde una persona está monitoreando
estas imágenes captadas en tiempo real para verificar la presencia de un objeto o
un ser no deseado. Sin embargo, estas soluciones han presentado una gran
complejidad tanto en procesamiento como infraestructura, conllevando así también
a un precio elevado de su implantación.
Es por esto que este proyecto de investigación se enfoca en presentar una solución
a este problema utilizando recursos más simples, basándose en un reconocimiento
de patrones en señales acústicas. Esta es un área de la especialidad de informática
que en los últimos años ha tenido un gran desarrollo y estudio debido a las diversas
aplicaciones que puede tener en el mundo contemporáneo. Cada vez se han ido
perfeccionando los algoritmos de extracción de características y de aprendizaje de
máquina, por lo cual en este trabajo se utilizarán y compararán dos métodos de
caracterización estudiados en investigaciones de reconocimiento de voz. Además,
se desarrollará un módulo de recorte de la señal que permita identificar a las
regiones de interés. Finalmente, se usarán redes neuronales como el clasificador
del algoritmo.Tesi