3 research outputs found

    Reconocimiento de patrones de habla usando MFCC y RNA

    Get PDF
    In this work the results of the design and development of an algorithm based on artificial intelligence and MFCC for recognizing speech patterns are presented. The using of MFCC allowed to characterize voice signals, having into account the noise in the record environment, which helps with the estimation of common patterns among these signals when presents disturbances. As a main result of this work, a recognizing rate between 93 and 96% for the selected vowels (/a/,/e/,/o/) was achieved. For the training a number of 22 samples were used and others 11 for the validation process. The samples were obtained from 11 test subjects, all of them of male genre.En este trabajo se presentan los resultados del diseño y desarrollo de un algoritmo basado en inteligencia artificial para el reconocimiento de patrones de vocablos del idioma español, utilizando Coeficientes Cepstrales en las Frecuencias de Mel o (MFCC), para representar el habla a través de la percepción auditiva del ser humano. La utilización de MFCC permitió caracterizar las señales de voz teniendo en cuenta el posible ruido presente en el ambiente de grabación, lo cual ayudo a la obtención de patrones comunes entre estas señales cuando presentan alteraciones. Como resultado se obtuvo un reconocimiento superior al 95% de las tres vocales escogidas, en este caso la /a/,/e/,/o/, entre un grupo de 22 muestras por vocal para el entrenamiento y 11 muestras para la validación. Las muestras fueron obtenidas de 11 personas, todas del género masculino

    Self-Attention and Hybrid Features for Replay and Deep-Fake Audio Detection

    Full text link
    Due to the successful application of deep learning, audio spoofing detection has made significant progress. Spoofed audio with speech synthesis or voice conversion can be well detected by many countermeasures. However, an automatic speaker verification system is still vulnerable to spoofing attacks such as replay or Deep-Fake audio. Deep-Fake audio means that the spoofed utterances are generated using text-to-speech (TTS) and voice conversion (VC) algorithms. Here, we propose a novel framework based on hybrid features with the self-attention mechanism. It is expected that hybrid features can be used to get more discrimination capacity. Firstly, instead of only one type of conventional feature, deep learning features and Mel-spectrogram features will be extracted by two parallel paths: convolution neural networks and a short-time Fourier transform (STFT) followed by Mel-frequency. Secondly, features will be concatenated by a max-pooling layer. Thirdly, there is a Self-attention mechanism for focusing on essential elements. Finally, ResNet and a linear layer are built to get the results. Experimental results reveal that the hybrid features, compared with conventional features, can cover more details of an utterance. We achieve the best Equal Error Rate (EER) of 9.67\% in the physical access (PA) scenario and 8.94\% in the Deep fake task on the ASVspoof 2021 dataset. Compared with the best baseline system, the proposed approach improves by 74.60\% and 60.05\%, respectively

    Diseño de un modelo algorítmico para la discriminación de patrones acústicos entre voces y pisadas humanas

    Get PDF
    Actualmente existe una gran demanda de soluciones innovadoras e informáticas que permitan generar sistemas de vigilancia o que ayuden en esta labor. Es así como se han generado diversos proyectos que buscan satisfacer las necesidades de sistemas de este tipo. Mayormente, se ha utilizado la tecnología de imágenes y utilizando drones o algún tipo de cámara, donde una persona está monitoreando estas imágenes captadas en tiempo real para verificar la presencia de un objeto o un ser no deseado. Sin embargo, estas soluciones han presentado una gran complejidad tanto en procesamiento como infraestructura, conllevando así también a un precio elevado de su implantación. Es por esto que este proyecto de investigación se enfoca en presentar una solución a este problema utilizando recursos más simples, basándose en un reconocimiento de patrones en señales acústicas. Esta es un área de la especialidad de informática que en los últimos años ha tenido un gran desarrollo y estudio debido a las diversas aplicaciones que puede tener en el mundo contemporáneo. Cada vez se han ido perfeccionando los algoritmos de extracción de características y de aprendizaje de máquina, por lo cual en este trabajo se utilizarán y compararán dos métodos de caracterización estudiados en investigaciones de reconocimiento de voz. Además, se desarrollará un módulo de recorte de la señal que permita identificar a las regiones de interés. Finalmente, se usarán redes neuronales como el clasificador del algoritmo.Tesi
    corecore