60 research outputs found

    A Novel automatic voice recognition system based on text-independent in a noisy environment

    Get PDF
    Automatic voice recognition system aims to limit fraudulent access to sensitive areas as labs. Our primary objective of this paper is to increase the accuracy of the voice recognition in noisy environment of the Microsoft Research (MSR) identity toolbox. The proposed system enabled the user to speak into the microphone then it will match unknown voice with other human voices existing in the database using a statistical model, in order to grant or deny access to the system. The voice recognition was done in two steps: training and testing. During the training a Universal Background Model as well as a Gaussian Mixtures Model: GMM-UBM models are calculated based on different sentences pronounced by the human voice (s) used to record the training data. Then the testing of voice signal in noisy environment calculated the Log-Likelihood Ratio of the GMM-UBM models in order to classify user's voice. However, before testing noise and de-noise methods were applied, we investigated different MFCC features of the voice to determine the best feature possible as well as noise filter algorithm that subsequently improved the performance of the automatic voice recognition system

    Discrete Wavelet Transform Based Cancelable Biometric System for Speaker Recognition

    Get PDF
    The biometric template characteristics and privacy conquest are challenging issues. To resolve such limitations, the cancelable biometric systems have been briefed. In this paper, the efficient cancelable biometric system based on the cryptosystem is introduced. It depends on permutation using a chaotic Baker map and substitution using masks in various transform domains. The proposed cancelable system features extraction phase is based on the Cepstral analysis from the encrypted speech signal in the time domain combined with the encrypted speech signal in the discrete wavelet transform (DWT). Then, the resultant features are applied to the artificial neural network for classification. Furthermore, wavelet denoising is used at the receiver side to enhance the proposed system. The cryptosystem provides a robust protection level of the speech template. This speech template can be replaced and recertified if it is breached. Our proposed system enables the generation of various templates from the same speech signal under the constraint of linkability between them. The simulation results confirmed that the proposed cancelable biometric system achieved higher a level of performance than traditional biometric systems, which achieved 97.5% recognition rate at low signal to noise ratio (SNR) of -25dB and 100% with -15dB and above

    Level Crossing Control: A Novel Method Using Sound Recognition

    Get PDF
    The level crossing (LX) or railway crossing being an intersection between a public road and a railway line, can be controlled actively or passively. Sound recognition can be used to actively control a level crossing. A system is proposed in this study for the use of sound to control a LX. This proposed system uses Mel Frequency Cepstral Coefficient (MFCC) as feature extractor, and Recurrent Neural Network (RNN) as classifier. The proposed system has shown a great potential that could be harnessed to contribute to the reduction in the loss of lives and properties at the LX

    Automatic robust classification of speech using analytical feature techniques

    Get PDF
    Aquest document és la memòria de la recerca efectuada dins del domini de la classificació automàtica de la parla durant una estada al laboratori Sony CSL per a la realització del projecte fi de carrera. El treball explora les possibilitats del sistema EDS, desenvolupat a Sony CSL, per resoldre problemes de reconeixement d’un petit nombre de mots aïllats, independentment del locutor i en presència de soroll de fons. EDS construeix automàticament features per problemes de classificació d’àudio. Això ho aconsegueix mitjançant la composició (funcional) d’operadors matemàtics i de processament de senyal. Per això aquestes features reben el nom de features analítiques, que el sistema construeix específicament per cada problema de classificació d’àudio, presentat sota la forma d’una base de dades d’entrenament i de test

    Automatic Speech recognition, with large vocabulary, robustness, independence of speaker and multilingual processing

    Get PDF
    Durante todo o trabalho, o sistema de reconhecimento de fala contínua de grande vocabulário Julius é utilizado em conjunto com o Hidden Markov Model Toolkit(HTK). O sistema Julius tem suas principais características descritas, tendo inclusive sido modificado. Inicialmente, a teoria de reconhecimento de sinais de fala é demonstrada. Experimentos são feitos com adaptação de modelos ocultos de Marvov e com a técnica de validação cruzada K-Fold. Resultados de reconhecimento de fala após adaptação acústica à um locutor específico (e da criação de modelos de linguagem específicos para um cenário de demonstração do sistema) demonstraram 86.39% de taxa de acerto de sentença para os modelos acústicos holandeses. Os mesmos dados demonstram 94.44% de taxa de acerto semântico de sentença

    A Novel Approach to Railway Track Faults Detection Using Acoustic Analysis.

    Get PDF
    Regular inspection of railway track health is crucial for maintaining safe and reliable train operations. Factors, such as cracks, ballast issues, rail discontinuity, loose nuts and bolts, burnt wheels, superelevation, and misalignment developed on the rails due to non-maintenance, pre-emptive investigations and delayed detection, pose a grave danger and threats to the safe operation of rail transport. The traditional procedure of manually inspecting the rail track using a railway cart is both inefficient and prone to human error and biases. In a country like Pakistan where train accidents have taken many lives, it is not unusual to automate such approaches to avoid such accidents and save countless lives. This study aims at enhancing the traditional railway cart system to address these issues by introducing an automatic railway track fault detection system using acoustic analysis. In this regard, this study makes two important contributions: data collection on Pakistan railway tracks using acoustic signals and the application of various classification techniques to the collected data. Initially, three types of tracks are considered, including normal track, wheel burnt and superelevation, due to their common occurrence. Several well-known machine learning algorithms are applied such as support vector machines, logistic regression, random forest and decision tree classifier, in addition to deep learning models like multilayer perceptron and convolutional neural networks. Results suggest that acoustic data can help determine the track faults successfully. Results indicate that the best results are obtained by RF and DT with an accuracy of 97%

    Análisis de compensación de variabilidad en reconocimiento de locutor aplicado a duraciones cortas

    Full text link
    En este proyecto se estudian, implementan y evalúan sistemas automáticos de reconocimiento de locutor en presencia de locuciones de duración corta. Para llevarlo a cabo se han utilizado y comparado diversas técnicas del estado del arte en reconocimiento de locutor así como su adaptación a locuciones de corta duración. Como punto de partida del proyecto se ha realizado un estudio de las diferentes técnicas que han ido marcando el estado del arte, destacando las que han conseguido una mejoría notable en evaluaciones promovidas por el National Institute of Standards and Technology (NIST) de reconocimiento de locutor durante la última década. Una vez entendido el estado del arte desde el punto de vista teórico el siguiente paso se define la tarea sobre la que se evaluarán las diferentes técnicas. Históricamente, la tarea principal en evaluaciones NIST consiste en entrenar el modelo de locutor con una conversación, de aproximadamente 150 segundos, y realizar la verificación de usuario frente a una locución de la misma duración. En la tarea que se desarrolla durante la realización de este proyecto disponemos de locuciones con una duración mucho más limitada, aproximadamente 10 segundos, provenientes de evaluaciones NIST de reconocimiento de locutor. Para la parte experimental se llevaron a cabo dos fases de experimentos. Durante la primera fase el objetivo ha sido comparar y analizar las diferencias entre dos técnicas del estado del arte basadas en Factor Analysis (FA), Total Variability (TV) y Probabilistic Linear Discriminant Analysis (PLDA), evaluando principalmente el rendimiento de éstas técnicas sobre nuestro entorno experimental que seguirá el protocolo de las evaluaciones NIST. En la segunda fase se hace un ajuste de los parámetros de dichas técnicas para comprobar el impacto de los mismos en presencia de duraciones cortas y mejorar el rendimiento de los sistemas con escasez de datos. Para ello evaluamos el sistema en base a dos medidas, la tasa de error y la función de coste que suele emplearse en dicha evaluación, que será detallada en los siguientes capítulos. Finalmente, se presentan las conclusiones extraídas a lo largo de este trabajo, así como las líneas de trabajo futuro. Parte del trabajo llevado a cabo durante la ejecución de este Proyecto Final de Carrera ha sido publicado en la conferencia de carácter internacional IberSpeech 2012 [1]: Javier Gonzalez-Dominguez, Ruben Zazo, and Joaquin Gonzalez-Rodriguez. “On the use of total variability and probabilistic linear discriminant analysis for speaker verification on short utterances”. i Análisis de compensación de variabilidad en reconocimiento de locutor aplicado a duracionesThis project is focused on automatic speaker verification (SV) systems dealing with short duration utterances ( 10s). Despite the enormous advances in the field, the broad use of SV in real scenarios remains a challenge mostly due to two factors. First, the session variability; that is, the set of difference among utterances belonging to the same speaker. Second, the system performance degradation when dealing with short duration utterances. As an starting point of this project, an exhaustive study of the state-of-the-art speaker verification techniques has been conducted. This, with special focus on those methods, which achieved outstanding results and open the door to better SV systems. In that sense, we put particular emphasis on the recent methods based on Factor Analysis (FA) namely, Total Variability (TV) and Probabilistic Linear Discriminant Analysis (PLDA). Those methods have become the state of the art in the field due to their ability of mitigating the session variability problem In order to assess the behaviour of those systems, we use the data and follow the protocol defined by the US National Institute of Standards and Technology (NIST) in its Speaker Recognition Evaluation series (SRE). Particularly, we follow the SRE2010 protocol, but adapted to the short durations problems. Thus, instead of using 150s duration utterances as defined in the core task of SRE2010, we experiment with 10s duration utterance in both training and testing. The experiments conducted can be divided in two phases. During the first phase we study, compare and evaluate the use of TV and PLDA as effective methods to perform SV. Second phase is then devoted to adapt those methods to the short duration scenarios. We analyse in this point the effect and importance of the multiple parameters of the systems when facing to limited data for both training and testing. Conclusions and future lines of this work are then presented. Part of this work has been published on the international conference IberSpeech 2012 [1]: Javier Gonzalez-Dominguez, Ruben Zazo, and Joaquin Gonzalez-Rodriguez. “On the use of total variability and probabilistic linear discriminant analysis for speaker verification on short utterances”

    Correlación solo de fase limitada en banda y uso de coeficientes cepstrales inversos: aplicación en reconocimiento de voz y bioacústica

    Get PDF
    Digital signal processing is the application of mathematical operations to a piece of certain information. Because of its close relationship with other sciences, signal processing is the base of other science methodologies: automatic speech recognition and bioacoustics. Digital signal processing in this context is a solution tool. One of the most urgent problems is climate change. In this context, birds play a significant role where their identification and conservation are essential tasks. Even though automatic speech recognition provides specific solutions in bioacoustics, some of the traditional techniques fail in the capability of real field recognition. Since digital signal processing is a solution tool in a few contexts and bird species have acoustic patterns, it is possible to develop a new methodology in automatic speech recognition applied for recognition of species and individuals of birds (proposed efficiency over 70%). On the first phase of this research was to propose a new method for the speaker verification under limited data using the BLPOC function. After experiments, the BLPOC function confirmed to be an effective method. Taking these results into account, in the second phase a new technique for the individual identification of birds using the BLPOC function was proposed. The experiments confirmed that the BLPOC function is also an effective method for the individual identification of birds. Finally, in the same phase, another method for the automatic classification of species based on the IMFCC features was offered. Experiments conclude that the acoustic information of vocalizations in the high frequencies (captured by the IMFCC features) is as significant as the information in the low frequencies (captured by the traditional MFCC features).El procesamiento digital de señales consiste en la aplicación de distintas operaciones matemáticas a una cierta información bajo análisis. Debido a su estrecha relación con otras ciencias, el procesamiento de señales conforma la base de otras áreas de investigación como el reconocimiento automático de voz y la bioacústica. El procesamiento de señales en este contexto conforma una herramienta de solución para diversas problemáticas. Una de las que más relevancia tiene es el denominado: Cambio climático. En este contexto, las aves juegan un rol fundamental y por tanto la conservación e identificación de las especies de aves es de suma importancia. A pesar de que el reconocimiento de voz provee de soluciones para sistemas concretos en bioacústica, algunas de las técnicas utilizadas fallan en la capacidad de reconocimiento en ambientes naturales.Tomando en cuenta lo anterior, dado que el procesamiento de señales es una herramienta de solución en diversos contextos y tomando en cuenta que algunas especies de aves poseen patrones acústicos, entonces es posible el desarrollo de una nueva metodología en reconocimiento de voz que luego puede ser extrapolada como parte del diseño de un nuevo sistema de reconocimiento automático para la identificación de aves (para algunas especies específicas) e individuos, con una eficiencia de reconocimiento por encima del 70%. En la primera fase de investigación fue propuesto una adaptación de la función BLPOC (correlación solo de fase limitada en banda) para la verificación automática de hablantes con datos limitados. Luego de las pruebas, la función BLPOC mostró ser también un método efectivo para un sistema de verificación de hablantes bajo la condición de datos limitados. Tomando como base estos resultados, en la segunda fase se propuso una nueva técnica para la identificación individual de aves mediante la función BLPOC. De las pruebas de desempeño se puede concluir que este es un método eficiente para la identificación de individuos de especies. En esta segunda fase se propuso un método adicional de clasificación automática de especies de aves basado en la extracción de las características IMFCC (coeficientes cepstrales inversos en la frecuencia mel ) de las vocalizaciones. De los resultados obtenidos se concluye que la información acústica de las vocalizaciones de aves en las altas frecuencias (capturadas por los IMFCC’s) es tan significativa como la información acústica en las bajas frecuencias (capturadas por los MFCC´s) para la clasificación de aves a través de vocalizaciones

    Métodos discriminativos para la optimización de modelos en la Verificación del Hablante

    Get PDF
    La creciente necesidad de sistemas de autenticación seguros ha motivado el interés de algoritmos efectivos de Verificación de Hablante (VH). Dicha necesidad de algoritmos de alto rendimiento, capaces de obtener tasas de error bajas, ha abierto varias ramas de investigación. En este trabajo proponemos investigar, desde un punto de vista discriminativo, un conjunto de metodologías para mejorar el desempeño del estado del arte de los sistemas de VH. En un primer enfoque investigamos la optimización de los hiper-parámetros para explícitamente considerar el compromiso entre los errores de falsa aceptación y falso rechazo. El objetivo de la optimización se puede lograr maximizando el área bajo la curva conocida como ROC (Receiver Operating Characteristic) por sus siglas en inglés. Creemos que esta optimización de los parámetros no debe de estar limitada solo a un punto de operación y una estrategia más robusta es optimizar los parámetros para incrementar el área bajo la curva, AUC (Area Under the Curve por sus siglas en inglés) de modo que todos los puntos sean maximizados. Estudiaremos cómo optimizar los parámetros utilizando la representación matemática del área bajo la curva ROC basada en la estadística de Wilcoxon Mann Whitney (WMW) y el cálculo adecuado empleando el algoritmo de descendente probabilístico generalizado. Además, analizamos el efecto y mejoras en métricas como la curva detection error tradeoff (DET), el error conocido como Equal Error Rate (EER) y el valor mínimo de la función de detección de costo, minimum value of the detection cost function (minDCF) todos ellos por sue siglas en inglés. En un segundo enfoque, investigamos la señal de voz como una combinación de atributos que contienen información del hablante, del canal y el ruido. Los sistemas de verificación convencionales entrenan modelos únicos genéricos para todos los casos, y manejan las variaciones de estos atributos ya sea usando análisis de factores o no considerando esas variaciones de manera explícita. Proponemos una nueva metodología para particionar el espacio de los datos de acuerdo a estas carcterísticas y entrenar modelos por separado para cada partición. Las particiones se pueden obtener de acuerdo a cada atributo. En esta investigación mostraremos como entrenar efectivamente los modelos de manera discriminativa para maximizar la separación entre ellos. Además, el diseño de algoritimos robustos a las condiciones de ruido juegan un papel clave que permite a los sistemas de VH operar en condiciones reales. Proponemos extender nuestras metodologías para mitigar los efectos del ruido en esas condiciones. Para nuestro primer enfoque, en una situación donde el ruido se encuentre presente, el punto de operación puede no ser solo un punto, o puede existir un corrimiento de forma impredecible. Mostraremos como nuestra metodología de maximización del área bajo la curva ROC es más robusta que la usada por clasificadores convencionales incluso cuando el ruido no está explícitamente considerado. Además, podemos encontrar ruido a diferentes relación señal a ruido (SNR) que puede degradar el desempeño del sistema. Así, es factible considerar una descomposición eficiente de las señales de voz que tome en cuenta los diferentes atributos como son SNR, el ruido y el tipo de canal. Consideramos que en lugar de abordar el problema con un modelo unificado, una descomposición en particiones del espacio de características basado en atributos especiales puede proporcionar mejores resultados. Esos atributos pueden representar diferentes canales y condiciones de ruido. Hemos analizado el potencial de estas metodologías que permiten mejorar el desempeño del estado del arte de los sistemas reduciendo el error, y por otra parte controlar los puntos de operación y mitigar los efectos del ruido

    Recent Advances in Signal Processing

    Get PDF
    The signal processing task is a very critical issue in the majority of new technological inventions and challenges in a variety of applications in both science and engineering fields. Classical signal processing techniques have largely worked with mathematical models that are linear, local, stationary, and Gaussian. They have always favored closed-form tractability over real-world accuracy. These constraints were imposed by the lack of powerful computing tools. During the last few decades, signal processing theories, developments, and applications have matured rapidly and now include tools from many areas of mathematics, computer science, physics, and engineering. This book is targeted primarily toward both students and researchers who want to be exposed to a wide variety of signal processing techniques and algorithms. It includes 27 chapters that can be categorized into five different areas depending on the application at hand. These five categories are ordered to address image processing, speech processing, communication systems, time-series analysis, and educational packages respectively. The book has the advantage of providing a collection of applications that are completely independent and self-contained; thus, the interested reader can choose any chapter and skip to another without losing continuity
    corecore