5 research outputs found

    Speaker Dependent Voice Recognition with Word-Tense Association and Part-of-Speech Tagging

    Get PDF
    Extensive Research has been conducted on speech recognition and Speaker Recognition over the past few decades. Speaker recognition deals with identifying the speaker from multiple speakers and the ability to filter out the voice of an individual from the background for computational understanding. The more commonly researched method, speech recognition, deals only with computational linguistics. This thesis deals with speaker recognition and natural language processing. The most common speaker recognition systems are Text-Dependent and identify the speaker after a key word/phrase is uttered. This thesis presents Text-Independent Speaker recognition systems that incorporate the collaborative effort and research of noise-filtering, Speech Segmentation, Feature extraction, speaker verification and finally, Partial Language Modelling. The filtering process was accomplished using 4th order Butterworth Band-pass filters to dampen ambient noise outside normal speech frequencies of 300Hzto3000Hz. Speech segmentation utilizes Hamming windows to segment the speech, after which speech detection occurs by calculating the Short time Energy and Zero-crossing rates over a particular time period and identifying voiced from unvoiced using a threshold. Audio data collected from different people is run consecutively through a Speaker Training and Recognition Algorithm which uses neural networks to create a training group and target group for the recognition process. The output of the segmentation module is then processed by the neural network to recognize the speaker. Though not implemented here due to database and computational requirements, the last module suggests a new model for the Part of Speech tagging process that involves a combination of Artificial Neural Networks (ANN) and Hidden Markov Models (HMM) in a series configuration to achieve higher accuracy. This differs from existing research by diverging from the usual single model approach or the creation of hybrid ANN and HMM models

    Estudio de integración de clasificadores de rasgos fonéticos para la mejora de sistemas de reconocimiento de gran vocabulario

    Get PDF
    En los sistemas de inteligencia ambiental una parte fundamental la constituye el interfaz hombre-máquina, y dentro de éste, la interacción oral en ambos sentidos, de la que forman parte los sistemas tanto de reconocimiento automático como de síntesis de voz. En sistemas complejos la interacción simple por medio de comandos limita las posibilidades de un sistema de inteligencia ambiental, por ello es preciso tener disponibles reconocedores de voz de gran vocabulario. El trabajo de investigación propuesto tiene como objetivo la mejora de las prestaciones de un reconocedor automático de voz de gran vocabulario, medidas en tasa de errores de palabra. Para ello la investigación atenderá principalmente a la mejora del modelo acústico, dejando el de lenguaje por defecto. Las mejoras propuestas consistirán en el uso de clasificadores en una fase previa al procesado de extracción de características, de forma que la salida de estos clasificadores se pueda concatenar a los vectores de características utilizados comúnmente y facilitar el reconocimiento. Los clasificadores estarán especializados en la distinción de ciertos fonemas o grupos de fonemas, e incluso aspectos articulatorios o contextuales de la producción de la voz. A través de la experimentación con distintas bases de datos elegiremos cual es la opción que nos proporciona mejores resultados. En la extracción de características haremos uso de varios tipos, como los coeficientes MFCC( Mel Frequency Cepstral Coefficients ), los coeficientes PLP ( predicción lineal perceptual ) o los coeficientes RASTA (Relative Spectral Transform). Para el diseño de los clasificadores se ensayarán distintas alternativas como redes neuronales, árboles de decisión, maquinas de soporte vectorial (SVMs), mezclas de gaussianas o redes bayesianas. En cuanto a la integración en el reconocedor, se ensayarán también distintas alternativas como el uso de distribuciones gaussianas, modelos gráficos o distribuciones beta
    corecore