5 research outputs found

    Multi-candidate missing data imputation for robust speech recognition

    Get PDF
    The application of Missing Data Techniques (MDT) to increase the noise robustness of HMM/GMM-based large vocabulary speech recognizers is hampered by a large computational burden. The likelihood evaluations imply solving many constrained least squares (CLSQ) optimization problems. As an alternative, researchers have proposed frontend MDT or have made oversimplifying independence assumptions for the backend acoustic model. In this article, we propose a fast Multi-Candidate (MC) approach that solves the per-Gaussian CLSQ problems approximately by selecting the best from a small set of candidate solutions, which are generated as the MDT solutions on a reduced set of cluster Gaussians. Experiments show that the MC MDT runs equally fast as the uncompensated recognizer while achieving the accuracy of the full backend optimization approach. The experiments also show that exploiting the more accurate acoustic model of the backend does pay off in terms of accuracy when compared to frontend MDT. © 2012 Wang and Van hamme; licensee Springer.Wang Y., Van hamme H., ''Multi-candidate missing data imputation for robust speech recognition'', EURASIP journal on audio, speech, and music processing, vol. 17, 20 pp., 2012.status: publishe

    Hierarchical Clustering of GaussianMixture Models in Applications forContinuous Speech Recognition

    Get PDF
    У оквиру докторске дисертације представљен је нови алгоритам хијерархијског кластеровања модела Гаусових смеша, заснован на операцији поделе и спајања. Алгоритам тежи побољшању локално оптималног решења одређеног иницијалном констелацијом. Иницијализује се локално оптималним параметрима, добијеним коришћењем референтног приступа сличног k‐means‐у и тежи ка приближавању глобалном оптимуму функције циља, итеративном применом операција поделе и спајања над кластерима Гаусових компоненти, одређеним применом референтног алгоритма. Додатно побољшање алгоритма осварено је увођењем принципа селекције модела у сврху одређивања најповољнијег односа тачности и рачунске сложености, у задатку селекције гаусијана унутар реалног система за препознавање. Предложени метод тестиран је како над вештачки генерисаним подацима, тако и у оквиру алгоритма селекције гаусијана, на примеру система за континуално препознавање говора. У оба случаја забележено је побољшање резултата у односу на резултате остварене применом референтног алгоритма. Побољшања алгоритма селекције гаусијана избором оптималног скупа системских параметара такође су размотрена.U okviru doktorske disertacije predstavljen je novi algoritam hijerarhijskog klasterovanja modela Gausovih smeša, zasnovan na operaciji podele i spajanja. Algoritam teži poboljšanju lokalno optimalnog rešenja određenog inicijalnom konstelacijom. Inicijalizuje se lokalno optimalnim parametrima, dobijenim korišćenjem referentnog pristupa sličnog k‐means‐u i teži ka približavanju globalnom optimumu funkcije cilja, iterativnom primenom operacija podele i spajanja nad klasterima Gausovih komponenti, određenim primenom referentnog algoritma. Dodatno poboljšanje algoritma osvareno je uvođenjem principa selekcije modela u svrhu određivanja najpovoljnijeg odnosa tačnosti i računske složenosti, u zadatku selekcije gausijana unutar realnog sistema za prepoznavanje. Predloženi metod testiran je kako nad veštački generisanim podacima, tako i u okviru algoritma selekcije gausijana, na primeru sistema za kontinualno prepoznavanje govora. U oba slučaja zabeleženo je poboljšanje rezultata u odnosu na rezultate ostvarene primenom referentnog algoritma. Poboljšanja algoritma selekcije gausijana izborom optimalnog skupa sistemskih parametara takođe su razmotrena.The dissertation presents a novel splitand‐ merge algorithm for hierarchical clustering of Gaussian mixture models. The algorithm tends to improve on the local optimal solution determined by the initial constellation. It is initialized by local optimal parameters obtained by using a baseline approach similar to kmeans, and it tends to approach more closely to the global optimum of the target clustering function, by iteratively splitting and merging the clusters of Gaussian components obtained as the output of the baseline algorithm. The algorithm is further improved by introducing model selection in order to obtain the best possible trade‐off between recognition accuracy and computational load in a Gaussian selection task applied within an actual recognition system. The proposed method is tested both on artificial data and in the framework of Gaussian selection performed within a real continuous speech recognition system. In both cases an improvement over the baseline method has been observed. Additional improvements of Gaussian selection algorithm by using the optimal set of system parameters are also discussed

    Noise-Robust Speech Recognition Using Deep Neural Network

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH

    Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario

    Get PDF
    La tesis que se presenta en este documento, se enmarca en el área del Reconocimiento Automático de Habla y específicamente en el diseño de sistemas de reconocimiento de gran vocabulario. En todos los casos, la tecnología de base en lo que se refiere al modelado, la aportan los modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del contexto. En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo una metodología de diseño para determinar la adecuación de módulos particulares de cara a su uso conjunto, que es validada con la experimentación correspondiente. Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de listas variables de preselección, analizando métodos paramétricos y no paramétricos, centrándonos en el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodología de selección de parámetros de entrada, topologías y métodos de codificación, en base a su potencia discriminativa en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose aprovechando estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo también buenos resultados. En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de pronunciación se ha discutido ampliamente la problemática de contar con bases de datos representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales obtenidas con algunos de estos métodos. La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente distintas: habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada una de ellas, con lo que se consigue una generalización más fundamentada de su bondades o perjuicios. En este sentido se aplican análisis de validez y relevancia estadística que pongan en su justo sitio las mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto nuevas métricas y mecanismos originales de comparación
    corecore