214 research outputs found

    Data Balancing for Efficient Training of Hybrid ANN/HMM Automatic Speech Recognition Systems

    Get PDF
    Hybrid speech recognizers, where the estimation of the emission pdf of the states of Hidden Markov Models (HMMs), usually carried out using Gaussian Mixture Models (GMMs), is substituted by Artificial Neural Networks (ANNs) have several advantages over the classical systems. However, to obtain performance improvements, the computational requirements are heavily increased because of the need to train the ANN. Departing from the observation of the remarkable skewness of speech data, this paper proposes sifting out the training set and balancing the amount of samples per class. With this method the training time has been reduced 18 times while obtaining performances similar to or even better than those with the whole database, especially in noisy environments. However, the application of these reduced sets is not straightforward. To avoid the mismatch between training and testing conditions created by the modification of the distribution of the training data, a proper scaling of the a posteriori probabilities obtained and a resizing of the context window need to be performed as demonstrated in the paper.This work was supported in part by the regional grant (Comunidad AutĂłnoma de Madrid-UC3M) CCG06-UC3M/TIC-0812 and in part by a project funded by the Spanish Ministry of Science and Innovation (TEC 2008-06382).Publicad

    Real-time robust automatic speech recognition using compact support vector machines

    Get PDF
    In the last years, support vector machines (SVMs) have shown excellent performance in many applications, especially in the presence of noise. In particular, SVMs offer several advantages over artificial neural networks (ANNs) that have attracted the attention of the speech processing community. Nevertheless, their high computational requirements prevent them from being used in practice in automatic speech recognition (ASR), where ANNs have proven to be successful. The high complexity of SVMs in this context arises from the use of huge speech training databases with millions of samples and highly overlapped classes. This paper suggests the use of a weighted least squares (WLS) training procedure that facilitates the possibility of imposing a compact semiparametric model on the SVM, which results in a dramatic complexity reduction. Such a complexity reduction with respect to conventional SVMs, which is between two and three orders of magnitude, allows the proposed hybrid WLS-SVC/HMM system to perform real-time speech decoding on a connected-digit recognition task (SpeechDat Spanish database). The experimental evaluation of the proposed system shows encouraging performance levels in clean and noisy conditions, although further improvements are required to reach the maturity level of current context-dependent HMM based recognizers.Spanish Ministry of Science and Innovation TEC 2008-06382 and TEC 2008-02473 and Comunidad AutĂłnoma de Madrid-UC3M CCG10-UC3M/TIC-5304.Publicad

    Progress in Speech Recognition for Romanian Language

    Get PDF

    Whole Word Phonetic Displays for Speech Articulation Training

    Get PDF
    The main objective of this dissertation is to investigate and develop speech recognition technologies for speech training for people with hearing impairments. During the course of this work, a computer aided speech training system for articulation speech training was also designed and implemented. The speech training system places emphasis on displays to improve children\u27s pronunciation of isolated Consonant-Vowel-Consonant (CVC) words, with displays at both the phonetic level and whole word level. This dissertation presents two hybrid methods for combining Hidden Markov Models (HMMs) and Neural Networks (NNs) for speech recognition. The first method uses NN outputs as posterior probability estimators for HMMs. The second method uses NNs to transform the original speech features to normalized features with reduced correlation. Based on experimental testing, both of the hybrid methods give higher accuracy than standard HMM methods. The second method, using the NN to create normalized features, outperforms the first method in terms of accuracy. Several graphical displays were developed to provide real time visual feedback to users, to help them to improve and correct their pronunciations

    High Performance Neural Networks for Online Speech Recognizer

    Get PDF
    Automatische Spracherkennung (engl. automatic speech recognition, ASR) beschreibt die Fähigkeit einer Maschine, Wörter und Ausdrücke gesprochener Sprache zu identifizieren und diese in ein für Menschen lesbares Format zu konvertieren. Die Anwendungen sind ein maßgeblicher Teil des digitalen Lebens bspw. wird der Dialog zwischen Mensch und Maschine oder ein Dialog zwischen Menschen, die unterschiedliche Muttersprachen sprechen, ermöglicht. Um diese Fähigkeit in vollem Maße zu gewährleisten, müssen ASR-Anwendungen nicht nur mit hoher Genauigkeit, sondern, für eine Interaktion mit einem Benutzer, auch schnell genug, antworten. Dieses Wechselspiel beider Bedingungen eröffnet das Forschungsgebiet der Online Speech Recognition, welche sich von der konventionellen Spracherkennung, die sich ausschließlich mit dem Problem der Genauigkeit befasst, unterscheidet. Schon über ein halbes Jahrhundert wird aktiv in der automatischen Spracherkennung geforscht. Verschiedene Muster- und Template-Matching-Methoden wurden bis Mitte 1980 erforscht, als das Hidden Markov Model (HMM) einen Durchbruch zur Lösung der Spracherkennungsaufgabe ermöglichte. Der HMM-Ansatz schafft ein allgemeines Framework, welches Schwankungen in der Zeit sowie Spektrums-Domäne der Sprache statistisch entkoppelt und modelliert. Ein HMM-basierter Erkenner wird auf eine komplexe Pipeline aufgesetzt, welche aus etlichen statistischen und nicht-statistischen Komponenten, wie bspw. einem Aussprachewörterbuch, HMM-Topologien, Phonem-Cluster-Bäumen, einem akustischen Modell und einem Sprachmodell, besteht. Durch aktuelle Fortschritte bei künstlichen neuronalen Netzen (KNN) für die akustische sowie sprachliche Modellierung dominiert der hybride HMM/KNN-Ansatz in unterschiedlichen ASR-Anwendungen. In den letzten Jahren hat die Einführung komplett neuronaler Ende-zu-Ende Spracherkennungssystems, welche eine neuronale Netzwerkarchitektur verwenden, um die direkt Abbildung eines akustischen Signals zu einer textuellen Transkription zu approximieren, großes Interesse auf sich gezogen. Die Vorteile des Ende-zu-Ende-Ansatzes liegen in der Einfachheit des Trainings eines kompletten Spracherkennungssystems, wobei die komplexe Struktur einer HMM-basierten Pipeline entfällt. Gleichzeitig benötigt die Ende-zu-Ende ASR oft eine wesentlich größere Trainingsdatenmenge und es ist eine größere Herausforderung ein Ende-zu-Ende Modell so anzupassen, dass es auf einer neuen Aufgabe gut abschneidet. Diese Dissertation befasst sich mit der Entwicklung eines hoch-performanten Spracherkennungssystems für ein Online- und Streaming-Szenario. Der Autor erreichte dies durch ein Vorgehen in zwei Schritten. Im ersten Schritt wurden vielfältige Techniken im HMM-KNN- und Ende-zu-Ende-Paradigma angewandt, um ein hoch-performantes System im Batch-Mode zu bauen. Batch-Mode bedeutet, dass die vollständigen Audiodaten beim Start der Verarbeitung zur Verfügung stehen. Im zweiten Schritt wurden effiziente Anpassungen untersucht, die einem hoch-performanten Batch-Mode-System ermöglichen Inferenzen online bzw. fortlaufend durchzuführen. Gleichzeitig wurden neuartige Algorithmen zu Reduktion der wahrgenommenen Latenz, welche das kritischste Problem von online Spracherkennern ist, entwickelt. Erster Schritt. Die vorgestellte Techniken, die auf hochperformante Ergebnisse abzielen, können anhand deren Position in der Spracherkennungs-Pipeline, wie Merkmalsextraktion und Daten-Augmentierung, kategorisiert werden. Bevor Sprachsignale eine digitale Form annehmen, sind sie als Ergebnis der Faltung mehrere Frequenzkomponenten in einem großen Dynamikumfang bekannt. Diese Merkmale können drastisch durch natürliche Faktoren, wie bspw. unterschiedliche Sprecher, Umgebungen order Aufnahmegeräte, beeinflusst werden. Die große Varianz der Sprachsignale verursacht typischerweise die Diskrepanz zwischen Training und Test und kann die Erkennungsleistung drastisch verschlechtern. Diese Diskrepanz gehen wir durch zwei high-level Ansätze, welche auf Neuronalen Netzen basieren, in der Merkmalsextraktion an. Wir zeigten, dass auf tiefe neuronale Netze (DNN) basierte akustische Modelle, die mittels dieser Sprecher-angepasster Merkmale trainiert wurden, in Bezug auf die Wortfehlerrate (WER) relativ, bis zu 19% besser abschneiden, als herkömmliche Merkmalsextraktionen. Im zweiten Ansatz wird ein Long short-term memory (LSTM) Netzwerk, das mittels Connectionist Temporal Classification (CTC) Kriterium auf Phon-Labeln trainiert wurde, als High-Level Merkmals-Transformation verwendet. Die Kombination der aus dem CTC-Netzwerk extrahierten Merkmale und der Bottleneck-Merkmale ergab einen effizienten Merkmalsraum, der ein DNN-basiertes akustisches Modell ein starkes CTC-basierendes Baseline Modell mit deutlichem Vorsprung übertreffen ließ. Darüber hinaus zeigten wir, dass die Verwendung einer Standard Cepstral Mean und Varianz Normalisierung (CMVN) als low-level Merkmalsextraktion in einer potenziellen Diskrepanz von Offline Training und Online Test resultiert und schlugen eine Lineare Diskriminaz Analyse (LDA), die auf linearer Transformation basiert, als Ersatz vor. Daten-Augmentierung wurde in der Spracherkennung verwendet, um zusätzliche Trainingsdaten zu generieren und so die Qualität der Trainingsdaten zu erhöhen. Diese Technik verbessert die Robustheit des Modells und verhindert Overfitting. Wir zeigten, dass Overfitting das kritischste Problem beim Training eines Ende-zu-Ende Sequence-to-sequence (S2S) Modells für die Spracherkennungsaufgabe ist und stellten zwei neuartige on-the-fly Daten-Augmentierungsmethoden als Lösung vor. Die erste Methode (dynamic time stretching) simuliert den Effekt von Geschwindigkeitsänderungen durch eine direkte Manipulation der zeitlichen Folge an Frequenzvektoren durch eine Echtzeit-Interpolationsfunktion. In der zweiten Methode zeigten wir eine effiziente Strategie, um gesprochene Sätze on-the-fly zu sub-samplen und so die Trainingsdatenmenge mit mehrere Varianten eines einzelnen Samples zu vergrößern. Wir zeigten, dass diese Methoden sehr effizient sind, um Overfitting zu vermeiden und die Kombination mit der SpecAugment-Methode aus der Literatur verbesserte die Leistung des vorgestellten S2S-Modells zu einem State-of-the-Art auf dem Benchmark für Telefongespräche. Zweiter Schritt. Wir zeigten, dass die vorgestellten Hoch-leistungs-Batch-Mode ASR Systeme des hybriden (HMM/KNN) und Ende-zu-Ende Paradigmas die Anforderungen in einer online bzw. realen Situation, durch zusätzliche Anpassungen und Inferenz-Techniken, erfüllen. Weder der üblicherweise verwendete Echtzeitfaktor, noch die Commitment-Latenz sind ausreichend, um die vom Benutzer wahrgenommene Latenz aufzuzeigen. Wir stellten eine neuartige und effiziente Methode zur Messung der vom Benutzer wahrgenommenen Latenz in einer Online- und Streaming-Situation vor. Wir zeigten weiter auf, dass ein fortlaufender HMM/KNN Erkenner entweder für den Latenzhöchstwert oder die mittlere Latenz optimiert werden sollte, um das Nutzererlebnis zu verbessern. Um die Latenzmetrik zu optimieren, führten wir einen Mechanismus ein (Hypothese Update), welcher erlaubt hypothetische Transkripte früh zum Benutzer zu schicken und diese später teilweise zu korrigieren. In Experimenten in einer realen Situation in der Vorlesungspräsentations-Domäne konnte gezeigt werden, dass dieses Vorgehen die Wort-basierte Latenz unseres Erkenners stark reduziert, d.h. von 2,10 auf 1,09 Sekunden. Das Sequence-to-sequence (S2S) Attention-basiertes Modell ist für Ende-zu-Ende Spracherkennung zunehmend beliebt geworden. Etliche Vorteile der Architektur und der Optimierung eines S2S-Modells wurde vorgestellt, um State-of-the-Art Ergebnisse auf Standard-Benchmarks zu erreichen. Wie S2S-Modelle mit ihrem Batch-Mode Kapazität aber für eine online Spracherkennung gebraucht werden können, ist dennoch eine offene Forschungsfrage. Wir näherten uns diesem Problem, indem wir die Latenzprobleme, die durch die normale Softmax-Attention Funktion, bidirektionale Encoder und die Inferenz mit Strahlensuche verursacht wurden, analysierten. Wir nahmen uns all dieser Latenzprobleme in einem an, in dem wir einen zusätzlichen Trainings-Loss, um die Unsicherheit der Attention-Funktion auf Frames auf die vorausgeblickt wird, und einen neuartigen Inferenz-Algorithmus, der partielle Hypothesen bestimmt, vorstellen. Unsere Experimente auf dem Datensatz mit Telefongesprächen zeigten, dass unser Stream-Erkenner, mit einer Verzögerung von 1,5~Sekunden für alle Ausgabeelemente, in vollem Umfang die Performanz eines Batch-Mode-Systems derselben Konfiguration erreicht. Nach bestem Wissen ist dies das erste Mal, dass ein S2S-Spracherkennungsmodell in einer online Situation ohne Einbußen in der Genauigkeit genutzt werden kann

    ARTICULATORY INFORMATION FOR ROBUST SPEECH RECOGNITION

    Get PDF
    Current Automatic Speech Recognition (ASR) systems fail to perform nearly as good as human speech recognition performance due to their lack of robustness against speech variability and noise contamination. The goal of this dissertation is to investigate these critical robustness issues, put forth different ways to address them and finally present an ASR architecture based upon these robustness criteria. Acoustic variations adversely affect the performance of current phone-based ASR systems, in which speech is modeled as `beads-on-a-string', where the beads are the individual phone units. While phone units are distinctive in cognitive domain, they are varying in the physical domain and their variation occurs due to a combination of factors including speech style, speaking rate etc.; a phenomenon commonly known as `coarticulation'. Traditional ASR systems address such coarticulatory variations by using contextualized phone-units such as triphones. Articulatory phonology accounts for coarticulatory variations by modeling speech as a constellation of constricting actions known as articulatory gestures. In such a framework, speech variations such as coarticulation and lenition are accounted for by gestural overlap in time and gestural reduction in space. To realize a gesture-based ASR system, articulatory gestures have to be inferred from the acoustic signal. At the initial stage of this research an initial study was performed using synthetically generated speech to obtain a proof-of-concept that articulatory gestures can indeed be recognized from the speech signal. It was observed that having vocal tract constriction trajectories (TVs) as intermediate representation facilitated the gesture recognition task from the speech signal. Presently no natural speech database contains articulatory gesture annotation; hence an automated iterative time-warping architecture is proposed that can annotate any natural speech database with articulatory gestures and TVs. Two natural speech databases: X-ray microbeam and Aurora-2 were annotated, where the former was used to train a TV-estimator and the latter was used to train a Dynamic Bayesian Network (DBN) based ASR architecture. The DBN architecture used two sets of observation: (a) acoustic features in the form of mel-frequency cepstral coefficients (MFCCs) and (b) TVs (estimated from the acoustic speech signal). In this setup the articulatory gestures were modeled as hidden random variables, hence eliminating the necessity for explicit gesture recognition. Word recognition results using the DBN architecture indicate that articulatory representations not only can help to account for coarticulatory variations but can also significantly improve the noise robustness of ASR system

    Hidden Markov models and neural networks for speech recognition

    Get PDF
    The Hidden Markov Model (HMMs) is one of the most successful modeling approaches for acoustic events in speech recognition, and more recently it has proven useful for several problems in biological sequence analysis. Although the HMM is good at capturing the temporal nature of processes such as speech, it has a very limited capacity for recognizing complex patterns involving more than first order dependencies in the observed data sequences. This is due to the first order state process and the assumption of state conditional independence between observations. Artificial Neural Networks (NNs) are almost the opposite: they cannot model dynamic, temporally extended phenomena very well, but are good at static classification and regression tasks. Combining the two frameworks in a sensible way can therefore lead to a more powerful model with better classification abilities. The overall aim of this work has been to develop a probabilistic hybrid of hidden Markov models and neural networks and ..

    Reconnaissance de l'écriture manuscrite en-ligne par approche combinant systèmes à vastes marges et modèles de Markov cachés

    Get PDF
    Handwriting recognition is one of the leading applications of pattern recognition and machine learning. Despite having some limitations, handwriting recognition systems have been used as an input method of many electronic devices and helps in the automation of many manual tasks requiring processing of handwriting images. In general, a handwriting recognition system comprises three functional components; preprocessing, recognition and post-processing. There have been improvements made within each component in the system. However, to further open the avenues of expanding its applications, specific improvements need to be made in the recognition capability of the system. Hidden Markov Model (HMM) has been the dominant methods of recognition in handwriting recognition in offline and online systems. However, the use of Gaussian observation densities in HMM and representational model for word modeling often does not lead to good classification. Hybrid of Neural Network (NN) and HMM later improves word recognition by taking advantage of NN discriminative property and HMM representational capability. However, the use of NN does not optimize recognition capability as the use of Empirical Risk minimization (ERM) principle in its training leads to poor generalization. In this thesis, we focus on improving the recognition capability of a cursive online handwritten word recognition system by using an emerging method in machine learning, the support vector machine (SVM). We first evaluated SVM in isolated character recognition environment using IRONOFF and UNIPEN character databases. SVM, by its use of principle of structural risk minimization (SRM) have allowed simultaneous optimization of representational and discriminative capability of the character recognizer. We finally demonstrate the various practical issues in using SVM within a hybrid setting with HMM. In addition, we tested the hybrid system on the IRONOFF word database and obtained favourable results.Nos travaux concernent la reconnaissance de l'écriture manuscrite qui est l'un des domaines de prédilection pour la reconnaissance des formes et les algorithmes d'apprentissage. Dans le domaine de l'écriture en-ligne, les applications concernent tous les dispositifs de saisie permettant à un usager de communiquer de façon transparente avec les systèmes d'information. Dans ce cadre, nos travaux apportent une contribution pour proposer une nouvelle architecture de reconnaissance de mots manuscrits sans contrainte de style. Celle-ci se situe dans la famille des approches hybrides locale/globale où le paradigme de la segmentation/reconnaissance va se trouver résolu par la complémentarité d'un système de reconnaissance de type discriminant agissant au niveau caractère et d'un système par approche modèle pour superviser le niveau global. Nos choix se sont portés sur des Séparateurs à Vastes Marges (SVM) pour le classifieur de caractères et sur des algorithmes de programmation dynamique, issus d'une modélisation par Modèles de Markov Cachés (HMM). Cette combinaison SVM/HMM est unique dans le domaine de la reconnaissance de l'écriture manuscrite. Des expérimentations ont été menées, d'abord dans un cadre de reconnaissance de caractères isolés puis sur la base IRONOFF de mots cursifs. Elles ont montré la supériorité des approches SVM par rapport aux solutions à bases de réseaux de neurones à convolutions (Time Delay Neural Network) que nous avions développées précédemment, et leur bon comportement en situation de reconnaissance de mots
    • …
    corecore