8 research outputs found
Enhanced Phone Posteriors for Improving Speech Recognition Systems
Using phone posterior probabilities has been increasingly explored for improving automatic speech recognition (ASR) systems. In this paper, we propose two approaches for hierarchically enhancing these phone posteriors, by integrating long acoustic context, as well as prior phonetic and lexical knowledge. In the first approach, phone posteriors estimated with a Multi-Layer Perceptron (MLP), are used as emission probabilities in HMM forward-backward recursions. This yields new enhanced posterior estimates integrating HMM topological constraints (encoding specific phonetic and lexical knowledge), and context. posteriors are post-processed by a secondary MLP, in order to learn inter and intra dependencies between the phone posteriors. These dependencies are prior phonetic knowledge. The learned knowledge is integrated in the posterior estimation during the inference (forward pass) of the second MLP, resulting in enhanced phone posteriors. We investigate the use of the enhanced posteriors in hybrid HMM/ANN and Tandem configurations. We propose using the enhanced posteriors as replacement, or as complementary evidences to the regular MLP posteriors. The proposed method has been tested on different small and large vocabulary databases, always resulting in consistent improvements in frame, phone and word recognition rates
KulcsszĂłkeresĂ©si kĂsĂ©rletek hangzĂł hĂranyagokon beszĂ©dhang alapĂş felismerĂ©si technikákkal
A beszĂ©dadatbázisok kereshetĹ‘vĂ© tĂ©telĂ©hez szöveges cĂmkĂ©kkel kell
azokat ellátni. A kĂ©zenfekvĹ‘ megoldás szĂłszintű átirat kĂ©szĂttetĂ©se lenne
nagyszótáras beszédfelismerővel. A felismerők azonban zárt szótárral dolgoznak,
Ăgy elĹ‘fordulhat, hogy számunkra fontos keresĂ©si kifejezĂ©seket (tulajdonneveket,
névelemeket) esélyünk sem lesz megtalálni, pusztán mert azok nem
szerepelnek a felismerĹ‘ szĂłtárában. Jelen cikkben olyan megoldásokat hasonlĂtunk
össze, amelyek csupán beszédhang szinten végzik el az előzetes indexálást,
Ăgy tetszĹ‘leges keresĂ©si kifejezĂ©sre (hangsorozatra) kĂ©pesek rákeresni. A
vizsgált módszerek találati pontossága gyakorlati szempontból is használhatónak
ĂgĂ©rkezik, köszönhetĹ‘en az eleve magas beszĂ©dhang-felismerĂ©si pontosságnak.
A futási időt tekintve azonban még a leggyorsabb módszer is sokkal
lassabbnak bizonyul, mint ami egy ilyen alkalmazástól elvárt lenne. Ezért a kés
őbbiekben kifinomult indexálási technikák bevetésére lesz szükség
KulcsszĂłkeresĂ©si kĂsĂ©rletek hangzĂł hĂranyagokon beszĂ©dhang alapĂş felismerĂ©si technikákkal
A beszĂ©dadatbázisok kereshetvĂ© tĂ©telĂ©hez szöveges cĂmkĂ©kkel kell azokat ellátni. A kĂ©zenfekv megoldás szĂłszint átirat kĂ©szĂttetĂ©se lenne nagyszĂłtáras beszĂ©dfelismervel. A felismerk azonban zárt szĂłtárral dolgoznak, Ăgy elfordulhat, hogy számunkra fontos keresĂ©si kifejezĂ©seket (tulajdonneveket, nĂ©velemeket) esĂ©lyĂĽnk sem lesz megtalálni, pusztán mert azok nem szerepelnek a felismer szĂłtárában. Jelen cikkben olyan megoldásokat hasonlĂtunk össze, amelyek csupán beszĂ©dhang szinten vĂ©gzik el az elzetes indexálást, Ăgy tetszleges keresĂ©si kifejezĂ©sre (hangsorozatra) kĂ©pesek rákeresni. A vizsgált mĂłdszerek találati pontossága gyakorlati szempontbĂłl is használhatĂłnak ĂgĂ©rkezik, köszönheten az eleve magas beszĂ©dhang-felismerĂ©si pontosságnak. A futási idt tekintve azonban mĂ©g a leggyorsabb mĂłdszer is sokkal lassabbnak bizonyul, mint ami egy ilyen alkalmazástĂłl elvárt lenne. EzĂ©rt a kĂ©sbbiekben kifinomult indexálási technikák bevetĂ©sĂ©re lesz szĂĽksĂ©g
Enhancing posterior based speech recognition systems
The use of local phoneme posterior probabilities has been increasingly explored for improving speech recognition systems. Hybrid hidden Markov model / artificial neural network (HMM/ANN) and Tandem are the most successful examples of such systems. In this thesis, we present a principled framework for enhancing the estimation of local posteriors, by integrating phonetic and lexical knowledge, as well as long contextual information. This framework allows for hierarchical estimation, integration and use of local posteriors from the phoneme up to the word level. We propose two approaches for enhancing the posteriors. In the first approach, phoneme posteriors estimated with an ANN (particularly multi-layer Perceptron – MLP) are used as emission probabilities in HMM forward-backward recursions. This yields new enhanced posterior estimates integrating HMM topological constraints (encoding specific phonetic and lexical knowledge), and long context. In the second approach, a temporal context of the regular MLP posteriors is post-processed by a secondary MLP, in order to learn inter and intra dependencies among the phoneme posteriors. The learned knowledge is integrated in the posterior estimation during the inference (forward pass) of the second MLP, resulting in enhanced posteriors. The use of resulting local enhanced posteriors is investigated in a wide range of posterior based speech recognition systems (e.g. Tandem and hybrid HMM/ANN), as a replacement or in combination with the regular MLP posteriors. The enhanced posteriors consistently outperform the regular posteriors in different applications over small and large vocabulary databases