16 research outputs found
Robust clustering - based realtime vowel recognition
In the therapy of the hearing impaired one of the key problems is how to deal with the lack of proper auditive feedback which impedes the development of intelligible speech. The effectiveness of the therapy relies heavily on accurate phoneme recognition. Because of the environmental difficulties, simple recognition algorithms may have a weak classification performance, so various techniques such as normalization and classifier combination are applied to raising the overall recognition accuracy. In earlier work we came to realise that the classification accuracy is higher on a database that is manually clustered according to the gender and age of the speakers. This paper examines what happens when we cluster the database into a few groups automatically and then we train separate classifiers for each cluster. The results shows that this two-step method can increase the recognition performance by several percent
Classifier combination schemes in speech impediment therapy systems
In the therapy of the hearing impaired one of the key problems is how to deal with the lack of proper auditive feedback which impedes the development of intelligible speech. The effectiveness of the therapy relies heavily on accurate phoneme recognition [1, 4, 17]. Because of the environmental difficulties, simple recognition algorithms may have a weak classification performance, so various techniques such as normalization and classifier combination are applied to increase the recognition accuracy. This paper examines Vocal Tract Length Normalization techniques [5, 13] focusing mainly on the real-time parameter estimation [12], and the majority of classifier combination schemes, including the traditional (Prod, Sum, Min, Max) [7], basic linear (simple, weighted, AHP-based [6] averaging), and some special linear (Bagging, Boosting) combinations. Based on the results we conclude that hybrid combinations can improve the effectiveness of the real-time normalization methods
Diktálórendszer pontosságának és hatékonyságának vizsgálata a keresési téren alkalmazott vágási technikák függvényében
Folyamatos beszĂ©d felismerĂ©se esetĂ©n a beszĂ©djelhez illeszthetĹ‘ szĂłsorozatok száma exponenciálisan nĹ‘ a felvĂ©tel hosszával. EzĂ©rt a diktálĂłrendszerek hatĂ©konysága szempontjábĂłl kulcsszerepe van a kĂĽlönbözĹ‘, a keresĂ©si teret redukálĂł vágási technikáknak, illetve kiĂ©rtĂ©kelĂ©st gyorsĂtĂł trĂĽkköknek. A keresĂ©si tĂ©r vágásával elĂ©rt sebessĂ©gnövekedĂ©s könnyen a felismerĂ©si pontosság rovására mehet, ezĂ©rt a mĂłdszerek paramĂ©tereinek beállĂtásakor meg kell találni a megfelelĹ‘ egyensĂşlyt a hatĂ©konyság Ă©s a pontosság között. CikkĂĽnkben bemutatjuk, hogy az általunk fejlesztett felismerĹ‘ hogyan reprezentálja a keresĂ©si teret, az azt nagyban meghatározĂł nyelvi komponenst, továbbá hogy maga a keresĂ©s hogyan törtĂ©nik. IsmertetjĂĽk, hogy a keresĂ©s során milyen vágási technikákat alkalamazunk, majd konkrĂ©t felismerĂ©si teszteken keresztĂĽl megvizsgáljuk, hogy kĂĽlönbözĹ‘ paramĂ©terĂ©rtĂ©kek mellett ezek hogyan befolyásolják a futási idĹ‘t Ă©s a felismerĂ©si pontosságot
Magyar nyelvű diktálĂł rendszer támogatása Ăşjszerű nyelvi modellek segĂtsĂ©gĂ©vel
CikkĂĽnkben Ăşjszer megoldásokat javasolunk a valĂłs idejű beszĂ©dfelismerĂ©shez szĂĽksĂ©ges nyelvi modellek terĂĽletĂ©n, a felismerĂ©si pontosság Ă©s sebessĂ©g növelĂ©se Ă©rdekĂ©ben. KĂĽlönbözĹ‘ nyelvi modellek (pl. szabály alapĂş modellek, fonĂ©ma N-gram, szĂł Ă©s szĂłcsoport N-gram modellek) párhuzamos futtatásával, illetve aggregálásával egyrĂ©szt a szĂł N-gram simĂtása, másrĂ©szt a hipotĂ©zisek számának hatĂ©konyabb csökkentĂ©se Ă©rhetĹ‘ el. A szĂłcsoport Ngramok kiĂ©rtĂ©kelĂ©sĂ©hez a szavak csoportosĂtását a szavak mondattani szerepĂ©t leĂrĂł MSD-kĂłdok (Morpho Syntactic Description) [3] felhasználásával vĂ©geztĂĽk el. Az N-gram alapĂş statisztikai modellek hagyományos kiĂ©rtĂ©kelĂ©s esetĂ©n csak az n. szĂł teljes felismerĂ©se után szolgáltatnak valĂłszĂnsĂ©gi Ă©rtĂ©keket. Olyan eljárásokat is kidolgoztunk, amelyek használatával már az n. szĂł felismerĂ©sĂ©nek befejezĂ©se elĹ‘tt rendelkezĂ©sre állnak közelĂtĹ‘ valĂłszĂnsĂ©gi becslĂ©sek
Akusztikus fonetikai adatbázis-kezelő nyelvészeknek és nyelvészhallgatóknak
PoszterĂĽnk bemutatja, hogy egy fonetikailag feldolgozott beszĂ©dadatbázis informáciĂłinak strukturált kinyerĂ©sĂ©re alkalmas program, hogyan segĂtheti Ăşjszer fonetikai ismeretek kidolgozását, továbbá nyelvĂ©szhallgatĂłk fonetikaoktatásának támogatását
A Magyar Referencia Beszédadatbázis és alkalmazása orvosi diktálórendszerek kifejlesztéséhez
Poszterünk bemutatja a Magyar Referencia Beszédadatbázist, továbbá az erre épülve párhuzamosan fejlesztett két orvosi diktálórendszer jelenlegi szerkezetét és képességeit