16 research outputs found

    Robust clustering - based realtime vowel recognition

    Get PDF
    In the therapy of the hearing impaired one of the key problems is how to deal with the lack of proper auditive feedback which impedes the development of intelligible speech. The effectiveness of the therapy relies heavily on accurate phoneme recognition. Because of the environmental difficulties, simple recognition algorithms may have a weak classification performance, so various techniques such as normalization and classifier combination are applied to raising the overall recognition accuracy. In earlier work we came to realise that the classification accuracy is higher on a database that is manually clustered according to the gender and age of the speakers. This paper examines what happens when we cluster the database into a few groups automatically and then we train separate classifiers for each cluster. The results shows that this two-step method can increase the recognition performance by several percent

    Classifier combination schemes in speech impediment therapy systems

    Get PDF
    In the therapy of the hearing impaired one of the key problems is how to deal with the lack of proper auditive feedback which impedes the development of intelligible speech. The effectiveness of the therapy relies heavily on accurate phoneme recognition [1, 4, 17]. Because of the environmental difficulties, simple recognition algorithms may have a weak classification performance, so various techniques such as normalization and classifier combination are applied to increase the recognition accuracy. This paper examines Vocal Tract Length Normalization techniques [5, 13] focusing mainly on the real-time parameter estimation [12], and the majority of classifier combination schemes, including the traditional (Prod, Sum, Min, Max) [7], basic linear (simple, weighted, AHP-based [6] averaging), and some special linear (Bagging, Boosting) combinations. Based on the results we conclude that hybrid combinations can improve the effectiveness of the real-time normalization methods

    Diktálórendszer pontosságának és hatékonyságának vizsgálata a keresési téren alkalmazott vágási technikák függvényében

    Get PDF
    Folyamatos beszéd felismerése esetén a beszédjelhez illeszthető szósorozatok száma exponenciálisan nő a felvétel hosszával. Ezért a diktálórendszerek hatékonysága szempontjából kulcsszerepe van a különböző, a keresési teret redukáló vágási technikáknak, illetve kiértékelést gyorsító trükköknek. A keresési tér vágásával elért sebességnövekedés könnyen a felismerési pontosság rovására mehet, ezért a módszerek paramétereinek beállításakor meg kell találni a megfelelő egyensúlyt a hatékonyság és a pontosság között. Cikkünkben bemutatjuk, hogy az általunk fejlesztett felismerő hogyan reprezentálja a keresési teret, az azt nagyban meghatározó nyelvi komponenst, továbbá hogy maga a keresés hogyan történik. Ismertetjük, hogy a keresés során milyen vágási technikákat alkalamazunk, majd konkrét felismerési teszteken keresztül megvizsgáljuk, hogy különböző paraméterértékek mellett ezek hogyan befolyásolják a futási időt és a felismerési pontosságot

    Magyar nyelvű diktáló rendszer támogatása újszerű nyelvi modellek segítségével

    Get PDF
    Cikkünkben újszer megoldásokat javasolunk a valós idejű beszédfelismeréshez szükséges nyelvi modellek területén, a felismerési pontosság és sebesség növelése érdekében. Különböző nyelvi modellek (pl. szabály alapú modellek, fonéma N-gram, szó és szócsoport N-gram modellek) párhuzamos futtatásával, illetve aggregálásával egyrészt a szó N-gram simítása, másrészt a hipotézisek számának hatékonyabb csökkentése érhető el. A szócsoport Ngramok kiértékeléséhez a szavak csoportosítását a szavak mondattani szerepét leíró MSD-kódok (Morpho Syntactic Description) [3] felhasználásával végeztük el. Az N-gram alapú statisztikai modellek hagyományos kiértékelés esetén csak az n. szó teljes felismerése után szolgáltatnak valószínségi értékeket. Olyan eljárásokat is kidolgoztunk, amelyek használatával már az n. szó felismerésének befejezése előtt rendelkezésre állnak közelítő valószínségi becslések

    Akusztikus fonetikai adatbázis-kezelő nyelvészeknek és nyelvészhallgatóknak

    Get PDF
    Poszterünk bemutatja, hogy egy fonetikailag feldolgozott beszédadatbázis információinak strukturált kinyerésére alkalmas program, hogyan segítheti újszer fonetikai ismeretek kidolgozását, továbbá nyelvészhallgatók fonetikaoktatásának támogatását

    A Magyar Referencia Beszédadatbázis és alkalmazása orvosi diktálórendszerek kifejlesztéséhez

    Get PDF
    Poszterünk bemutatja a Magyar Referencia Beszédadatbázist, továbbá az erre épülve párhuzamosan fejlesztett két orvosi diktálórendszer jelenlegi szerkezetét és képességeit
    corecore