5 research outputs found
Spontán, nagyszótáras, folyamatos beszéd gépi felismerési pontosságának növelése beszélőadaptációval a MALACH projektben
CikkĂĽnkben bemutatjuk, hogy az MLLR (Maximum Likelihood Linear Regression) alapĂş beszĂ©lĹ‘adaptálás során a beszĂ©dfelismerĂ©si hatĂ©konyság az adott spontán magyar nyelvű adatbázison jelentĹ‘sen növekszik. TöbbfĂ©le mĂłdszert kiprĂłbáltunk mind a felĂĽgyelt mind a felĂĽgyeletlen adaptálĂłdás esetĂ©n is. A globális megoldás mellett regressziĂłs osztályokon alapulĂł transzformáciĂłt is alkalmaztunk; felĂĽgyeletlen modellillesztĂ©s esetĂ©n a többszörös adaptálást is megvizsgáltuk. Továbbá folyamatos, nagyszĂłtáras Ă©s spontán automatikus beszĂ©dfelismerĹ‘vel kapott eredmĂ©nyekkel támasztjuk alá, hogy ha a szĂł alapĂş nyelvi modell helyett a magyar nyelvet pontosabban leĂrĂł morfĂ©ma alapĂş modellezĂ©st alkalmazzuk, akkor a beszĂ©lĹ‘adaptálás által okozott javulás mĂ©g szignifikánsabban jelentkezhet a felismerĂ©si hibaarányban
Nagyszótáras beszédfelismerés morfémaalapú rekurrens nyelvi modell használatával
A klasszikus beszĂ©dfelismerĹ‘ rendszerek számára hatalmas kihĂvást jelentenek az agglutinálĂł nyelvek, hiszen pontos eredmĂ©nyek elĂ©rĂ©sĂ©hez hatalmas szĂłtárakra van szĂĽksĂ©g a ragozás Ă©s a szóösszetĂ©tel miatt. A problĂ©ma fĹ‘leg a nyelvi modell rĂ©szĂ©t Ă©rinti a felismerĹ‘nek, tekintve, hogy tĂşl nagy szĂłtármĂ©ret esetĂ©n a tanulási fázis rendkĂvĂĽl nehĂ©z, ez pedig szuboptimális modellhez vezethet. Ezen problĂ©mára megoldást jelenthet, ha szavak helyett azoknál kisebb egysĂ©get, morfĂ©mákat használunk a nyelvi modellezĂ©s során. A cikkben bemutatásra kerĂĽl egy morfĂ©maalapĂş, rekurrens neuronhálĂłs nyelvi modellt alkalmazĂł beszĂ©dfelismerĹ‘, amely használatával szignifikánsan jobb eredmĂ©nyeket tudtunk elĂ©rni egy magyar nyelvű beszĂ©dkorpuszon mint a hagyományos szĂłszintű megközelĂtĂ©ssel
Statisztikai és szabály alapú morfológiai elemzők kombinációja beszédfelismerő alkalmazáshoz
A magyar nyelvű számĂtĂłgĂ©pes beszĂ©dfelismerĂ©snĂ©l cĂ©lszerűnek tűnik, hogy ne a szavakat, hanem a morfĂ©mákat vegyĂĽk alapegysĂ©gnek a nyelvi modell felĂ©pĂtĂ©sĂ©hez. Ehhez viszont szĂĽksĂ©ges, hogy a szavakat a morfĂ©máknak megfelelĹ‘ szegmentumokra bontsuk. A cikk egy Ăşj szegmentálási technikát ismertet, ami kĂ©t kĂĽlönbözĹ‘ morfolĂłgiai szegmentálĂł mĂłdszer egyesĂtĂ©sĂ©bĹ‘l szĂĽletett, Ă©s mindkĂ©t Ĺ‘sĂ©nĂ©l jobban alkalmazhatĂł számĂtĂłgĂ©pes beszĂ©dfelismerĂ©shez. Ennek a rendszernek az egyik pillĂ©re egy szabály alapĂş morfolĂłgiai elemzĹ‘, a hunmorph, a másik pedig egy statisztikai alapokra Ă©pĂĽlĹ‘ morfolĂłgiai szegmentálĂł, a morfessor. A kompozĂciĂł során igyekeztĂĽnk mindkĂ©t rendszer elĹ‘nyeit megtartani, hátrányos tulajdonságait orvosolni. Ez nagyrĂ©szt sikerĂĽlt is, leszámĂtva, hogy a morfessor által biztosĂtott nyelvfĂĽggetlensĂ©g a hunmorph bevonásával elveszett
Using Phonological Phrase Segmentation to Improve Automatic Keyword Spotting for the Highly Agglutinating Hungarian Language
This paper investigates the usage of prosody for the improvement of keyword spotting, focusing on the highly agglutinating Hungarian language, where keyword spotting cannot be effectively performed using LVCSR, as such systems are either unavailable or hard to operate due to high OOV rates and poor N-gram language modelling capabilities. Therefore, the applied keyword spotting system is based on confidence scores computed as a ratio of acoustic scores obtained in two ways: firstly, by decoding with an universal background model; and secondly, by decoding with a keyword model embedded into filler models. Prosody is used to perform an automatic phonological phrase alignment for speech, proven to be useful for automatic partial word boundary detection in fixed stress languages. Several features deduced from the phonological phrase alignment are investigated to rescore baseline confidence scores both in a rule-based and in a data-driven manner. Results show that in relevant operating points of the system, a false alarm reduction of 10% - 40% can be reached by the same miss probability rates