17 research outputs found
Spontán, nagyszótáras, folyamatos beszéd gépi felismerési pontosságának növelése beszélőadaptációval a MALACH projektben
CikkĂĽnkben bemutatjuk, hogy az MLLR (Maximum Likelihood Linear Regression) alapĂş beszĂ©lĹ‘adaptálás során a beszĂ©dfelismerĂ©si hatĂ©konyság az adott spontán magyar nyelvű adatbázison jelentĹ‘sen növekszik. TöbbfĂ©le mĂłdszert kiprĂłbáltunk mind a felĂĽgyelt mind a felĂĽgyeletlen adaptálĂłdás esetĂ©n is. A globális megoldás mellett regressziĂłs osztályokon alapulĂł transzformáciĂłt is alkalmaztunk; felĂĽgyeletlen modellillesztĂ©s esetĂ©n a többszörös adaptálást is megvizsgáltuk. Továbbá folyamatos, nagyszĂłtáras Ă©s spontán automatikus beszĂ©dfelismerĹ‘vel kapott eredmĂ©nyekkel támasztjuk alá, hogy ha a szĂł alapĂş nyelvi modell helyett a magyar nyelvet pontosabban leĂrĂł morfĂ©ma alapĂş modellezĂ©st alkalmazzuk, akkor a beszĂ©lĹ‘adaptálás által okozott javulás mĂ©g szignifikánsabban jelentkezhet a felismerĂ©si hibaarányban
Ügyfélszolgálati beszélgetések nyelvmodellezése rekurrens neurális hálózatokkal
A spontán, társalgási beszĂ©d leĂrása a mai napig komoly kihĂvás elĂ© állĂtja a gĂ©pi beszĂ©dfelismerĹ‘ rendszereket. A tĂ©mák sokszĂnűsĂ©ge Ă©s a kevĂ©s tanĂtĂładat kĂĽlönösen megnehezĂti a nyelvi modellek tanĂtását. CikkĂĽnkben telefonos ĂĽgyfĂ©lszolgálati beszĂ©lgetĂ©seket modellezĂĽk rekurrens LSTM neurális hálĂłzat segĂtsĂ©gĂ©vel, mellyel közel felĂ©re sikerĂĽlt csökkentenĂĽnk a perplexitást a hagyományos, count n-gram modellhez kĂ©pest. Azt találtuk, hogy a rekurrens LSTM akkor is felĂĽlmĂşlja a count modell pontosságát, ha memĂłriája hosszát alacsonyra korlátozzuk (LSTM n-gram). 10 vagy annál nagyobb fokszámĂş LSTM n-grammal pedig a korlátozás nĂ©lkĂĽli LSTM nyelvi modell teljesĂtmĂ©nye is megközelĂthetĹ‘. Ez alapján arra következtetĂĽnk, hogy a rekurrens neurális nyelvi modellek pontosságának titka a hatĂ©kony simĂtásban rejlik, nem a hosszĂş távĂş memĂłriában. Az Ăşj, neurális nyelvmodell segĂtsĂ©gĂ©vel nem csak a perplexitást sikerĂĽlt csökkentenĂĽnk, hanem a kapcsolĂłdĂł beszĂ©dfelismerĂ©si feladaton a szĂłhiba-arányt is relatĂv 4%-kal
Nyelvimodell-adaptáció ügyfélszolgálati beszélgetések gépi leiratozásához
A folyamatos nagyszĂłtáras gĂ©pi beszĂ©dfelismerĂ©s kritikus eleme a statisztikai nyelvi modell, melynek betanĂtásához feladatspecifikus (in-domain) tanĂtĂładatra van szĂĽksĂ©g. Ilyen tanĂtĂładat azonban a gyakorlatban csak korlátozott mennyisĂ©gben áll rendelkezĂ©sre, mely felveti a feladattĂłl fĂĽggetlen vagy ellenrizetlen (out-of-domain) tanĂtĂłszövegek felhasználását is. Formálisan nyelvi modell adaptáciĂł rĂ©vĂ©n Ă©pĂthet be az addicionális tanĂtĂłszövegben tárolt tudás a feladatspecifikus nyelvi modellekbe. CikkĂĽnkben azt vizsgáltuk, hogy telefonos ĂĽgyfĂ©lszolgálati hanganyagok felismerĂ©si pontossága javĂthatĂł-e a kĂĽlönfĂ©le nyelvimodell-adaptáciĂłs technikákkal. KĂsĂ©rleteink szerint mind felĂĽgyelt, mind felĂĽgyelet nĂ©lkĂĽli nyelvimodelladaptáciĂłval szignifikánsan növelhet a valĂłs beszĂ©lgetĂ©seket leiratozĂł rendszerek pontossága
Lexikai modellezés a közlés tervezettségének függvényében magyar nyelvű beszédfelismerésnél
A morfĂ©mákban gazdag nyelvek nagyszĂłtáras, gĂ©pi beszĂ©dfelismerĂ©sĂ©nĂ©l gyakran használnak szĂłnál kisebb elemekre, Ăşn. morfokra Ă©pĂĽlĹ‘ nyelvi modelleket. Ezek alkalmazása azonban többletmunkát, magasabb rendszerkomplexitást igĂ©nyel, ugyanakkor a javulás mĂ©rtĂ©ke változĂł. CikkĂĽnkben a morfalapĂş nyelvi modellezĂ©ssel elĂ©rhetĹ‘ hibacsökkenĂ©s elĹ‘rejelzĂ©sĂ©re teszĂĽnk kĂsĂ©rletet. Ehhez elĹ‘ször azonosĂtjuk a hibacsökkenĂ©st befolyásolĂł tĂ©nyezĹ‘ket, majd kĂsĂ©rleti Ăşton megvizsgáljuk pontos hatásukat. EredmĂ©nyeink alapján elmondhatĂł, hogy a morfalapĂş modellek alkalmazása kismĂ©retű tanĂtĂłszövegek, illetve korlátozott szĂłtármĂ©ret mellett járhat jelentĹ‘s elĹ‘nnyel. ElĹ‘nyös mĂ©g a kevĂ©sbĂ© spontán, tervezettebb beszĂ©det tartalmazĂł adatbázisok esetĂ©n, mĂg a jel-zaj viszony romlása csökkenti a hibacsökkenĂ©s mĂ©rtĂ©kĂ©t, csakĂşgy, mint az abszolĂşt hibát. Az utolsĂł fejezetben bemutatunk egy mĂ©rĹ‘számot, mely erĹ‘s összefĂĽggĂ©st mutat a kĂsĂ©rleti adatbázisainkon mĂ©rhetĹ‘ morfalapĂş hibacsökkenĂ©ssel. Ez a mĂ©rĹ‘szám nem csak a feladat tervezettsĂ©gĂ©t, hanem a tanĂtĂłszöveg mennyisĂ©gĂ©t is figyelembe veszi
LĂ©nyegkiemelĹ‘ mĂłdszerek összehasonlĂtása közlekedĂ©si zajban törtĂ©nĹ‘ beszĂ©dfelismerĂ©s cĂ©ljábĂłl
A gĂ©pi beszĂ©dfelismerĂ©s egyik dönt fontosságĂş eleme a beszĂ©d akusztikai lĂ©nyegĂ©nek kiemelĂ©se, kĂĽlönösen a zajos környezetben törtĂ©n alkalmazásoknál, amely jelen esetben közlekedĂ©si zajjal terhelt akusztikai környezetet jelentett. Emiatt helyeztĂĽk vizsgálatunk közĂ©ppontjába a zajtr Ă©s hagyományos beszĂ©dfelismerĂ©si lĂ©nyegkiemelĂ©si eljárásokat. A tanĂtást Ă©s tesztelĂ©st hat nyelven vĂ©geztĂĽk el: angol, francia, magyar, nĂ©met, olasz, spanyol. TesztelĂ©shez a telefonos hálĂłzaton keresztĂĽl az utcárĂłl vagy jármbl rögzĂtett adatbázist használtunk. AlaprendszerkĂ©nt teszteltĂĽk a HTK Ă©s a SPHINX eszközkĂ©szletben, vagy általunk is implementált Mel Frequency Cepstral Coefficients (MFCC) Ă©s Perceptual Linear Prediction (PLP) mĂłdszereket. Az Ăşjabb mĂłdszerek között a Power-Normalized Cepstral Coefficients (PNCC) Ă©s a Perceptual Minimum Variance Distortionless Response (PMVDR) szerepel
KörnyezetfĂĽggetlen Ă©s sztochasztikus nyelvtanok összehasonlĂtása többnyelvű gĂ©pi beszĂ©dfelismerĂ©si feladatban
A szituáciĂłs beszĂ©dfelismerĂ©s egyik legfontosabb eleme a szituáciĂłhoz jĂłl alkalmazkodĂł beszĂ©dfelismer hálĂłzat tervezĂ©se. EzĂ©rt megvizsgáltunk nĂ©hány hálĂłzatĂ©pĂtĂ©si mĂłdszert, hogy összehasonlĂtsuk teljesĂtmĂ©nyĂĽket. Az Ă©pĂtĂ©s Ă©s tesztelĂ©s folyamatát összesen hat nyelven vĂ©geztĂĽk el: angol, francia, magyar, nĂ©met, olasz Ă©s spanyol. TesztelĂ©s cĂ©ljábĂłl a telefonos hálĂłzaton keresztĂĽl az utcárĂłl vagy jármbl rögzĂtett, tájĂ©kozĂłdási cĂ©lĂş kĂ©rdĂ©sekbl Ă©s kijelentĂ©sekbl állĂł adatbázist használtunk. Magyar, nĂ©met, olasz Ă©s spanyol nyelvekre összehasonlĂtottuk a fonĂ©ma- Ă©s grafĂ©maalapĂş tervezĂ©si technikákat, s a magyar modellt kĂĽlönböz paramĂ©terek változtatása mentĂ©n is vizsgáltuk. A hálĂłzatokat saját fejlesztĂ©s, WFST-s modellez rendszeren Ă©pĂtettĂĽk, saját felismern futtattuk Ă©s HTK-val Ă©rtĂ©keltĂĽk ki
End-to-end és hibrid mélyneuronháló alapú gépi leiratozás magyar nyelvű telefonos ügyfélszolgálati beszélgetésekre
A tisztán mĂ©lyneuronhálĂłra Ă©pĂĽlĹ‘ gĂ©pi beszĂ©dfelismerĂ©s alig pár Ă©ve kerĂĽlt a tudományos köztudatba, de máris az egyik leginkább kutatott szakterĂĽlettĂ© vált. Magyar nyelvre törtĂ©nĹ‘ alkalmazása, illetve annak publikáciĂłja azonban ez idáig váratott magára. CikkĂĽnkben beszámolunk az elsĹ‘ tapasztalatainkrĂłl a tĂ©ren, magyar nyelvű telefonos ĂĽgyfĂ©lszolgálati beszĂ©d leiratozása tĂ©mában. A valĂłs idejű működĂ©s Ă©rdekĂ©ben nagy számĂş, egy dimenziĂłs, idĹ‘- Ă©s csatornatengely szerint szeparált konvolĂşciĂłs rĂ©teget alkalmazunk reziduális kapcsolatokkal Ă©s normalizáciĂłkkal. Karakter akusztikus modellekkel, szĂłtár Ă©s nyelvmodell nĂ©lkĂĽl is összevethetĹ‘, bár gyengĂ©bb szĂł- Ă©s betűpontossági eredmĂ©nyeket kaptunk a hibrid (rejtett Markov-modell + mĂ©lyneuronhálĂł) rendszerĂ©hez kĂ©pest. Nyelvmodell hozzáadásával Ă©s angol nyelven elĹ‘tanĂtott sĂşlyokkal törtĂ©nĹ‘ inicializálás alkalmazásával szignifikáns javulást mĂ©rtĂĽnk, meghaladva a hibrid eredmĂ©nyeket. Kutatásunk megerĹ‘sĂti, hogy az end-to-end beszĂ©dfelismerĂ©si modellezĂ©s magyar nyelven is Ă©letkĂ©pes, azonban a teljes potenciál elĂ©rĂ©sĂ©hez valĂłszĂnűleg nagyságrendi növekedĂ©sre lenne szĂĽksĂ©g az akusztikus tanĂtĂładatok (hang + leirat) terĂ©n
Magyar nyelvű, kĂsĂ©rleti e-mail diktálĂł rendszer
Bár a közelmĂşltban a szĂ©lesebb közönsĂ©g számára is hozzáfĂ©rhetĹ‘vĂ© váltak magyar nyelvű diktálĂłrendszerek, használatukhoz állandĂł internetkapcsolat szĂĽksĂ©ges, nem teszik ki az Ărásjeleket Ă©s a kis-nagy kezdĹ‘betűk használata sem követi a helyesĂrási szabályokat. CikkĂĽnkben beszámolunk egy olyan diktálĂłrendszer fejlesztĂ©sĂ©rĹ‘l, mely akár a felhasználĂł eszközĂ©n (pl. laptop) futva, egyes Ărásjelek automatikus elhelyezĂ©se mellett kĂ©pes számok, emotikonok, nagybetűs szavak Ă©s rövidĂtĂ©sek felismerĂ©sĂ©re is, Ăgy drasztikus mĂ©rtĂ©kben csökkentheti a bediktált szöveg utĂłlagos gondozására fordĂtandĂł idĹ‘t. ÉkezetesĂtĹ‘ eljárás használatával Ă©s a felismerĹ‘ modellek szemĂ©lyre szabásával 26%-os szĂłhibaarányt Ă©rtĂĽnk el nagyszĂłtáras, e-mail diktálási feladaton. KĂsĂ©rleti rendszerĂĽnkben megvizsgáltuk az egyes Ărásjelek automatikus elhelyezĂ©sĂ©nek lehetĹ‘sĂ©geit is. Eddigi eredmĂ©nyeink azt mutatják, hogy csak a „vessző” kiváltására kaphatĂł megfelelĹ‘en pontos elĹ‘rejelzĂ©s a nyelvi modell alapján