17 research outputs found

    Spontán, nagyszótáras, folyamatos beszéd gépi felismerési pontosságának növelése beszélőadaptációval a MALACH projektben

    Get PDF
    Cikkünkben bemutatjuk, hogy az MLLR (Maximum Likelihood Linear Regression) alapú beszélőadaptálás során a beszédfelismerési hatékonyság az adott spontán magyar nyelvű adatbázison jelentősen növekszik. Többféle módszert kipróbáltunk mind a felügyelt mind a felügyeletlen adaptálódás esetén is. A globális megoldás mellett regressziós osztályokon alapuló transzformációt is alkalmaztunk; felügyeletlen modellillesztés esetén a többszörös adaptálást is megvizsgáltuk. Továbbá folyamatos, nagyszótáras és spontán automatikus beszédfelismerővel kapott eredményekkel támasztjuk alá, hogy ha a szó alapú nyelvi modell helyett a magyar nyelvet pontosabban leíró morféma alapú modellezést alkalmazzuk, akkor a beszélőadaptálás által okozott javulás még szignifikánsabban jelentkezhet a felismerési hibaarányban

    Ügyfélszolgálati beszélgetések nyelvmodellezése rekurrens neurális hálózatokkal

    Get PDF
    A spontán, társalgási beszéd leírása a mai napig komoly kihívás elé állítja a gépi beszédfelismerő rendszereket. A témák sokszínűsége és a kevés tanítóadat különösen megnehezíti a nyelvi modellek tanítását. Cikkünkben telefonos ügyfélszolgálati beszélgetéseket modellezük rekurrens LSTM neurális hálózat segítségével, mellyel közel felére sikerült csökkentenünk a perplexitást a hagyományos, count n-gram modellhez képest. Azt találtuk, hogy a rekurrens LSTM akkor is felülmúlja a count modell pontosságát, ha memóriája hosszát alacsonyra korlátozzuk (LSTM n-gram). 10 vagy annál nagyobb fokszámú LSTM n-grammal pedig a korlátozás nélküli LSTM nyelvi modell teljesítménye is megközelíthető. Ez alapján arra következtetünk, hogy a rekurrens neurális nyelvi modellek pontosságának titka a hatékony simításban rejlik, nem a hosszú távú memóriában. Az új, neurális nyelvmodell segítségével nem csak a perplexitást sikerült csökkentenünk, hanem a kapcsolódó beszédfelismerési feladaton a szóhiba-arányt is relatív 4%-kal

    Nyelvimodell-adaptáció ügyfélszolgálati beszélgetések gépi leiratozásához

    Get PDF
    A folyamatos nagyszótáras gépi beszédfelismerés kritikus eleme a statisztikai nyelvi modell, melynek betanításához feladatspecifikus (in-domain) tanítóadatra van szükség. Ilyen tanítóadat azonban a gyakorlatban csak korlátozott mennyiségben áll rendelkezésre, mely felveti a feladattól független vagy ellenrizetlen (out-of-domain) tanítószövegek felhasználását is. Formálisan nyelvi modell adaptáció révén építhet be az addicionális tanítószövegben tárolt tudás a feladatspecifikus nyelvi modellekbe. Cikkünkben azt vizsgáltuk, hogy telefonos ügyfélszolgálati hanganyagok felismerési pontossága javítható-e a különféle nyelvimodell-adaptációs technikákkal. Kísérleteink szerint mind felügyelt, mind felügyelet nélküli nyelvimodelladaptációval szignifikánsan növelhet a valós beszélgetéseket leiratozó rendszerek pontossága

    Lexikai modellezés a közlés tervezettségének függvényében magyar nyelvű beszédfelismerésnél

    Get PDF
    A morfémákban gazdag nyelvek nagyszótáras, gépi beszédfelismerésénél gyakran használnak szónál kisebb elemekre, ún. morfokra épülő nyelvi modelleket. Ezek alkalmazása azonban többletmunkát, magasabb rendszerkomplexitást igényel, ugyanakkor a javulás mértéke változó. Cikkünkben a morfalapú nyelvi modellezéssel elérhető hibacsökkenés előrejelzésére teszünk kísérletet. Ehhez először azonosítjuk a hibacsökkenést befolyásoló tényezőket, majd kísérleti úton megvizsgáljuk pontos hatásukat. Eredményeink alapján elmondható, hogy a morfalapú modellek alkalmazása kisméretű tanítószövegek, illetve korlátozott szótárméret mellett járhat jelentős előnnyel. Előnyös még a kevésbé spontán, tervezettebb beszédet tartalmazó adatbázisok esetén, míg a jel-zaj viszony romlása csökkenti a hibacsökkenés mértékét, csakúgy, mint az abszolút hibát. Az utolsó fejezetben bemutatunk egy mérőszámot, mely erős összefüggést mutat a kísérleti adatbázisainkon mérhető morfalapú hibacsökkenéssel. Ez a mérőszám nem csak a feladat tervezettségét, hanem a tanítószöveg mennyiségét is figyelembe veszi

    Lényegkiemelő módszerek összehasonlítása közlekedési zajban történő beszédfelismerés céljából

    Get PDF
    A gépi beszédfelismerés egyik dönt fontosságú eleme a beszéd akusztikai lényegének kiemelése, különösen a zajos környezetben történ alkalmazásoknál, amely jelen esetben közlekedési zajjal terhelt akusztikai környezetet jelentett. Emiatt helyeztük vizsgálatunk középpontjába a zajtr és hagyományos beszédfelismerési lényegkiemelési eljárásokat. A tanítást és tesztelést hat nyelven végeztük el: angol, francia, magyar, német, olasz, spanyol. Teszteléshez a telefonos hálózaton keresztül az utcáról vagy jármbl rögzített adatbázist használtunk. Alaprendszerként teszteltük a HTK és a SPHINX eszközkészletben, vagy általunk is implementált Mel Frequency Cepstral Coefficients (MFCC) és Perceptual Linear Prediction (PLP) módszereket. Az újabb módszerek között a Power-Normalized Cepstral Coefficients (PNCC) és a Perceptual Minimum Variance Distortionless Response (PMVDR) szerepel

    Környezetfüggetlen és sztochasztikus nyelvtanok összehasonlítása többnyelvű gépi beszédfelismerési feladatban

    Get PDF
    A szituációs beszédfelismerés egyik legfontosabb eleme a szituációhoz jól alkalmazkodó beszédfelismer hálózat tervezése. Ezért megvizsgáltunk néhány hálózatépítési módszert, hogy összehasonlítsuk teljesítményüket. Az építés és tesztelés folyamatát összesen hat nyelven végeztük el: angol, francia, magyar, német, olasz és spanyol. Tesztelés céljából a telefonos hálózaton keresztül az utcáról vagy jármbl rögzített, tájékozódási célú kérdésekbl és kijelentésekbl álló adatbázist használtunk. Magyar, német, olasz és spanyol nyelvekre összehasonlítottuk a fonéma- és grafémaalapú tervezési technikákat, s a magyar modellt különböz paraméterek változtatása mentén is vizsgáltuk. A hálózatokat saját fejlesztés, WFST-s modellez rendszeren építettük, saját felismern futtattuk és HTK-val értékeltük ki

    End-to-end és hibrid mélyneuronháló alapú gépi leiratozás magyar nyelvű telefonos ügyfélszolgálati beszélgetésekre

    Get PDF
    A tisztán mélyneuronhálóra épülő gépi beszédfelismerés alig pár éve került a tudományos köztudatba, de máris az egyik leginkább kutatott szakterületté vált. Magyar nyelvre történő alkalmazása, illetve annak publikációja azonban ez idáig váratott magára. Cikkünkben beszámolunk az első tapasztalatainkról a téren, magyar nyelvű telefonos ügyfélszolgálati beszéd leiratozása témában. A valós idejű működés érdekében nagy számú, egy dimenziós, idő- és csatornatengely szerint szeparált konvolúciós réteget alkalmazunk reziduális kapcsolatokkal és normalizációkkal. Karakter akusztikus modellekkel, szótár és nyelvmodell nélkül is összevethető, bár gyengébb szó- és betűpontossági eredményeket kaptunk a hibrid (rejtett Markov-modell + mélyneuronháló) rendszeréhez képest. Nyelvmodell hozzáadásával és angol nyelven előtanított súlyokkal történő inicializálás alkalmazásával szignifikáns javulást mértünk, meghaladva a hibrid eredményeket. Kutatásunk megerősíti, hogy az end-to-end beszédfelismerési modellezés magyar nyelven is életképes, azonban a teljes potenciál eléréséhez valószínűleg nagyságrendi növekedésre lenne szükség az akusztikus tanítóadatok (hang + leirat) terén

    Magyar nyelvű, kísérleti e-mail diktáló rendszer

    Get PDF
    Bár a közelmúltban a szélesebb közönség számára is hozzáférhetővé váltak magyar nyelvű diktálórendszerek, használatukhoz állandó internetkapcsolat szükséges, nem teszik ki az írásjeleket és a kis-nagy kezdőbetűk használata sem követi a helyesírási szabályokat. Cikkünkben beszámolunk egy olyan diktálórendszer fejlesztéséről, mely akár a felhasználó eszközén (pl. laptop) futva, egyes írásjelek automatikus elhelyezése mellett képes számok, emotikonok, nagybetűs szavak és rövidítések felismerésére is, így drasztikus mértékben csökkentheti a bediktált szöveg utólagos gondozására fordítandó időt. Ékezetesítő eljárás használatával és a felismerő modellek személyre szabásával 26%-os szóhibaarányt értünk el nagyszótáras, e-mail diktálási feladaton. Kísérleti rendszerünkben megvizsgáltuk az egyes írásjelek automatikus elhelyezésének lehetőségeit is. Eddigi eredményeink azt mutatják, hogy csak a „vessző” kiváltására kapható megfelelően pontos előrejelzés a nyelvi modell alapján
    corecore