5 research outputs found
Promptgenerátor : ĂĽgyfĂ©lszolgálati hangos ĂĽzenetek automatikus gĂ©pi előállĂtása egy adott bemondĂł hangjára
Az egyre szĂ©lesedĹ‘ kommunikáciĂłs lehetĹ‘sĂ©gekkel rohamosan nĹ‘ a a telefonos ĂĽgyfĂ©lszolgálatok terhelĂ©se. A tájĂ©koztatás automatizálásához egyre több hangos ĂĽzenetet kell elkĂ©szĂteni, általában ugyanazzal a bemondĂłval. Ezt a felolvasĂł szemĂ©ly vĂ©ges terhelhetĹ‘sĂ©ge korlátozza. A cikkben olyan gĂ©pi megoldás lehetĹ‘sĂ©gĂ©rĹ‘l számolunk be, amelyik leveszi a munka nagy rĂ©szĂ©t a bemondĂł vállárĂłl, csak ellenĹ‘riznie kell a generált ĂĽzenet hangzását. A promptgenerátor olyan Ăşj beszĂ©dtechnolĂłgiai megoldás, amilyent mĂ©g nem kĂ©szĂtettek Magyarországon. TervezĂ©se Ă©s fejlesztĂ©se mind számĂtĂłgĂ©pes nyelvĂ©szeti, mind fonetikai Ă©s informatikai szempontbĂłl Ăşj megoldásokat eredmĂ©nyezett. A rendszer, optimális esetben olyan termĂ©szetes hangminĹ‘sĂ©get szolgáltat, hogy a hallgatĂł nem veszi Ă©szre, hogy gĂ©p beszĂ©l
Magyar nyelvű neurális beszédszintézis vizsgálata dialógus helyzetben
Jelen tanulmányban olyan mĂ©ly neurális hálĂłzat alapĂş beszĂ©dszintetizátor rendszert (DNN-TTS) mutatunk be, amely hangsorozat bemenetet vár Ă©s a beszĂ©d hullámformáját kĂ©t lĂ©pĂ©sben állĂtja elĹ‘, melspektrogram köztes reprezentáciĂłt használva. RĂ©szletesen bemutatjuk Ă©s összehasonlĂtotjuk a Tacotron2+WaveGlow Ă©s FastPitch+HiFi-GAN (tĹ‘lĂĽnk fĂĽggetlen) rendszereket Ă©s komponenseiket. A magyar nyelvű adatokon vĂ©gzett saját kĂsĂ©rletekben három beszĂ©lĹ‘vel (kĂ©t nĹ‘i Ă©s egy fĂ©rfi) generálunk szintezitált beszĂ©dmintákat. SzubjektĂv, MUSHRA tĂpusĂş meghallgatásos tesztjeink során a tesztalanyok a DNN-TTS beszĂ©dszintetizátorral előállĂtott mondatokat lĂ©nyegesen termĂ©szetesebbnek minĹ‘sĂtettĂ©k, mint a HMM-TTS alaprendszert. A szintetizált beszĂ©dminták minĹ‘sĂ©ge (termĂ©szetessĂ©ge) ugyan nem Ă©ri el a termĂ©szetes beszĂ©d szintjĂ©t, de közel áll hozzá (Tacotron2: 58%, FastPitch: 73%, termĂ©szetes: 89%). Ă–sszessĂ©gĂ©ben a tesztelĹ‘k a FastPitch rendszert preferálták a Tacotron2-vel szemben termĂ©szetessĂ©g szempontjábĂłl. A ChatBot dialĂłgusba ágyazott tesztek eredmĂ©nye szerint a nĹ‘i beszĂ©lĹ‘k preferáltak, Ă©s a DNN-TTS rendszerekkel előállĂtott beszĂ©d Ă©rthetĹ‘bb, termĂ©szetesebb, mint a HMM-TTS alaprendszer, Ă©s tesztelĹ‘k a válaszokat is relevánsabbnak Ă©s rĂ©szletesebbnek Ă©reztĂ©k az alaprendszerhez kĂ©pest
Magyar nyelvű neurális beszédszintézis vizsgálata dialógus helyzetben
Jelen tanulmányban olyan mĂ©ly neurális hálĂłzat alapĂş beszĂ©dszintetizátor rendszert (DNN-TTS) mutatunk be, amely hangsorozat bemenetet vár Ă©s a beszĂ©d hullámformáját kĂ©t lĂ©pĂ©sben állĂtja elĹ‘, melspektrogram köztes reprezentáciĂłt használva. RĂ©szletesen bemutatjuk Ă©s
összehasonlĂtotjuk a Tacotron2+WaveGlow Ă©s FastPitch+HiFi-GAN (tĹ‘lĂĽnk fĂĽggetlen) rendszereket Ă©s komponenseiket. A magyar nyelvű adatokon vĂ©gzett saját kĂsĂ©rletekben három beszĂ©lĹ‘vel (kĂ©t nĹ‘i Ă©s egy fĂ©rfi) generálunk szintezitált beszĂ©dmintákat. SzubjektĂv, MUSHRA tĂpusĂş meghallgatásos tesztjeink során a tesztalanyok a DNN-TTS beszĂ©dszintetizátorral előállĂtott mondatokat lĂ©nyegesen termĂ©szetesebbnek minĹ‘sĂtettĂ©k, mint a HMM-TTS alaprendszert. A szintetizált beszĂ©dminták minĹ‘sĂ©ge (termĂ©szetessĂ©ge) ugyan nem Ă©ri el a termĂ©szetes beszĂ©d
szintjét, de közel áll hozzá (Tacotron2: 58%, FastPitch: 73%, természetes: 89%). Összességében a tesztelők a FastPitch rendszert preferálták a
Tacotron2-vel szemben természetesség szempontjából. A ChatBot dialógusba ágyazott tesztek eredménye szerint a női beszélők preferáltak, és
a DNN-TTS rendszerekkel előállĂtott beszĂ©d Ă©rthetĹ‘bb, termĂ©szetesebb,
mint a HMM-TTS alaprendszer, és tesztelők a válaszokat is relevánsabbnak és részletesebbnek érezték az alaprendszerhez képest