3 research outputs found
Magyar nyelvű neurális beszédszintézis vizsgálata dialógus helyzetben
Jelen tanulmányban olyan mĂ©ly neurális hálĂłzat alapĂş beszĂ©dszintetizátor rendszert (DNN-TTS) mutatunk be, amely hangsorozat bemenetet vár Ă©s a beszĂ©d hullámformáját kĂ©t lĂ©pĂ©sben állĂtja elĹ‘, melspektrogram köztes reprezentáciĂłt használva. RĂ©szletesen bemutatjuk Ă©s összehasonlĂtotjuk a Tacotron2+WaveGlow Ă©s FastPitch+HiFi-GAN (tĹ‘lĂĽnk fĂĽggetlen) rendszereket Ă©s komponenseiket. A magyar nyelvű adatokon vĂ©gzett saját kĂsĂ©rletekben három beszĂ©lĹ‘vel (kĂ©t nĹ‘i Ă©s egy fĂ©rfi) generálunk szintezitált beszĂ©dmintákat. SzubjektĂv, MUSHRA tĂpusĂş meghallgatásos tesztjeink során a tesztalanyok a DNN-TTS beszĂ©dszintetizátorral előállĂtott mondatokat lĂ©nyegesen termĂ©szetesebbnek minĹ‘sĂtettĂ©k, mint a HMM-TTS alaprendszert. A szintetizált beszĂ©dminták minĹ‘sĂ©ge (termĂ©szetessĂ©ge) ugyan nem Ă©ri el a termĂ©szetes beszĂ©d szintjĂ©t, de közel áll hozzá (Tacotron2: 58%, FastPitch: 73%, termĂ©szetes: 89%). Ă–sszessĂ©gĂ©ben a tesztelĹ‘k a FastPitch rendszert preferálták a Tacotron2-vel szemben termĂ©szetessĂ©g szempontjábĂłl. A ChatBot dialĂłgusba ágyazott tesztek eredmĂ©nye szerint a nĹ‘i beszĂ©lĹ‘k preferáltak, Ă©s a DNN-TTS rendszerekkel előállĂtott beszĂ©d Ă©rthetĹ‘bb, termĂ©szetesebb, mint a HMM-TTS alaprendszer, Ă©s tesztelĹ‘k a válaszokat is relevánsabbnak Ă©s rĂ©szletesebbnek Ă©reztĂ©k az alaprendszerhez kĂ©pest
Alkalmazásvezérlés Kinect eszközzel
Jelen dolgozat a termĂ©szetes kezelĹ‘felĂĽletek tĂ©mában (NUI) ĂrĂłdott.
A diplomamunka egy saját fejlesztĂ©sű szoftver körĂ© ĂrĂłdott.
A program a Kinect eszközzel lehetĹ‘vĂ© teszi felhasználĂłjának, hogy helyettesĂtse az egĂ©r teljes funkcionalitását a kezeivel.
A tárgyalás első részében a Kinect-hez kiadott fejlesztői csomagot mutatom be.
A második részben az elkészült szoftvert, valamint a tesztelését mutatom be.MSc/MAProgramtervező informatiku
Magyar nyelvű neurális beszédszintézis vizsgálata dialógus helyzetben
Jelen tanulmányban olyan mĂ©ly neurális hálĂłzat alapĂş beszĂ©dszintetizátor rendszert (DNN-TTS) mutatunk be, amely hangsorozat bemenetet vár Ă©s a beszĂ©d hullámformáját kĂ©t lĂ©pĂ©sben állĂtja elĹ‘, melspektrogram köztes reprezentáciĂłt használva. RĂ©szletesen bemutatjuk Ă©s
összehasonlĂtotjuk a Tacotron2+WaveGlow Ă©s FastPitch+HiFi-GAN (tĹ‘lĂĽnk fĂĽggetlen) rendszereket Ă©s komponenseiket. A magyar nyelvű adatokon vĂ©gzett saját kĂsĂ©rletekben három beszĂ©lĹ‘vel (kĂ©t nĹ‘i Ă©s egy fĂ©rfi) generálunk szintezitált beszĂ©dmintákat. SzubjektĂv, MUSHRA tĂpusĂş meghallgatásos tesztjeink során a tesztalanyok a DNN-TTS beszĂ©dszintetizátorral előállĂtott mondatokat lĂ©nyegesen termĂ©szetesebbnek minĹ‘sĂtettĂ©k, mint a HMM-TTS alaprendszert. A szintetizált beszĂ©dminták minĹ‘sĂ©ge (termĂ©szetessĂ©ge) ugyan nem Ă©ri el a termĂ©szetes beszĂ©d
szintjét, de közel áll hozzá (Tacotron2: 58%, FastPitch: 73%, természetes: 89%). Összességében a tesztelők a FastPitch rendszert preferálták a
Tacotron2-vel szemben természetesség szempontjából. A ChatBot dialógusba ágyazott tesztek eredménye szerint a női beszélők preferáltak, és
a DNN-TTS rendszerekkel előállĂtott beszĂ©d Ă©rthetĹ‘bb, termĂ©szetesebb,
mint a HMM-TTS alaprendszer, és tesztelők a válaszokat is relevánsabbnak és részletesebbnek érezték az alaprendszerhez képest