98 research outputs found
Speech Synthesis from Text and Ultrasound Tongue Image-based Articulatory Input
Articulatory information has been shown to be effective in improving the
performance of HMM-based and DNN-based text-to-speech synthesis. Speech
synthesis research focuses traditionally on text-to-speech conversion, when the
input is text or an estimated linguistic representation, and the target is
synthesized speech. However, a research field that has risen in the last decade
is articulation-to-speech synthesis (with a target application of a Silent
Speech Interface, SSI), when the goal is to synthesize speech from some
representation of the movement of the articulatory organs. In this paper, we
extend traditional (vocoder-based) DNN-TTS with articulatory input, estimated
from ultrasound tongue images. We compare text-only, ultrasound-only, and
combined inputs. Using data from eight speakers, we show that that the combined
text and articulatory input can have advantages in limited-data scenarios,
namely, it may increase the naturalness of synthesized speech compared to
single text input. Besides, we analyze the ultrasound tongue recordings of
several speakers, and show that misalignments in the ultrasound transducer
positioning can have a negative effect on the final synthesis performance.Comment: accepted at SSW11 (11th Speech Synthesis Workshop
Prozódiai változatosság rejtett Markov-modell alapú szövegfelolvasóval
A prozĂłdiai változatossággal kiegĂ©szĂtett szövegfelolvasĂł rendszer olyan alkalmazásokban lehet hasznos, ahol hasonlĂł jelleg, ismĂ©tld mondatok szintetizálására van szĂĽksĂ©g. A cikkben bemutatunk egy Ăşj mĂłdszert, amellyel egy adott szöveghez kĂĽlönböz prozĂłdiával rendelkez mondatváltozatokat lehet szintetizálni. A prozĂłdia komponensei közĂĽl a dallammal Ă©s hangsĂşllyal foglalkozunk az alapfrekvencia (F0) változtatásán keresztĂĽl. Ehhez egy statisztikai F0-modellt használunk fel rejtett Markov-modell alapĂş beszĂ©dszintetizátorban. A betanĂtáshoz használt eredeti beszĂ©dkorpuszt a SOFM (Self Organizing Feature Map) mĂłdszerrel felbontjuk több rĂ©szkorpuszra. A kĂĽlönböz beszĂ©dkorpuszokbĂłl betanult modellekkel eltĂ©r dallamĂş mondatváltozatokat szintetizálunk azonos szöveghez. A mondatváltozatok közötti kĂĽlönbsĂ©geket megvizsgálva a szubjektĂv kĂsĂ©rletek azt mutatják, hogy az alapfrekvencia eltĂ©rĂ©se sok esetben elĂ©g jelents ahhoz, hogy ez az emberi fĂĽl számára is Ă©szlelhet legyen
- …