Location of Repository

Patrons Rythmiques et Genres Littéraires en Synthèse de la Parole

By Elisabeth Delais-Roussarie, Damien Lolive, Hiyon Yoo and David Guennec

Abstract

International audienceIn the last twenty years, the quality of synthesized speech has greatly improved with the emergence of new TTS techniques, including corpus-based synthesis systems. Yet the rhythmic patterns obtained do not always sound very natural. In this paper, we compare the rhythmic patterns observed in natural and synthesized speech for three literary forms. The aim of the study is to evaluate how rhythm could be improved in synthesized speech. The comparison of the rhythmic patterns is done by analyzing duration in relation to prosodic structure on a set of texts (six rhymes, four poems and two extracts from fairy tales). This approach allows showing that rhythmic differences between synthesized and natural speech are mostly due to the marking of prosodic structure, especially at the level of the intonational phrase. The lengthening rate for accented syllables located at the end of IPs is much more important in synthesized speech than in natural speech.Ces vingt dernières années, la qualité de la parole synthétique s'est améliorée grâce notamment à l’émergence de nouvelles techniques comme la synthèse par corpus. Mais les patrons rythmiques obtenus ne sont pas toujours perçus comme très naturels. Dans ce papier, nous comparons les patrons rythmiques observés en parole naturelle et synthétique pour trois genres littéraires. Le but de ce travail est d'étudier comment le rythme pourrait être amélioré en synthèse de parole. La comparaison des patrons rythmiques est réalisée grâce à une analyse de la durée relativement à la structure prosodique, les données audio provenant de six comptines, quatre poèmes et deux extraits de conte. Les résultats obtenus laissent penser que les différences rythmiques entre parole naturelle et synthétique sont principalement dues au marquage de la structure prosodique, particulièrement au niveau des groupes intonatifs. De fait, le taux d’allongement des syllabes accentuées en fin de groupes intonatifs est beaucoup plus important en synthèse que dans la parole naturelle

Topics: [ INFO.INFO-AI ] Computer Science [cs]/Artificial Intelligence [cs.AI], [ INFO.INFO-TS ] Computer Science [cs]/Signal and Image Processing, [ INFO.INFO-SD ] Computer Science [cs]/Sound [cs.SD], [ INFO.INFO-HC ] Computer Science [cs]/Human-Computer Interaction [cs.HC]
Publisher: HAL CCSD
Year: 2016
OAI identifier: oai:HAL:hal-01338959v1
Provided by: Hal-Diderot
Download PDF:
Sorry, we are unable to provide the full text but you may find it at the following location(s):
  • https://hal.inria.fr/hal-01338... (external link)
  • https://hal.inria.fr/hal-01338... (external link)
  • https://hal.inria.fr/hal-01338... (external link)
  • Suggested articles


    To submit an update or takedown request for this paper, please submit an Update/Correction/Removal Request.