Search CORE

3 research outputs found

Étude comparative des paramètres d'entrée pour la synthèse expressive audiovisuelle de la parole par DNNs

Author: Colotte Vincent
Dahmani Sara
Ouni Slim
Publication venue: AFCP
Publication date: 08/06/2020
Field of study

National audienceDans le passé, les descripteurs contextuels pour la synthèse de la parole acoustique ont été étudiés pour l’entraînement des systèmes basés sur des HMMs. Dans ce travail, nous étudions l’impact de ces facteurs pour la synthèse de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalité acoustique, la modalité visuelle et les durées des phonèmes. Nous étudions également l’apport d’un entraînement joint et séparé des deux modalités acoustique et visuelle sur la qualité de la parole synthétique générée. Finalement, nous procédons à une validation croisée entre les résultats de la synthèse des différentes émotions. Cette validation croisée, nous a permis de vérifier la capacité des DNNs à apprendre des caractéristiques spécifiques à chaque émotion

INRIA a CCSD electronic archive server