Big deep voice : indexation de données massives de parole grâce à des réseaux de neurones profonds

Abstract

National audienceLes systèmes de synthèse de parole sont des outils permettant de générer un signal de parole correspondant à un texte. Les solutions actuelles fournissent un signal de qualité, mais la parole générée est peu expressive, notamment en raison de leur jeu de données limité. Pour résoudre ce probleme, il est donc nécessaire d'augmenter la quantité de données pour y intégrer de la variabilité. Cela soulève néanmoins plusieurs problématiques : comment décrire et comparer les données ? et comment rechercher des données lorsque leurs descripteurs sont de grande taille et que le nombre de données est conséquent ? Le but de ce stage est de mettre en place une mesure de similarité entre phonèmes, puis éventuellement un algorithme de recherche de plus proches voisins, qui pourront être intégrés au système de synthèse de parole de l'équipe Expression. Pour répondre à la problématique de description et comparaison des données, nous utiliserons la propriété de plongement des réseaux de neurones. Pour répondre à la problématique de recherche de données, nous proposons d'utiliser une méthode de recherche de plus proches voisins en grande dimension. Le but de ce stage est d'étudier la faisabilité de la solution choisie, notamment en proposant des méthodes d'évaluation de la qualité d'un plongement

    Similar works