35 research outputs found

    Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue française

    Get PDF
    Les travaux présentés dans cette thèse se situent dans le cadre de la synthèse de la parole à partir du texte et, plus précisément, dans le cadre de la synthèse paramétrique utilisant des règles statistiques. Nous nous intéressons à l'influence des descripteurs linguistiques utilisés pour caractériser un signal de parole sur la modélisation effectuée dans le système de synthèse statistique HTS. Pour cela, deux méthodologies d'évaluation objective sont présentées. La première repose sur une modélisation de l'espace acoustique, généré par HTS par des mélanges gaussiens (GMM). En utilisant ensuite un ensemble de signaux de parole de référence, il est possible de comparer les GMM entre eux et ainsi les espaces acoustiques générés par les différentes configurations de HTS. La seconde méthodologie proposée repose sur le calcul de distances entre trames acoustiques appariées pour pouvoir évaluer la modélisation effectuée par HTS de manière plus locale. Cette seconde méthodologie permet de compléter les diverses analyses en contrôlant notamment les ensembles de données générées et évaluées. Les résultats obtenus selon ces deux méthodologies, et confirmés par des évaluations subjectives, indiquent que l'utilisation d'un ensemble complexe de descripteurs linguistiques n'aboutit pas nécessairement à une meilleure modélisation et peut s'avérer contre-productif sur la qualité du signal de synthèse produit.The work presented in this thesis is about TTS speech synthesis and, more particularly, about statistical speech synthesis for French. We present an analysis on the impact of the linguistic contextual factors on the synthesis achieved by the HTS statistical speech synthesis system. To conduct the experiments, two objective evaluation protocols are proposed. The first one uses Gaussian mixture models (GMM) to represent the acoustical space produced by HTS according to a contextual feature set. By using a constant reference set of natural speech stimuli, GMM can be compared between themselves and consequently acoustic spaces generated by HTS. The second objective evaluation that we propose is based on pairwise distances between natural speech and synthetic speech generated by HTS. Results obtained by both protocols, and confirmed by subjective evaluations, show that using a large set of contextual factors does not necessarily improve the modeling and could be counter-productive on the speech quality.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

    Transformation automatique de la parole (Ă©tude des transformations acoustiques)

    No full text
    Le travail effectué dans cette thèse présente une évaluation des techniques de transformation de voix à base de GMM. Ces techniques de transformation linéaires malgré leurs qualités obtenues, elles ne manquent pas de quelques défauts, on peut noter le sur-lissage, le problème de distorsion spectrale et le sur-apprentissage. Dans un premier volet, nous avons pris en compte ces questions pour adapter la stratégie d'apprentissage des fonctions de conversion. La première c'est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième considère que les solutions par transformation linéaire sont instables face au peu de données d'apprentissage, d'où le recours aux modèles de transformation non-linéaire de type RBF. Dans un deuxième volet, pour aligner les données non-parallèles des locuteurs source et cible, une solution consiste à correspondre ces données via une représentation récursive d'un arbre binaire. Dans un dernier volet, pour obtenir une haute qualité de voix, l'utilisation d'un modèle de true-envelope est nécessaire. Pour cela, le recours aux techniques de réduction de dimension par PCA est indispensable avant d'appliquer les méthodes de conversion.This work presents an experimental evaluation of various voice transformation techniques based on GMM models. These linear transforms, despite their quality obtained, they fail to some defects specially the oversmoothing effect, the problem of spectral distortion and the overfitting. In a first part, we proposed taking these issues into account to adapt the learning strategy of the conversion functions. The first main idea is to reduce the number of parameters describing the conversion function. The second idea considers the solutions based on linear transform are unstable face to the lack of the training data, hence the recourse to non-linear transform model like RBF. In a second part in some situations, we need to align non-parallel data from the source and target speakers, one solution consists to use a recursive representation of binary tree, whose depth depends on the learning data size. In the last part, to get a high voice quality, we have proposed a model of parameters issued from the PCA projection on the true envelope before applying the conversion methods.RENNES1-BU Sciences Philo (352382102) / SudocSudocFranceF

    Modélisation statistique de l'intonation de la parole expressive

    No full text
    La parole expressive est caractérisée par une intonation très variable et fortement empreinte du contenu paralinguistique qu'elle véhicule. Elle constitue un défi majeur pour les technologies de synthèse vocale, et plus particulièrement pour leur module de prédiction prosodique. Dans ce cadre, les travaux de cette thèse proposent un modèle statistique de l'intonation qui autorise, pour un contenu linguistique donné, plusieurs variantes intonatives modélisant les différentes formes d'intonation issues du contenu para-linguistique et de la variabilité de la parole. Ce modèle, dont les paramètres sont appris automatiquement sur un corpus de parole, combine deux étapes : une étape de modélisation de la relation entre le contenu linguistique et l'intonation par le moyen d'un arbre de classification (CART) et une étape de modélisation des variantes intonatives par le moyen d'un modèle de Markov caché (HMM). Initialement conçu pour estimer la qualité de l'intonation par une mesure de vraisemblance, le modèle est utilisé en mode génératif pour déterminer la courbe intonative d'énoncés à synthétiser. Dans le cadre de la synthèse par sélection d'unités, principale cible de ces travaux, le modèle est également intégré dans l'algorithme de sélection des unités acoustiques au moyen d'automates à états finis (FSM). La sélection réalise alors un compromis entre qualité segmentale et qualité de l'intonation des énoncés synthétisés.Expressive speech is characterised by its intonation, which is highly variable and strongly dependent on the paralinguistic information it conveys. This type of speech represents a major challenge for speech synthesis technologies, and more particularly for their prosodic prediction modules. In this thesis we propose a statistical model of intonation that, for a given linguistic content, allows for multiple intonative variants, that model various intonation patterns resulting from untagged paralinguistic content and variability intrinsic to speech. This model, whose parameters are automatically trained on a speech corpus, combines two steps: first, a classification tree (CART) models the relationship between the linguistic content and intonation and second, a Hidden Markov Model (HMM) models the competing intonative variants. Originally, the model was designed to calculate a likelihood score that evaluates intonation quality. We then used the model in an inverse fashion, that is, to generate the intonation contour of any new utterance by maximizing the likelihood score. For the target application of this work, namely unit selection speech synthesis, the intonation model is integrated into unit selection with Finite State Machines (FSM). The unit selection then realizes a trade-off between segmental and intonation quality.RENNES1-BU Sciences Philo (352382102) / SudocSudocFranceF

    B-spline model order selection with optimal MDL criterion applied to speech fundamental frequency stylisation

    No full text
    International audienceIn the speech processing field, stylization of fundamental frequency F 0 has been subjected to numerous works. Models proposed in the literature rely on knowledge stemming from phonology and linguistics. We propose an approach that deals with the issue of F0 curve stylization requiring as few linguistic assumptions as possible and in the framework of B-spline models. A B-spline model, characterized by a sequence of knots with which control points are associated, enables the formalization of discontinuities in the derivatives of the observed values sequence. Beyond the implementation of a B-spline model to stylize an open curve sampled using a constant step, we address the problem of the optimal model order choice. We propose to use a parsimony criterion based on a minimum description length (MDL) approach, in order to optimize the number of knots. We derive several criteria relying on bounds estimated from parameter values. We demonstrate the optimality of these choices in the theoretical MDL framework. We introduce a notion of variable precision of parameters which enables a good compromise between the modeling precision and degrees of freedom of the estimated models. Experiments are performed on a French speech corpus and compare three MDL criteria. The use of both B-spline model and MDL methodology enables an efficient modeling of F 0 curves and provides an RMS error around 1 Hz while allowing a relatively high compression rate about 40%
    corecore