12 research outputs found

    Concatenation Cost in Unit Selection Speech Synthesis

    Get PDF
    Tato práce se zabývá jednou z klíčových součástí metody syntézy řeči výběrem jednotek - návrhem ceny řetězení. Cena řetězení měří kvalitu spojení jednotek, které jsou během syntézy vybírány z databáze jednotek. Rozsah této práce omezen na pět krátkých českých samohlásek a dva řečníky - jednoho ženského a jednoho mužského. V první části této práce je navržen postup, jehož použitím lze získat velké množství dat se spolehlivým označením kvality bodů řetězení od mnoha posluchačů. Práce ukazuje, že pro kvalitu řetězení v samohláskách je nejdůležitější F0. Nespojitosti v F0 musí však být měřeny na konturách, které zachycují průběh F0 v oblastech řetězení, a ne jako místní rozdíl hodnot F0 v bodě řeťězení, což je tradiční přístup. Je ukázáno, že různé souhláskové kontexty, které mohou měnit spektrální obsah samohlásek, mají pouze omezený vliv na kvalitu jejich řetězení. Je navržen analytický postup, který umožňuje měřit percepční důležitost různých cen metody výběru jednotek, stejně tak jejich komponent a vah.Katedra kybernetikyObhájenoThis thesis deals with one of the key aspects of the unit selection speech synthesis method - design of a concatenation cost function. The concatenation cost function measures quality of concatenations of units that are taken from a unit database at synthesis runtime. The scope of the work is narrowed to five short Czech vowels and two speakers ? one female and one male. In the first part of the work, a method for collecting reliably annotated data is proposed. It is shown that the method allows for obtaining well correlated annotations of the quality of concatenation points. This work mainly investigates the role of F0, which is found to be crucial for the quality of mid-vowel concatenations, and the role of consonantal contexts that can change the spectral content of concatenated vowel instances as a result of coarticulation. It is shown that the consonantal contexts have only a limited impact on the quality of the concatenations, in contrast to F0. The F0 discontinuities however have to be measured by using F0 contours capturing the dynamics of F0 in concatenation areas rather than by calculating static F0 differences at concatenation points, which is the traditional approach. An analytic method that allows for measuring the perceptual relevance of different costs, cost sub-components and their weights is also proposed as a part of this thesis

    Kontury F0 jako prediktory slyšitelných nespojitostí při řetězení

    No full text
    This paper deals with the traditional problem of the occurrence of audible discontinuities at concatenation points at diphone boundaries in the concatenative speech synthesis. While most of the related studies put stress on the spectral component, we focused on the pitch contours and their role as predictors of the discontinuities. To measure the amount of information contained in the pitch contours, we trained SVM classifiers using perceptual data collected in listening tests. The results have shown that the fine grained pitch contours extracted from a vicinity of the concatenation points carry enough information for classifying continuous and discontinuous joins with a high accuracy

    Pitch Marks at Peaks or Valleys? ⋆

    No full text
    Abstract. This paper deals with the problem of speech waveform polarity. As the polarity of speech waveform can influence the performance of pitch marking algorithms (see Sec. 4), a simple method for the speech signal polarity determination is presented in the paper. We call this problem peak/valley decision making, i.e. making of decision whether pitch marks should be placed at peaks (local maxima) or at valleys (local minima) of a speech waveform. Besides, the proposed method can be utilized to check the polarity consistence of a speech corpus, which is important for the concatenation of speech units in speech synthesis. Key words: speech synthesis, pitch marks, automatic pitch marking, glottal closure instants (GCIs), corpus recording, speech signal polarity

    Akustická analýza české řeči jednoho řečníka pro účely syntézy emotivní řeči

    No full text
    Článek se zabývá akustickou analýzou několika množin českých vět namluvených jedním jediným řečníkem. Data použitá v tomto článku obsahují jak emotivní tak neutrální věty. Obzvláště jsme se zajímali o ty vlastnosti, které by mohli ovlivňovat vnímání řeči. Mezi těmito vlastnosti jsou F0, doba trvání fónů, formantové frekvence a intenzita signálu. Analyzované množiny vět byly složeny z promluv vyjadřujících různé řečnické postoje. Snažili jsme se odhalit nějaké akusticky měřitelné rozdíly mezi různými řečnickými postoji tak, abychom mohli výsledky uplatnit v našem TTS systému pro syntézu emotivní řeči.This paper deals with an acoustic analysis of the sets of Czech sentences uttered by single speaker. The data used in this analysis consists of both emotional and neutral sentences. We have been especially interested in some features which are supposed to influence the perception of speech, such as F0, phoneme duration, formant frequencies or energy. The analyzed sets of sentences were composed of utterances expressing various speaker's attitude. We have tried to reveal some acoustically measurable differences among various speaker's attitudes so that we could incorporate this knowledge into our speech synthesis system to obtain emotional synthetic speech

    Vývoj expresivní syntézy řeči pro český dialogový systém v omezené oblasti

    No full text
    Článek popisuje několik fází vývoje české expresivní syntézy řeči pro dialogový systém s omezenou oblastí. První fáze zahrnuje vytvoření korpusu, který obsahuje přirozené dialogy mezi člověkem a počítačem, metodou Wizard of Oz. Proces nahrávání je popsaný v první části této práce. V další fázi bylo nutné vytvořit expresivní korpus pro potřeby syntézy řeči metodou unit selection. V práci je popsán teoretický návrh a vastní nahrávání takového korpusu. Celý tento výzkum je prováděn v rámci projektu COMPANIONS, jehož cílem je vyvinout český dialogový systém umožňující seniorům komunikovat s počítačem lidskou řečí a povídat si s ním o svých fotografiích.The paper describes several stages of the development of Czech expressive speech synthesis for limited domain dialogue system. The first phase includes the creation of a corpus containing natural human-machine dialogues, gathered using a WoZ technique. The recording setup and the process itself are described in the first part of the paper. In the second phase, an expressive corpus for speech synthesis is created. The theoretical background of the expressive TTS corpus design, the technical measures taken to ensure the corpus appropriateness and the corpus recording process are presented. All this research is being done within COMPANIONS project scenario, where one of the aims is to develop a Czech dialogue system allowing elderly people to reminiscence about their photographs

    Wizard of Oz data collection for the czech senior companion dialogue system

    Get PDF
    In this paper, we present the setup of a Wizard of Oz environment used for collection of data for the implementation of the Czech Senior Companion dialogue system. We also discuss some aspects of using WoZ method for collection of emotional data and summarize some statistics about data set recorded. The domain of the collected data is limited to reminiscing about photographs.1In each session a dialogue between elderly person and (WoZ) experimenter was recorded. Both audio and video data were collected

    Nahrávání korpusu a kontrola nahraných dat

    No full text
    Článek popisuje část nahrávání řečového korpusu. Je zaměřen na odborný dohled během nahrávání a automatickou kontrolu nahraných dat. Jsou v něm prezentovány některé modifikace nahrávacího software.This paper describes a part of speech corpus recording procedure. It focuses on the supervision during the corpus recording and the checking on the recorded data. Several modifications of used software are presented

    Hlasivkové pulzy v maximech či minimech?

    No full text
    V tomto článku se zabýváme problémem polarity řečového signálu a jejího vlivu na přesnost umísťování hlasivkových pulzů v řeči. Byla navržena jednoduchá metoda pro určení polarity řečových signálů, která může být použita pro kontrolu konzistence řečového korpusu.This paper deals with the problem of speech waveform polarity. As the polarity of speech waveform can influence the performance of pitch marking algorithms, the simple method for the speech signal polarity determination is presented in this paper. We call this problem peak/valley decision making, i.e. making of decision whether pitch marks should be placed at peaks (local maxima) or at valleys (local minima) of a speech waveform. Besides, the proposed method can be utilized to check the polarity consistence of a speech corpus, which is important for the concatenation of speech units

    Je si metoda syntézy řeči výběrem jednotek vědomá slyšitelných artefaktů?

    No full text
    This paper presents a new analytic method that can be used for analyzing perceptual relevance of unit selection costs and/or their sub-components as well as for tuning of unit selection weights. The proposed method is leveraged to investigate the behavior of a unit selection based system. The outcome is applied in a simple experiment with the aim to improve speech output quality of the system by setting limits on the costs and their sub-components during the search for optimal sequences of units. The experiments reveal that a large number (36.17%) of artifacts annotated by listeners are not reflected by the values of the costs and their sub-componets as currently implemented and tuned in the evaluated system
    corecore