21 research outputs found

    Use of the harmonic phase in synthetic speech detection

    Get PDF
    Special Session paper: recent PhD thesis descriptionThis PhD dissertation was written by Jon Sanchez and supervised by Inma Hernáez and Ibon Saratxaga. It was defended at the University of the Basque Country the 5th of February 2016. The committee members were Dr. Alfonso Ortega Giménez (UniZar), Dr. Daniel Erro Eslava (UPV/EHU) and Dr. Enric Monte Moreno (UPC). The dissertation was awarded a "sobresaliente cum laude” qualification.This work has been partially funded by the Spanish Ministry of Economy and Competitiveness with FEDER support (RESTORE project,TEC2015-67163-C2-1-R) and the Basque Government (ELKAROLA project, KK-2015/00098)

    Use of the harmonic phase in synthetic speech detection

    Get PDF
    Special Session paper: recent PhD thesis descriptionThis PhD dissertation was written by Jon Sanchez and supervised by Inma Hernáez and Ibon Saratxaga. It was defended at the University of the Basque Country the 5th of February 2016. The committee members were Dr. Alfonso Ortega Giménez (UniZar), Dr. Daniel Erro Eslava (UPV/EHU) and Dr. Enric Monte Moreno (UPC). The dissertation was awarded a "sobresaliente cum laude” qualification.This work has been partially funded by the Spanish Ministry of Economy and Competitiveness with FEDER support (RESTORE project,TEC2015-67163-C2-1-R) and the Basque Government (ELKAROLA project, KK-2015/00098)

    Magyar nyelvű WaveNet kísérletek

    Get PDF
    A gépi beszédkeltés legújabb iránya a mély neurális hálózat alapú közvetlen hullámforma generálás. A Google DeepMind kutatói által kidolgozott, ún. nyújtott konvolúció (dilated convolution) alapú WaveNet architektúra képes a hullámforma sajátosságait megtanulni és az így épített modell alapján új hullámformákat generálni. Ezzel az architektúrával magyar adatbázisokon végeztünk kísérleteket. Megvizsgáltuk a hálózat tanulási és generálási képességeit, majd különböző nyelvi jellemzőket felhasználva módosítottuk a tanulási és beszédhullámforma generálási folyamatot. A mondatok generálásához egyrészt természetes bemondásokból kinyert paraméterlistát használtunk, illetve szabály alapú beszédszintetizátor prozódiájával is végeztünk kísérleteket. A generált hangmintákat meghallgatásos teszt segítségével értékeltük, amelyben a WaveNet által generált hangmintákat hasonlítottuk össze természetes és szintetizált beszéddel

    Creation of HMM-based Speech Model for Estonian Text-to-Speech Synthesis

    Get PDF
    Antud bakalaureusetöös antakse ülevaate Markovi peitmudelitel põhineva häälemudeli loomisest eestikeelse kõnesünteesi rakenduste jaoks. Esmalt tutvustatakse tekst-kõne sünteesi protsessi, kirjeldati tüüpilise sünteesisüsteemi komponente ning vaadeldakse enamlevinud paradigmade lähenemist kõnesünteesile. Täpsemalt käsitletakse statistilist parameetrilist kõnesünteesi ja selgitatakse antud töö raames kasutatud Markovi peitmudelitel põhineva sünteesisüsteemi HTS toimimismehhanisme, antakse ülevaade tema eelistest ja puudustest ning võimalikest probleemilahendustest. Praktilises osas kasutatakse Eesti Keele Instituudis koostatud ja salvestatud kõnekorpust. Välja tuuakse korpuse loomise põhimõtted ning seos kõnesünteesisüsteemi lingvistilise töötluse mooduliga ning sellest tulenevad piirangud. Kirjeldatakse tekstianalüüsi arendamisega kaasnenud muutusi häälikusüsteemi valikul. Ära märgitakse kõnekorpuse salvestamisega seotud aspektid ja materjalide hindamise põhimõtted ning analüüsitakse korpuse kvaliteeti mõjutanud leide, millest tulenevalt on muudetud järgnevate korpuste koostamise põhimõtteid. Töö eesmärgiks olnud häälemudeli loomisel tuuakse esmalt välja süsteemi HTS kohandamine eesti keelele, mis sisuliselt tähendab foneetilise ja fonoloogilise spetsifikatsiooni koostamist ja treeningmaterjalide ettevalmistamist. Kuna soovitakse võtta häälemudel kasutusele eestikeelse kõnesünteesi rakendustes, tuleb spetsifikatsioon ühildada saadaval oleva tekstianalüüsi omaga. Katseid tehakse erinevate kõnejuhtide erinevate alamkorpustega ja eksperimenteeritakse lingvistilise spetsifikatsiooniga. Välja tuuakse mees- ja naishäälele treenitud mudelitega genereeritud sünteeskõne näited, mille põhjal antakse ka hinnang mudelite headusele. Ootuspärase tulemusena leitakse, et olulisimad tegurid häälemudeli kvaliteedi juures on treeningkorpuse maht ja kvaliteet. Teine määrav komponent on tekstianalüüs ja tema võimekus efektiivselt teisendada ortograafiline tekst hääldustekstiks. Olulisuselt kolmandaks headuse hinnangu mõjutajaks hinnatakse foneetiliste ja fonoloogiliste kontekstitegurite optimeerimine. Lõpuks tuuakse ära võimalikud tegevused, mille tulemusena on võimalik Markovi peitmudelitel põhineva kõnemudeliga genereeritud sünteeskõne kvaliteeti tõsta.The main purpose of this thesis is to create hidden Markov model based speech models for both male and female voice for Estonian text-to-speech synthesis. To begin with, a brief overview of text-to-speech synthesis process is given, alongside with description of components in a typical speech synthesis system and popular techniques in common use. Subsequently, the thesis focuses on statistical parametric speech synthesis in particular. The technique called hidden Markov model-based speech synthesis which is utilized in the system HTS (HMM-based Speech Synthesis System) is described. HTS is employed to generate voice models needed for this bachelor work. Discussed are the advantages and drawbacks of the system HTS and described are solutions to some of the problems. In the practical part of the work the creation of speech corpus in Institute of the Estonian Language is analyzed. Presented are the guidelines for creation of the corpus as well as its connection with text analysis module and related constraints. Described are the changes to phonetic system in use followed from development of text analysis modules. Given are the aspects related to recording the speech corpus and guidelines to evaluate the quality of the signal produced. Analyzed are the unforeseen findings that affect quality of the corpus and from these new guidelines for corpus construction are derived. Described is the process of adapting Estonian-related training data and linguistic specification to the system HTS. Linguistic specification is compatible with text analysis module in order to enable implementation of the trained voice models to Estonian speech synthesis applications. Experiments are carried out on data from different speakers, subcorpora and linguistic specifications. Presented are examples of generated speech for both male and female voice models trained with HTS. Speech model evaluation process has given expected findings. The most important factors that affect voice model quality are the quality and size of training corpus. It is followed by the ability of text analysis module to generate accurate pronounciation text and optimizing of phonetical and phonological contextual factors. In the end, proposed are two possible courses of action to improve the quality of HMM-based speech models trained: implementation of STRAIGHT vocoder to reduce buzzyness of synthesized speech and optimizing of phonetical and phonological contextual factors

    Details of the Nitech HMM-based Speech Synthesis System for the Blizzard Challenge 2005

    No full text
    In January 2005, an open evaluation of corpus-based text-to-speech synthesis systems using common speech datasets, named Blizzard Challenge 2005, was conducted. Nitech group participated in this challenge, entering an HMM-based speech synthesis system called Nitech-HTS 2005. This paper describes the technical details, building processes, and performance of our system. We first give an overview of the basic HMM-based speech synthesis system, and then describe new features integrated into Nitech-HTS 2005 such as STRAIGHT-based vocoding, HSMM-based acoustic modeling, and a speech parameter generation algorithm considering GV. Constructed Nitech-HTS 2005 voices can generate speech waveforms at 0.3 ×RT (real-time ratio) on a 1.6 GHz Pentium 4 machine, and footprints of these voices are less than 2 Mbytes. Subjective listening tests showed that the naturalness and intelligibility of the Nitech-HTS 2005 voices were much better than expected
    corecore