14 research outputs found

    Uncertainty of Phone Voicing and its Impact on Speech Synthesis

    No full text
    While unit selection speech synthesis is not at the centre of research nowadays, it shows its strengths in deployments where fast fixes and tuning possibilities are required. The key part of this method is target and concatenation costs, usually consisting of features manually designed. When there is a flaw in a feature design, the selection may behave in an unexpected way, not necessarily causing a bad quality speech output. One of such features in our systems was the requirement on the match between expected and real units voicing. Due to the flexibility of the method, we were able to narrow the behaviour of the selection algorithm without worsening the quality of synthesised speech

    Czech Speech Synthesis with Generative Neural Vocoder

    No full text
    In recent years, new neural architectures for generating high-quality synthetic speech on a per-sample basis were introduced. We describe our application of statistical parametric speech synthesis based on LSTM neural networks combined with a generative neural vocoder for the Czech language. We used a traditional LSTM architecture for generating vocoder parametrization from linguistic features. We replaced a standard vocoder with a WaveRNN neural network. We conducted a MUSHRA listening test to compare the proposed approach with the unit selection and LSTM-based parametric speech synthesis utilizing a standard vocoder. In contrast with our previous work, we managed to outperform a well-tuned unit selection TTS system by a great margin on both professional and amateur voices

    Grappling with Web Technologies: the Problems of Remote Speech Recording

    No full text
    Modern web browsers are becoming operating systems of their own kind, allowing unified access to the underlying hardware. The sound device can thus be used by web-based communication systems, such a Google meet, Zoom and others. This attracts the idea of using such capabilities to record a speech synthesis corpus through the web, with there being cases of use where it is really beneficial – for example, the building of personalised speech synthesis. The present paper shows that although it may appear easy, there are some dark corners to take care of

    Robustní metodologie hodnocení vylepšení systému TTS

    No full text
    Článek ukazuje na problematické a obvykle zanedbávané aspekty evaluace TTS systémů poslechovými testy. Je ukázáno, že obyčejný náhodný výběr frází k poslechu nemusí pokrýt případy, které jsou relevantní vzhledem k hodnocenému systému TTS. Je také ukázáno, že bez hlubší znalosti distribuce rozdílů v syntetické řeči, získaných porovnáním výstupů základního a hodnoceného systému, nelze vybrat spolehlivou množina frází k evaluaci. Předkládáme tedy, a na skutečných případech ukazujeme metodu, která v případě, že známe distribuci rozdílů, je schopna vyčíslit míru spolehlivosti poslechového testu stejně jako odhadnou pravděpodobnost neplatnosti závěrů získaných z výsledků poslechového testu.The paper points to problematic and usually neglected aspects of using listening tests for TTS evaluation. It shows that simple random selection of phrases to be listened to may not cover those cases which are relevant to the evaluated TTS system. Also, it shows that a reliable phrase set cannot be chosen without a deeper knowledge of the distribution of differences in synthetic speech, which are obtained by comparing the output generated by an evaluated TTS system to what stands as a baseline system. Having such knowledge, the method able to evaluate the reliability of listening tests, as related to the estimation of possible invalidity of listening results-derived conclusion, is proposed here and demonstrated on real examples

    Hodnocení kvality syntetické řeči pomocí spojité detekce emočních stavů založené na GMM

    No full text
    Příspěvek popisuje systém pro automatické hodnocení kvality syntetické řeči založený na spojité detekci emočních stavů během mluvené věty pomocí klasifikace s využitím modelu gaussovských směsí (GMM). Konečné hodnocení se provádí statistickou analýzou výsledků rozdílů emočních stavů mezi větami původních mužských nebo ženských hlasů a řečí syntetizovanými různými metodami s různými parametry, přístupy k manipulaci s prozodií atd. Základní experimenty potvrzují funkčnost vyvinutého systému, který poskytuje výsledky srovnatelné s výsledky získanými standardní metodou využívající poslechový test. Další výzkumy ukázaly, že počet směsí, typy řečových příznaků a řečové databáze používané pro tvorbu a výcvik GMM mají relativně velký vliv na spojitou detekci emočního stylu a konečné hodnocení kvality testované syntetické řeči.The paper describes a system for automatic evaluation of synthetic speech quality based on continuous detection of emotional states throughout the spoken sentence using a Gaussian mixture model (GMM) classification. The final evaluation decision is made by statistical analysis of the results of emotional class differences between the sentences of original male or female voices and the speech synthesized by various methods with different parameters, approaches to prosody manipulation, etc. The basic experiments confirm the functionality of the developed system producing results comparable with those obtained by the standard listening test method. Additional investigations have shown that a number of mixtures, types of speech features, and a speech database used for creation and training of GMMs have a relatively great influence on continuous emotional style detection and the final quality evaluation of the tested synthetic speech

    Segmentace řeči založená na LSTM pro TTS syntézu

    No full text
    Tento článek popisuje experimenty se segmentací řeči pro účely TTS syntézy . Použili jsme obousměrnou LSTM neuronovou síť pro klasifikaci telefonů v rámečku a další obousměrnou LSTM síť pro predikci délky jednotlivých telefonů. Navrhovaná procedura segmentace kombinuje oba výstupy a najde optimální zarovnání řeč-foném pomocí dynamického programovacího přístupu. Zavedli jsme dvě modifikace pro zvýšení robustnosti klasifikace fonémů. Experimenty byly provedeny na 2 profesionálních a 2 amatérských hlasy. Bylo provedeno srovnání s referenční segmentací založenou na HMM s dalšími manuálními korekcemi. Preferenční poslechové testy ukázaly, že referenční a experimentální segmentace jsou rovnocenné, pokud jsou použity v systému TTS pro výběr jednotek.This paper describes experiments on speech segmentation for the purposes of text-to-speech synthesis. We used a bidirectional LSTM neural network for framewise phone classification and another bidirectional LSTM network for predicting the duration of particular phones. The proposed segmentation procedure combines both outputs and finds the optimal speech-phoneme alignment by using the dynamic programming approach. We introduced two modifications to increase the robustness of phoneme classification. Experiments were performed on 2 professional voices and 2 amateur voices. A comparison with a reference HMM-based segmentation with additional manual corrections was performed. Preference listening tests showed that the reference and experimental segmentation are equivalent when used in a unit selection TTS system

    LSTM-Based Speech Segmentation Trained on Different Foreign Languages

    No full text
    This paper describes experiments on speech segmentation by using bidirectional LSTM neural networks. The networks were trained on various languages (English, German, Russian and Czech), segmentation experiments were performed on 4 Czech professional voices. To be able to use various combinations of foreign languages, we defined a reduced phonetic alphabet based on IPA notation. It consists of 26 phones, all included in all languages. To increase the segmentation accuracy, we applied an iterative procedure based on detection of improperly segmented data and retraining of the network. Experiments confirmed the convergence of the procedure. A comparison with a reference HMM-based segmentation with additional manual corrections was performed

    Speaker-Dependent BiLSTM-Based Phrasing

    No full text
    Phrase boundary detection is an important part of text-to-speech systems since it ensures more natural speech synthesis outputs. However, the problem of phrasing is ambiguous, especially per speaker and per style. This is the reason why this paper focuses on speaker-dependent phrasing for the purposes of speech synthesis, using a neural network model with a speaker code. We also describe results of a listening test focused on incorrectly detected breaks because it turned out that some mistakes could be actually fine, not wrong

    Použití obousměrné LSTM neuronové sítě pro českou fonetickou transkripci

    No full text
    Důležitou součástí téměř všech současných systémů TTS je konverze grafémů na fonémy (G2P), tj. transkripce jakékoli vstupní sekvence grafémů do správné sekvence fonémů v daném jazyce. Příprava transkripčních pravidel a slovníků výslovnosti bohužel není snadným procesem pro nové jazyky v systémech TTS. Z tohoto důvodu se v předkládané práci zaměřujeme na vytvoření automatického modelu G2P založeného na neuronových sítích (NN). Na rozdíl od většiny souvisejících prací v oboru G2P, kde se jako vstup používají pouze samostatná slova, považujeme za vstup našeho navrhovaného modelu NN celou frázi. Tento přístup by podle našeho názoru měl vést k přesnější fonetické transkripci, protože výslovnost slova může záviset na okolních slovech. Výsledky natrénovaného modelu G2P jsou prezentovány na českém jazyce, kde k spodobě znělosti přes hranici slov dochází poměrně často, a jsou porovnávány s přístupem založeným na pravidlech.The crucial part of almost all current TTS systems is a grapheme-to-phoneme (G2P) conversion, i.e. the transcription of any input grapheme sequence into the correct sequence of phonemes in the given language. Unfortunately, the preparation of transcription rules and pronunciation dictionaries is not an easy process for new languages in TTS systems. For that reason, in the presented paper, we focus on the creation of an automatic G2P model, based on neural networks (NN). But, contrary to the majority of related works in G2P field, using only separate words as an input, we consider a whole phrase the input of our proposed NN model. That approach should, in our opinion, lead to more precise phonetic transcription output because the pronunciation of a word can depend on the surrounding words. The results of the trained G2P model are presented on the Czech language where the cross-word-boundary phenomena occur quite often, and they are compared to the rule-based approach
    corecore