9 research outputs found

    A modulation property of time-frequency derivatives of filtered phase and its application to aperiodicity and fo estimation

    Full text link
    We introduce a simple and linear SNR (strictly speaking, periodic to random power ratio) estimator (0dB to 80dB without additional calibration/linearization) for providing reliable descriptions of aperiodicity in speech corpus. The main idea of this method is to estimate the background random noise level without directly extracting the background noise. The proposed method is applicable to a wide variety of time windowing functions with very low sidelobe levels. The estimate combines the frequency derivative and the time-frequency derivative of the mapping from filter center frequency to the output instantaneous frequency. This procedure can replace the periodicity detection and aperiodicity estimation subsystems of recently introduced open source vocoder, YANG vocoder. Source code of MATLAB implementation of this method will also be open sourced.Comment: 8 pages 9 figures, Submitted and accepted in Interspeech201

    Real-time and interactive tools for vocal training based on an analytic signal with a cosine series envelope

    Full text link
    We introduce real-time and interactive tools for assisting vocal training. In this presentation, we demonstrate mainly a tool based on real-time visualizer of fundamental frequency candidates to provide information-rich feedback to learners. The visualizer uses an efficient algorithm using analytic signals for deriving phase-based attributes. We start using these tools in vocal training for assisting learners to acquire the awareness of appropriate vocalization. The first author made the MATLAB implementation of the tools open-source. The code and associated video materials are accessible in the first author's GitHub repository.Comment: 4 pages, 6 figures, APSIPA ASC 201

    Adding expressiveness to unit selection speech synthesis and to numerical voice production

    Get PDF
    La parla 茅s una de les formes de comunicaci贸 m茅s naturals i directes entre 茅ssers humans, ja que codifica un missatge i tamb茅 claus paraling眉铆stiques sobre l鈥檈stat emocional del locutor, el to o la seva intenci贸, esdevenint aix铆 fonamental en la consecuci贸 d鈥檜na interacci贸 hum脿-m脿quina (HCI) m茅s natural. En aquest context, la generaci贸 de parla expressiva pel canal de sortida d鈥橦CI 茅s un element clau en el desenvolupament de tecnologies assistencials o assistents personals entre altres aplicacions. La parla sint猫tica pot ser generada a partir de parla enregistrada utilitzant m猫todes basats en corpus com la selecci贸 d鈥檜nitats (US), que poden aconseguir resultats d鈥檃lta qualitat per貌 d鈥檈xpressivitat restringida a la pr貌pia del corpus. A fi de millorar la qualitat de la sortida de la s铆ntesi, la tend猫ncia actual 茅s construir bases de dades de veu cada cop m茅s grans, seguint especialment l鈥檃proximaci贸 de s铆ntesi anomenada End-to-End basada en t猫cniques d鈥檃prenentatge profund. Tanmateix, enregistrar corpus ad-hoc per cada estil expressiu desitjat pot ser extremadament cost贸s o fins i tot inviable si el locutor no 茅s capa莽 de realitzar adequadament els estils requerits per a una aplicaci贸 donada (ex: cant en el domini de la narraci贸 de contes). Alternativament, nous m猫todes basats en la f铆sica de la producci贸 de veu s鈥檋an desenvolupat a la darrera d猫cada gr脿cies a l鈥檌ncrement en la pot猫ncia computacional. Per exemple, vocals o diftongs poden ser obtinguts utilitzant el m猫tode d鈥檈lements finits (FEM) per simular la propagaci贸 d鈥檕nes ac煤stiques a trav茅s d鈥檜na geometria 3D realista del tracte vocal obtinguda a partir de resson脿ncies magn猫tiques (MRI). Tanmateix, at猫s que els principals esfor莽os en aquests m猫todes de producci贸 num猫rica de veu s鈥檋an focalitzat en la millora del modelat del proc茅s de generaci贸 de veu, fins ara s鈥檋a prestat poca atenci贸 a la seva expressivitat. A m茅s, la col路lecci贸 de dades per aquestes simulacions 茅s molt costosa, a m茅s de requerir un llarg postprocessament manual com el necessari per extreure geometries 3D del tracte vocal a partir de MRI. L鈥檕bjectiu de la tesi 茅s afegir expressivitat en un sistema que genera veu neutra, sense haver d鈥檃dquirir dades expressives del locutor original. Per un costat, s鈥檃fegeixen capacitats expressives a un sistema de conversi贸 de text a parla basat en selecci贸 d鈥檜nitats (US-TTS) dotat d鈥檜n corpus de veu neutra, per adre莽ar necessitats espec铆fiques i concretes en l鈥櫭爉bit de la narraci贸 de contes, com s贸n la veu cantada o situacions de suspens. A tal efecte, la veu 茅s parametritzada utilitzant un model harm貌nic i transformada a l鈥檈stil expressiu desitjat d鈥檃cord amb un sistema expert. Es presenta una primera aproximaci贸, centrada en la s铆ntesi de suspens creixent per a la narraci贸 de contes, i es demostra la seva viabilitat pel que fa a naturalitat i qualitat de narraci贸 de contes. Tamb茅 s鈥檃fegeixen capacitats de cant al sistema US-TTS mitjan莽ant la integraci贸 de m貌duls de transformaci贸 de parla a veu cantada en el pipeline del TTS, i la incorporaci贸 d鈥檜n m貌dul de generaci贸 de pros貌dia expressiva que permet al m貌dul de US seleccionar unitats m茅s properes a la pros貌dia cantada obtinguda a partir de la partitura d鈥檈ntrada. Aix貌 resulta en un framework de s铆ntesi de conversi贸 de text a parla i veu cantada basat en selecci贸 d鈥檜nitats (US-TTS&S) que pot generar veu parlada i cantada a partir d'un petit corpus de veu neutra (~2.6h). D鈥檃cord amb els resultats objectius, l鈥檈strat猫gia de US guiada per la partitura permet reduir els factors de modificaci贸 de pitch requerits per produir veu cantada a partir de les unitats de veu parlada seleccionades, per貌 en canvi t茅 una efectivitat limitada amb els factors de modificaci贸 de les durades degut a la curta durada de les vocals parlades neutres. Els resultats dels tests perceptius mostren que tot i 貌bviament obtenir una naturalitat inferior a la oferta per un sintetitzador professional de veu cantada, el framework pot adre莽ar necessitats puntuals de veu cantada per a la s铆ntesis de narraci贸 de contes amb una qualitat raonable. La incorporaci贸 d鈥檈xpressivitat s鈥檌nvestiga tamb茅 en la simulaci贸 num猫rica 3D de vocals basada en FEM mitjan莽ant modificacions de les senyals d鈥檈xcitaci贸 glotal utilitzant una aproximaci贸 font-filtre de producci贸 de veu. Aquestes senyals es generen utilitzant un model Liljencrants-Fant (LF) controlat amb el par脿metre de forma del pols Rd, que permet explorar el continu de fonaci贸 lax-tens a m茅s del rang de freq眉猫ncies fonamentals, F0, de la veu parlada. S鈥檃nalitza la contribuci贸 de la font glotal als modes d鈥檃lt ordre en la s铆ntesis FEM de les vocals cardinals [a], [i] i [u] mitjan莽ant la comparaci贸 dels valors d鈥檈nergia d鈥檃lta freq眉猫ncia (HFE) obtinguts amb geometries realistes i simplificades del tracte vocal. Les simulacions indiquen que els modes d鈥檃lt ordre es preveuen perceptivament rellevants d鈥檃cord amb valors de refer猫ncia de la literatura, particularment per a fonacions tenses i/o F0s altes. En canvi, per a vocals amb una fonaci贸 laxa i/o F0s baixes els nivells d鈥橦FE poden resultar inaudibles, especialment si no hi ha soroll d鈥檃spiraci贸 en la font glotal. Despr茅s d鈥檃quest estudi preliminar, s鈥檋an analitzat les caracter铆stiques d鈥檈xcitaci贸 de vocals alegres i agressives d鈥檜n corpus paral路lel de veu en castell脿 amb l鈥檕bjectiu d鈥檌ncorporar aquests estils expressius de veu tensa en la simulaci贸 num猫rica de veu. Per a tal efecte, s鈥檋a usat el vocoder GlottDNN per analitzar variacions d鈥橣0 i pendent espectral relacionades amb l鈥檈xcitaci贸 glotal en vocals [a]. Aquestes variacions es mapegen mitjan莽ant la comparaci贸 amb vocals sint猫tiques en valors d鈥橣0 i Rd per simular vocals que s鈥檃ssemblin als estils alegre i agressiu. Els resultats mostren que 茅s necessari incrementar l鈥橣0 i disminuir l鈥橰d respecte la veu neutra, amb variacions majors per a alegre que per agressiu, especialment per a vocals accentuades. Els resultats aconseguits en les investigacions realitzades validen la possibilitat d鈥檃fegir expressivitat a la s铆ntesi basada en corpus US-TTS i a la simulaci贸 num猫rica de veu basada en FEM. Tanmateix, encara hi ha marge de millora. Per exemple, l鈥檈strat猫gia aplicada a la producci贸 num猫rica de veu es podria millorar estudiant i desenvolupant m猫todes de filtratge invers aix铆 com incorporant modificacions del tracte vocal, mentre que el framework US-TTS&S es podria beneficiar dels aven莽os en t猫cniques de transformaci贸 de veu incloent transformacions de la qualitat de veu, aprofitant l鈥檈xperi猫ncia adquirida en la simulaci贸 num猫rica de vocals expressives.El habla es una de las formas de comunicaci贸n m谩s naturales y directas entre seres humanos, ya que codifica un mensaje y tambi茅n claves paraling眉铆sticas sobre el estado emocional del locutor, el tono o su intenci贸n, convirti茅ndose as铆 en fundamental en la consecuci贸n de una interacci贸n humano-m谩quina (HCI) m谩s natural. En este contexto, la generaci贸n de habla expresiva para el canal de salida de HCI es un elemento clave en el desarrollo de tecnolog铆as asistenciales o asistentes personales entre otras aplicaciones. El habla sint茅tica puede ser generada a partir de habla gravada utilizando m茅todos basados en corpus como la selecci贸n de unidades (US), que pueden conseguir resultados de alta calidad, pero de expresividad restringida a la propia del corpus. A fin de mejorar la calidad de la salida de la s铆ntesis, la tendencia actual es construir bases de datos de voz cada vez m谩s grandes, siguiendo especialmente la aproximaci贸n de s铆ntesis llamada End-to-End basada en t茅cnicas de aprendizaje profundo. Sin embargo, gravar corpus ad-hoc para cada estilo expresivo deseado puede ser extremadamente costoso o incluso inviable si el locutor no es capaz de realizar adecuadamente los estilos requeridos para una aplicaci贸n dada (ej: canto en el dominio de la narraci贸n de cuentos). Alternativamente, nuevos m茅todos basados en la f铆sica de la producci贸n de voz se han desarrollado en la 煤ltima d茅cada gracias al incremento en la potencia computacional. Por ejemplo, vocales o diptongos pueden ser obtenidos utilizando el m茅todo de elementos finitos (FEM) para simular la propagaci贸n de ondas ac煤sticas a trav茅s de una geometr铆a 3D realista del tracto vocal obtenida a partir de resonancias magn茅ticas (MRI). Sin embargo, dado que los principales esfuerzos en estos m茅todos de producci贸n num茅rica de voz se han focalizado en la mejora del modelado del proceso de generaci贸n de voz, hasta ahora se ha prestado poca atenci贸n a su expresividad. Adem谩s, la colecci贸n de datos para estas simulaciones es muy costosa, adem谩s de requerir un largo postproceso manual como el necesario para extraer geometr铆as 3D del tracto vocal a partir de MRI. El objetivo de la tesis es a帽adir expresividad en un sistema que genera voz neutra, sin tener que adquirir datos expresivos del locutor original. Per un lado, se a帽aden capacidades expresivas a un sistema de conversi贸n de texto a habla basado en selecci贸n de unidades (US-TTS) dotado de un corpus de voz neutra, para abordar necesidades espec铆ficas y concretas en el 谩mbito de la narraci贸n de cuentos, como son la voz cantada o situaciones de suspense. Para ello, la voz se parametriza utilizando un modelo harm贸nico y se transforma al estilo expresivo deseado de acuerdo con un sistema experto. Se presenta una primera aproximaci贸n, centrada en la s铆ntesis de suspense creciente para la narraci贸n de cuentos, y se demuestra su viabilidad en cuanto a naturalidad y calidad de narraci贸n de cuentos. Tambi茅n se a帽aden capacidades de canto al sistema US-TTS mediante la integraci贸n de m贸dulos de transformaci贸n de habla a voz cantada en el pipeline del TTS, y la incorporaci贸n de un m贸dulo de generaci贸n de prosodia expresiva que permite al m贸dulo de US seleccionar unidades m谩s cercanas a la prosodia cantada obtenida a partir de la partitura de entrada. Esto resulta en un framework de s铆ntesis de conversi贸n de texto a habla y voz cantada basado en selecci贸n de unidades (US-TTS&S) que puede generar voz hablada y cantada a partir del mismo peque帽o corpus de voz neutra (~2.6h). De acuerdo con los resultados objetivos, la estrategia de US guiada por la partitura permite reducir los factores de modificaci贸n de pitch requeridos para producir voz cantada a partir de las unidades de voz hablada seleccionadas, pero en cambio tiene una efectividad limitada con los factores de modificaci贸n de duraciones debido a la corta duraci贸n de las vocales habladas neutras. Los resultados de las pruebas perceptivas muestran que, a pesar de obtener una naturalidad obviamente inferior a la ofrecida por un sintetizador profesional de voz cantada, el framework puede abordar necesidades puntuales de voz cantada para la s铆ntesis de narraci贸n de cuentos con una calidad razonable. La incorporaci贸n de expresividad se investiga tambi茅n en la simulaci贸n num茅rica 3D de vocales basada en FEM mediante modificaciones en las se帽ales de excitaci贸n glotal utilizando una aproximaci贸n fuente-filtro de producci贸n de voz. Estas se帽ales se generan utilizando un modelo Liljencrants-Fant (LF) controlado con el par谩metro de forma del pulso Rd, que permite explorar el continuo de fonaci贸n laxo-tenso adem谩s del rango de frecuencias fundamentales, F0, de la voz hablada. Se analiza la contribuci贸n de la fuente glotal a los modos de alto orden en la s铆ntesis FEM de las vocales cardinales [a], [i] y [u] mediante la comparaci贸n de los valores de energ铆a de alta frecuencia (HFE) obtenidos con geometr铆as realistas y simplificadas del tracto vocal. Las simulaciones indican que los modos de alto orden se prev茅n perceptivamente relevantes de acuerdo con valores de referencia de la literatura, particularmente para fonaciones tensas y/o F0s altas. En cambio, para vocales con una fonaci贸n laxa y/o F0s bajas los niveles de HFE pueden resultar inaudibles, especialmente si no hay ruido de aspiraci贸n en la fuente glotal. Despu茅s de este estudio preliminar, se han analizado las caracter铆sticas de excitaci贸n de vocales alegres y agresivas de un corpus paralelo de voz en castellano con el objetivo de incorporar estos estilos expresivos de voz tensa en la simulaci贸n num茅rica de voz. Para ello, se ha usado el vocoder GlottDNN para analizar variaciones de F0 y pendiente espectral relacionadas con la excitaci贸n glotal en vocales [a]. Estas variaciones se mapean mediante la comparaci贸n con vocales sint茅ticas en valores de F0 y Rd para simular vocales que se asemejen a los estilos alegre y agresivo. Los resultados muestran que es necesario incrementar la F0 y disminuir la Rd respecto la voz neutra, con variaciones mayores para alegre que para agresivo, especialmente para vocales acentuadas. Los resultados conseguidos en las investigaciones realizadas validan la posibilidad de a帽adir expresividad a la s铆ntesis basada en corpus US-TTS y a la simulaci贸n num茅rica de voz basada en FEM. Sin embargo, hay margen de mejora. Por ejemplo, la estrategia aplicada a la producci贸n num茅rica de voz se podr铆a mejorar estudiando y desarrollando m茅todos de filtrado inverso, as铆 como incorporando modificaciones del tracto vocal, mientras que el framework US-TTS&S desarrollado se podr铆a beneficiar de los avances en t茅cnicas de transformaci贸n de voz incluyendo transformaciones de la calidad de la voz, aprovechando la experiencia adquirida en la simulaci贸n num茅rica de vocales expresivas.Speech is one of the most natural and direct forms of communication between human beings, as it codifies both a message and paralinguistic cues about the emotional state of the speaker, its mood, or its intention, thus becoming instrumental in pursuing a more natural Human Computer Interaction (HCI). In this context, the generation of expressive speech for the HCI output channel is a key element in the development of assistive technologies or personal assistants among other applications. Synthetic speech can be generated from recorded speech using corpus-based methods such as Unit-Selection (US), which can achieve high quality results but whose expressiveness is restricted to that available in the speech corpus. In order to improve the quality of the synthesis output, the current trend is to build ever larger speech databases, especially following the so-called End-to-End synthesis approach based on deep learning techniques. However, recording ad-hoc corpora for each and every desired expressive style can be extremely costly, or even unfeasible if the speaker is unable to properly perform the styles required for a given application (e.g., singing in the storytelling domain). Alternatively, new methods based on the physics of voice production have been developed in the last decade thanks to the increase in computing power. For instance, vowels or diphthongs can be obtained using the Finite Element Method (FEM) to simulate the propagation of acoustic waves through a 3D realistic vocal tract geometry obtained from Magnetic Resonance Imaging (MRI). However, since the main efforts in these numerical voice production methods have been focused on improving the modelling of the voice generation process, little attention has been paid to its expressiveness up to now. Furthermore, the collection of data for such simulations is very costly, besides requiring manual time-consuming postprocessing like that needed to extract 3D vocal tract geometries from MRI. The aim of the thesis is to add expressiveness into a system that generates neutral voice, without having to acquire expressive data from the original speaker. One the one hand, expressive capabilities are added to a Unit-Selection Text-to-Speech (US-TTS) system fed with a neutral speech corpus, to address specific and timely needs in the storytelling domain, such as for singing or in suspenseful situations. To this end, speech is parameterised using a harmonic-based model and subsequently transformed to the target expressive style according to an expert system. A first approach dealing with the synthesis of storytelling increasing suspense shows the viability of the proposal in terms of naturalness and storytelling quality. Singing capabilities are also added to the US-TTS system through the integration of Speech-to-Singing (STS) transformation modules into the TTS pipeline, and by incorporating an expressive prosody generation module that allows the US to select units closer to the target singing prosody obtained from the input score. This results in a Unit Selection based Text-to-Speech-and-Singing (US-TTS&S) synthesis framework that can generate both speech and singing from the same neutral speech small corpus (~2.6 h). According to the objective results, the score-driven US strategy can reduce the pitch scaling factors required to produce singing from the selected spoken units, but its effectiveness is limited regarding the time-scale requirements due to the short duration of the spoken vowels. Results from the perceptual tests show that although the obtained naturalness is obviously far from that given by a professional singing synthesiser, the framework can address eventual singing needs for synthetic storytelling with a reasonable quality. The incorporation of expressiveness is also investigated in the 3D FEM-based numerical simulation of vowels through modifications of the glottal flow signals following a source-filter approach of voice production. These signals are generated using a Liljencrants-Fant (LF) model controlled with the glottal shape parameter Rd, which allows exploring the tense-lax continuum of phonation besides the spoken vocal range of fundamental frequency values, F0. The contribution of the glottal source to higher order modes in the FEM synthesis of cardinal vowels [a], [i] and [u] is analysed through the comparison of the High Frequency Energy (HFE) values obtained with realistic and simplified 3D geometries of the vocal tract. The simulations indicate that higher order modes are expected to be perceptually relevant according to reference values stated in the literature, particularly for tense phonations and/or high F0s. Conversely, vowels with a lax phonation and/or low F0s can result in inaudible HFE levels, especially if aspiration noise is not present in the glottal source. After this preliminary study, the excitation characteristics of happy and aggressive vowels from a Spanish parallel speech corpus are analysed with the aim of incorporating this tense voice expressive styles into the numerical production of voice. To that effect, the GlottDNN vocoder is used to analyse F0 and spectral tilt variations associated with the glottal excitation on vowels [a]. These variations are mapped through the comparison with synthetic vowels into F0 and Rd values to simulate vowels resembling happy and aggressive styles. Results show that it is necessary to increase F0 and decrease Rd with respect to neutral speech, with larger variations for happy than aggressive style, especially for the stressed [a] vowels. The results achieved in the conducted investigations validate the possibility of adding expressiveness to both corpus-based US-TTS synthesis and FEM-based numerical simulation of voice. Nevertheless, there is still room for improvement. For instance, the strategy applied to the numerical voice production could be improved by studying and developing inverse filtering approaches as well as incorporating modifications of the vocal tract, whereas the developed US-TTS&S framework could benefit from advances in voice transformation techniques including voice quality modifications, taking advantage of the experience gained in the numerical simulation of expressive vowels

    Simultaneous Measurement of Multiple Acoustic Attributes Using Structured Periodic Test Signals Including Music and Other Sound Materials

    Full text link
    We introduce a general framework for measuring acoustic properties such as liner time-invariant (LTI) response, signal-dependent time-invariant (SDTI) component, and random and time-varying (RTV) component simultaneously using structured periodic test signals. The framework also enables music pieces and other sound materials as test signals by "safeguarding" them by adding slight deterministic "noise." Measurement using swept-sin, MLS (Maxim Length Sequence), and their variants are special cases of the proposed framework. We implemented interactive and real-time measuring tools based on this framework and made them open-source. Furthermore, we applied this framework to assess pitch extractors objectively.Comment: 8 pages, 17 figures, accepted for APSIPA ASC 202

    Frequency domain variant of Velvet noise and its application to acoustic measurements

    Full text link
    We propose a new family of test signals for acoustic measurements such as impulse response, nonlinearity, and the effects of background noise. The proposed family complements difficulties in existing families, the Swept-Sine (SS), pseudo-random noise such as the maximum length sequence (MLS). The proposed family uses the frequency domain variant of the Velvet noise (FVN) as its building block. An FVN is an impulse response of an all-pass filter and yields the unit impulse when convolved with the time-reversed version of itself. In this respect, FVN is a member of the time-stretched pulse (TSP) in the broadest sense. The high degree of freedom in designing an FVN opens a vast range of applications in acoustic measurement. We introduce the following applications and their specific procedures, among other possibilities. They are as follows. a) Spectrum shaping adaptive to background noise. b) Simultaneous measurement of impulse responses of multiple acoustic paths. d) Simultaneous measurement of linear and nonlinear components of an acoustic path. e) Automatic procedure for time axis alignment of the source and the receiver when they are using independent clocks in acoustic impulse response measurement. We implemented a reference measurement tool equipped with all these procedures. The MATLAB source code and related materials are open-sourced and placed in a GitHub repository.Comment: 10 pages, 14 figures, APSIPA ASC 2019. arXiv admin note: text overlap with arXiv:1806.0681

    Proceedings of the 7th Sound and Music Computing Conference

    Get PDF
    Proceedings of the SMC2010 - 7th Sound and Music Computing Conference, July 21st - July 24th 2010
    corecore