1,027 research outputs found

    Prosodic modules for speech recognition and understanding in VERBMOBIL

    Get PDF
    Within VERBMOBIL, a large project on spoken language research in Germany, two modules for detecting and recognizing prosodic events have been developed. One module operates on speech signal parameters and the word hypothesis graph, whereas the other module, designed for a novel, highly interactive architecture, only uses speech signal parameters as its input. Phrase boundaries, sentence modality, and accents are detected. The recognition rates in spontaneous dialogs are for accents up to 82,5%, for phrase boundaries up to 91,7%

    Speech Synthesis Based on Hidden Markov Models

    Get PDF

    Explaining the PENTA model: a reply to Arvaniti and Ladd

    Get PDF
    This paper presents an overview of the Parallel Encoding and Target Approximation (PENTA) model of speech prosody, in response to an extensive critique by Arvaniti & Ladd (2009). PENTA is a framework for conceptually and computationally linking communicative meanings to fine-grained prosodic details, based on an articulatory-functional view of speech. Target Approximation simulates the articulatory realisation of underlying pitch targets ā€“ the prosodic primitives in the framework. Parallel Encoding provides an operational scheme that enables simultaneous encoding of multiple communicative functions. We also outline how PENTA can be computationally tested with a set of software tools. With the help of one of the tools, we offer a PENTA-based hypothetical account of the Greek intonational patterns reported by Arvaniti & Ladd, showing how it is possible to predict the prosodic shapes of an utterance based on the lexical and postlexical meanings it conveys

    Adding expressiveness to unit selection speech synthesis and to numerical voice production

    Get PDF
    La parla Ć©s una de les formes de comunicaciĆ³ mĆ©s naturals i directes entre Ć©ssers humans, ja que codifica un missatge i tambĆ© claus paralingĆ¼Ć­stiques sobre lā€™estat emocional del locutor, el to o la seva intenciĆ³, esdevenint aixĆ­ fonamental en la consecuciĆ³ dā€™una interacciĆ³ humĆ -mĆ quina (HCI) mĆ©s natural. En aquest context, la generaciĆ³ de parla expressiva pel canal de sortida dā€™HCI Ć©s un element clau en el desenvolupament de tecnologies assistencials o assistents personals entre altres aplicacions. La parla sintĆØtica pot ser generada a partir de parla enregistrada utilitzant mĆØtodes basats en corpus com la selecciĆ³ dā€™unitats (US), que poden aconseguir resultats dā€™alta qualitat perĆ² dā€™expressivitat restringida a la prĆ²pia del corpus. A fi de millorar la qualitat de la sortida de la sĆ­ntesi, la tendĆØncia actual Ć©s construir bases de dades de veu cada cop mĆ©s grans, seguint especialment lā€™aproximaciĆ³ de sĆ­ntesi anomenada End-to-End basada en tĆØcniques dā€™aprenentatge profund. Tanmateix, enregistrar corpus ad-hoc per cada estil expressiu desitjat pot ser extremadament costĆ³s o fins i tot inviable si el locutor no Ć©s capaƧ de realitzar adequadament els estils requerits per a una aplicaciĆ³ donada (ex: cant en el domini de la narraciĆ³ de contes). Alternativament, nous mĆØtodes basats en la fĆ­sica de la producciĆ³ de veu sā€™han desenvolupat a la darrera dĆØcada grĆ cies a lā€™increment en la potĆØncia computacional. Per exemple, vocals o diftongs poden ser obtinguts utilitzant el mĆØtode dā€™elements finits (FEM) per simular la propagaciĆ³ dā€™ones acĆŗstiques a travĆ©s dā€™una geometria 3D realista del tracte vocal obtinguda a partir de ressonĆ ncies magnĆØtiques (MRI). Tanmateix, atĆØs que els principals esforƧos en aquests mĆØtodes de producciĆ³ numĆØrica de veu sā€™han focalitzat en la millora del modelat del procĆ©s de generaciĆ³ de veu, fins ara sā€™ha prestat poca atenciĆ³ a la seva expressivitat. A mĆ©s, la colĀ·lecciĆ³ de dades per aquestes simulacions Ć©s molt costosa, a mĆ©s de requerir un llarg postprocessament manual com el necessari per extreure geometries 3D del tracte vocal a partir de MRI. Lā€™objectiu de la tesi Ć©s afegir expressivitat en un sistema que genera veu neutra, sense haver dā€™adquirir dades expressives del locutor original. Per un costat, sā€™afegeixen capacitats expressives a un sistema de conversiĆ³ de text a parla basat en selecciĆ³ dā€™unitats (US-TTS) dotat dā€™un corpus de veu neutra, per adreƧar necessitats especĆ­fiques i concretes en lā€™Ć mbit de la narraciĆ³ de contes, com sĆ³n la veu cantada o situacions de suspens. A tal efecte, la veu Ć©s parametritzada utilitzant un model harmĆ²nic i transformada a lā€™estil expressiu desitjat dā€™acord amb un sistema expert. Es presenta una primera aproximaciĆ³, centrada en la sĆ­ntesi de suspens creixent per a la narraciĆ³ de contes, i es demostra la seva viabilitat pel que fa a naturalitat i qualitat de narraciĆ³ de contes. TambĆ© sā€™afegeixen capacitats de cant al sistema US-TTS mitjanƧant la integraciĆ³ de mĆ²duls de transformaciĆ³ de parla a veu cantada en el pipeline del TTS, i la incorporaciĆ³ dā€™un mĆ²dul de generaciĆ³ de prosĆ²dia expressiva que permet al mĆ²dul de US seleccionar unitats mĆ©s properes a la prosĆ²dia cantada obtinguda a partir de la partitura dā€™entrada. AixĆ² resulta en un framework de sĆ­ntesi de conversiĆ³ de text a parla i veu cantada basat en selecciĆ³ dā€™unitats (US-TTS&S) que pot generar veu parlada i cantada a partir d'un petit corpus de veu neutra (~2.6h). Dā€™acord amb els resultats objectius, lā€™estratĆØgia de US guiada per la partitura permet reduir els factors de modificaciĆ³ de pitch requerits per produir veu cantada a partir de les unitats de veu parlada seleccionades, perĆ² en canvi tĆ© una efectivitat limitada amb els factors de modificaciĆ³ de les durades degut a la curta durada de les vocals parlades neutres. Els resultats dels tests perceptius mostren que tot i Ć²bviament obtenir una naturalitat inferior a la oferta per un sintetitzador professional de veu cantada, el framework pot adreƧar necessitats puntuals de veu cantada per a la sĆ­ntesis de narraciĆ³ de contes amb una qualitat raonable. La incorporaciĆ³ dā€™expressivitat sā€™investiga tambĆ© en la simulaciĆ³ numĆØrica 3D de vocals basada en FEM mitjanƧant modificacions de les senyals dā€™excitaciĆ³ glotal utilitzant una aproximaciĆ³ font-filtre de producciĆ³ de veu. Aquestes senyals es generen utilitzant un model Liljencrants-Fant (LF) controlat amb el parĆ metre de forma del pols Rd, que permet explorar el continu de fonaciĆ³ lax-tens a mĆ©s del rang de freqĆ¼ĆØncies fonamentals, F0, de la veu parlada. Sā€™analitza la contribuciĆ³ de la font glotal als modes dā€™alt ordre en la sĆ­ntesis FEM de les vocals cardinals [a], [i] i [u] mitjanƧant la comparaciĆ³ dels valors dā€™energia dā€™alta freqĆ¼ĆØncia (HFE) obtinguts amb geometries realistes i simplificades del tracte vocal. Les simulacions indiquen que els modes dā€™alt ordre es preveuen perceptivament rellevants dā€™acord amb valors de referĆØncia de la literatura, particularment per a fonacions tenses i/o F0s altes. En canvi, per a vocals amb una fonaciĆ³ laxa i/o F0s baixes els nivells dā€™HFE poden resultar inaudibles, especialment si no hi ha soroll dā€™aspiraciĆ³ en la font glotal. DesprĆ©s dā€™aquest estudi preliminar, sā€™han analitzat les caracterĆ­stiques dā€™excitaciĆ³ de vocals alegres i agressives dā€™un corpus paralĀ·lel de veu en castellĆ  amb lā€™objectiu dā€™incorporar aquests estils expressius de veu tensa en la simulaciĆ³ numĆØrica de veu. Per a tal efecte, sā€™ha usat el vocoder GlottDNN per analitzar variacions dā€™F0 i pendent espectral relacionades amb lā€™excitaciĆ³ glotal en vocals [a]. Aquestes variacions es mapegen mitjanƧant la comparaciĆ³ amb vocals sintĆØtiques en valors dā€™F0 i Rd per simular vocals que sā€™assemblin als estils alegre i agressiu. Els resultats mostren que Ć©s necessari incrementar lā€™F0 i disminuir lā€™Rd respecte la veu neutra, amb variacions majors per a alegre que per agressiu, especialment per a vocals accentuades. Els resultats aconseguits en les investigacions realitzades validen la possibilitat dā€™afegir expressivitat a la sĆ­ntesi basada en corpus US-TTS i a la simulaciĆ³ numĆØrica de veu basada en FEM. Tanmateix, encara hi ha marge de millora. Per exemple, lā€™estratĆØgia aplicada a la producciĆ³ numĆØrica de veu es podria millorar estudiant i desenvolupant mĆØtodes de filtratge invers aixĆ­ com incorporant modificacions del tracte vocal, mentre que el framework US-TTS&S es podria beneficiar dels avenƧos en tĆØcniques de transformaciĆ³ de veu incloent transformacions de la qualitat de veu, aprofitant lā€™experiĆØncia adquirida en la simulaciĆ³ numĆØrica de vocals expressives.El habla es una de las formas de comunicaciĆ³n mĆ”s naturales y directas entre seres humanos, ya que codifica un mensaje y tambiĆ©n claves paralingĆ¼Ć­sticas sobre el estado emocional del locutor, el tono o su intenciĆ³n, convirtiĆ©ndose asĆ­ en fundamental en la consecuciĆ³n de una interacciĆ³n humano-mĆ”quina (HCI) mĆ”s natural. En este contexto, la generaciĆ³n de habla expresiva para el canal de salida de HCI es un elemento clave en el desarrollo de tecnologĆ­as asistenciales o asistentes personales entre otras aplicaciones. El habla sintĆ©tica puede ser generada a partir de habla gravada utilizando mĆ©todos basados en corpus como la selecciĆ³n de unidades (US), que pueden conseguir resultados de alta calidad, pero de expresividad restringida a la propia del corpus. A fin de mejorar la calidad de la salida de la sĆ­ntesis, la tendencia actual es construir bases de datos de voz cada vez mĆ”s grandes, siguiendo especialmente la aproximaciĆ³n de sĆ­ntesis llamada End-to-End basada en tĆ©cnicas de aprendizaje profundo. Sin embargo, gravar corpus ad-hoc para cada estilo expresivo deseado puede ser extremadamente costoso o incluso inviable si el locutor no es capaz de realizar adecuadamente los estilos requeridos para una aplicaciĆ³n dada (ej: canto en el dominio de la narraciĆ³n de cuentos). Alternativamente, nuevos mĆ©todos basados en la fĆ­sica de la producciĆ³n de voz se han desarrollado en la Ćŗltima dĆ©cada gracias al incremento en la potencia computacional. Por ejemplo, vocales o diptongos pueden ser obtenidos utilizando el mĆ©todo de elementos finitos (FEM) para simular la propagaciĆ³n de ondas acĆŗsticas a travĆ©s de una geometrĆ­a 3D realista del tracto vocal obtenida a partir de resonancias magnĆ©ticas (MRI). Sin embargo, dado que los principales esfuerzos en estos mĆ©todos de producciĆ³n numĆ©rica de voz se han focalizado en la mejora del modelado del proceso de generaciĆ³n de voz, hasta ahora se ha prestado poca atenciĆ³n a su expresividad. AdemĆ”s, la colecciĆ³n de datos para estas simulaciones es muy costosa, ademĆ”s de requerir un largo postproceso manual como el necesario para extraer geometrĆ­as 3D del tracto vocal a partir de MRI. El objetivo de la tesis es aƱadir expresividad en un sistema que genera voz neutra, sin tener que adquirir datos expresivos del locutor original. Per un lado, se aƱaden capacidades expresivas a un sistema de conversiĆ³n de texto a habla basado en selecciĆ³n de unidades (US-TTS) dotado de un corpus de voz neutra, para abordar necesidades especĆ­ficas y concretas en el Ć”mbito de la narraciĆ³n de cuentos, como son la voz cantada o situaciones de suspense. Para ello, la voz se parametriza utilizando un modelo harmĆ³nico y se transforma al estilo expresivo deseado de acuerdo con un sistema experto. Se presenta una primera aproximaciĆ³n, centrada en la sĆ­ntesis de suspense creciente para la narraciĆ³n de cuentos, y se demuestra su viabilidad en cuanto a naturalidad y calidad de narraciĆ³n de cuentos. TambiĆ©n se aƱaden capacidades de canto al sistema US-TTS mediante la integraciĆ³n de mĆ³dulos de transformaciĆ³n de habla a voz cantada en el pipeline del TTS, y la incorporaciĆ³n de un mĆ³dulo de generaciĆ³n de prosodia expresiva que permite al mĆ³dulo de US seleccionar unidades mĆ”s cercanas a la prosodia cantada obtenida a partir de la partitura de entrada. Esto resulta en un framework de sĆ­ntesis de conversiĆ³n de texto a habla y voz cantada basado en selecciĆ³n de unidades (US-TTS&S) que puede generar voz hablada y cantada a partir del mismo pequeƱo corpus de voz neutra (~2.6h). De acuerdo con los resultados objetivos, la estrategia de US guiada por la partitura permite reducir los factores de modificaciĆ³n de pitch requeridos para producir voz cantada a partir de las unidades de voz hablada seleccionadas, pero en cambio tiene una efectividad limitada con los factores de modificaciĆ³n de duraciones debido a la corta duraciĆ³n de las vocales habladas neutras. Los resultados de las pruebas perceptivas muestran que, a pesar de obtener una naturalidad obviamente inferior a la ofrecida por un sintetizador profesional de voz cantada, el framework puede abordar necesidades puntuales de voz cantada para la sĆ­ntesis de narraciĆ³n de cuentos con una calidad razonable. La incorporaciĆ³n de expresividad se investiga tambiĆ©n en la simulaciĆ³n numĆ©rica 3D de vocales basada en FEM mediante modificaciones en las seƱales de excitaciĆ³n glotal utilizando una aproximaciĆ³n fuente-filtro de producciĆ³n de voz. Estas seƱales se generan utilizando un modelo Liljencrants-Fant (LF) controlado con el parĆ”metro de forma del pulso Rd, que permite explorar el continuo de fonaciĆ³n laxo-tenso ademĆ”s del rango de frecuencias fundamentales, F0, de la voz hablada. Se analiza la contribuciĆ³n de la fuente glotal a los modos de alto orden en la sĆ­ntesis FEM de las vocales cardinales [a], [i] y [u] mediante la comparaciĆ³n de los valores de energĆ­a de alta frecuencia (HFE) obtenidos con geometrĆ­as realistas y simplificadas del tracto vocal. Las simulaciones indican que los modos de alto orden se prevĆ©n perceptivamente relevantes de acuerdo con valores de referencia de la literatura, particularmente para fonaciones tensas y/o F0s altas. En cambio, para vocales con una fonaciĆ³n laxa y/o F0s bajas los niveles de HFE pueden resultar inaudibles, especialmente si no hay ruido de aspiraciĆ³n en la fuente glotal. DespuĆ©s de este estudio preliminar, se han analizado las caracterĆ­sticas de excitaciĆ³n de vocales alegres y agresivas de un corpus paralelo de voz en castellano con el objetivo de incorporar estos estilos expresivos de voz tensa en la simulaciĆ³n numĆ©rica de voz. Para ello, se ha usado el vocoder GlottDNN para analizar variaciones de F0 y pendiente espectral relacionadas con la excitaciĆ³n glotal en vocales [a]. Estas variaciones se mapean mediante la comparaciĆ³n con vocales sintĆ©ticas en valores de F0 y Rd para simular vocales que se asemejen a los estilos alegre y agresivo. Los resultados muestran que es necesario incrementar la F0 y disminuir la Rd respecto la voz neutra, con variaciones mayores para alegre que para agresivo, especialmente para vocales acentuadas. Los resultados conseguidos en las investigaciones realizadas validan la posibilidad de aƱadir expresividad a la sĆ­ntesis basada en corpus US-TTS y a la simulaciĆ³n numĆ©rica de voz basada en FEM. Sin embargo, hay margen de mejora. Por ejemplo, la estrategia aplicada a la producciĆ³n numĆ©rica de voz se podrĆ­a mejorar estudiando y desarrollando mĆ©todos de filtrado inverso, asĆ­ como incorporando modificaciones del tracto vocal, mientras que el framework US-TTS&S desarrollado se podrĆ­a beneficiar de los avances en tĆ©cnicas de transformaciĆ³n de voz incluyendo transformaciones de la calidad de la voz, aprovechando la experiencia adquirida en la simulaciĆ³n numĆ©rica de vocales expresivas.Speech is one of the most natural and direct forms of communication between human beings, as it codifies both a message and paralinguistic cues about the emotional state of the speaker, its mood, or its intention, thus becoming instrumental in pursuing a more natural Human Computer Interaction (HCI). In this context, the generation of expressive speech for the HCI output channel is a key element in the development of assistive technologies or personal assistants among other applications. Synthetic speech can be generated from recorded speech using corpus-based methods such as Unit-Selection (US), which can achieve high quality results but whose expressiveness is restricted to that available in the speech corpus. In order to improve the quality of the synthesis output, the current trend is to build ever larger speech databases, especially following the so-called End-to-End synthesis approach based on deep learning techniques. However, recording ad-hoc corpora for each and every desired expressive style can be extremely costly, or even unfeasible if the speaker is unable to properly perform the styles required for a given application (e.g., singing in the storytelling domain). Alternatively, new methods based on the physics of voice production have been developed in the last decade thanks to the increase in computing power. For instance, vowels or diphthongs can be obtained using the Finite Element Method (FEM) to simulate the propagation of acoustic waves through a 3D realistic vocal tract geometry obtained from Magnetic Resonance Imaging (MRI). However, since the main efforts in these numerical voice production methods have been focused on improving the modelling of the voice generation process, little attention has been paid to its expressiveness up to now. Furthermore, the collection of data for such simulations is very costly, besides requiring manual time-consuming postprocessing like that needed to extract 3D vocal tract geometries from MRI. The aim of the thesis is to add expressiveness into a system that generates neutral voice, without having to acquire expressive data from the original speaker. One the one hand, expressive capabilities are added to a Unit-Selection Text-to-Speech (US-TTS) system fed with a neutral speech corpus, to address specific and timely needs in the storytelling domain, such as for singing or in suspenseful situations. To this end, speech is parameterised using a harmonic-based model and subsequently transformed to the target expressive style according to an expert system. A first approach dealing with the synthesis of storytelling increasing suspense shows the viability of the proposal in terms of naturalness and storytelling quality. Singing capabilities are also added to the US-TTS system through the integration of Speech-to-Singing (STS) transformation modules into the TTS pipeline, and by incorporating an expressive prosody generation module that allows the US to select units closer to the target singing prosody obtained from the input score. This results in a Unit Selection based Text-to-Speech-and-Singing (US-TTS&S) synthesis framework that can generate both speech and singing from the same neutral speech small corpus (~2.6 h). According to the objective results, the score-driven US strategy can reduce the pitch scaling factors required to produce singing from the selected spoken units, but its effectiveness is limited regarding the time-scale requirements due to the short duration of the spoken vowels. Results from the perceptual tests show that although the obtained naturalness is obviously far from that given by a professional singing synthesiser, the framework can address eventual singing needs for synthetic storytelling with a reasonable quality. The incorporation of expressiveness is also investigated in the 3D FEM-based numerical simulation of vowels through modifications of the glottal flow signals following a source-filter approach of voice production. These signals are generated using a Liljencrants-Fant (LF) model controlled with the glottal shape parameter Rd, which allows exploring the tense-lax continuum of phonation besides the spoken vocal range of fundamental frequency values, F0. The contribution of the glottal source to higher order modes in the FEM synthesis of cardinal vowels [a], [i] and [u] is analysed through the comparison of the High Frequency Energy (HFE) values obtained with realistic and simplified 3D geometries of the vocal tract. The simulations indicate that higher order modes are expected to be perceptually relevant according to reference values stated in the literature, particularly for tense phonations and/or high F0s. Conversely, vowels with a lax phonation and/or low F0s can result in inaudible HFE levels, especially if aspiration noise is not present in the glottal source. After this preliminary study, the excitation characteristics of happy and aggressive vowels from a Spanish parallel speech corpus are analysed with the aim of incorporating this tense voice expressive styles into the numerical production of voice. To that effect, the GlottDNN vocoder is used to analyse F0 and spectral tilt variations associated with the glottal excitation on vowels [a]. These variations are mapped through the comparison with synthetic vowels into F0 and Rd values to simulate vowels resembling happy and aggressive styles. Results show that it is necessary to increase F0 and decrease Rd with respect to neutral speech, with larger variations for happy than aggressive style, especially for the stressed [a] vowels. The results achieved in the conducted investigations validate the possibility of adding expressiveness to both corpus-based US-TTS synthesis and FEM-based numerical simulation of voice. Nevertheless, there is still room for improvement. For instance, the strategy applied to the numerical voice production could be improved by studying and developing inverse filtering approaches as well as incorporating modifications of the vocal tract, whereas the developed US-TTS&S framework could benefit from advances in voice transformation techniques including voice quality modifications, taking advantage of the experience gained in the numerical simulation of expressive vowels

    Comparative analysis of majority language influence on North SƔmi prosody using WaveNet-based modeling

    Get PDF
    The Finnmark North Sami is a variety of North Sami language, an indigenous, endangered minority language spoken in the northernmost parts of Norway and Finland. The speakers of this language are bilingual, and regularly speak the majority language (Finnish or Norwegian) as well as their own North Sami variety. In this paper we investigate possible influences of these majority languages on prosodic characteristics of Finnmark North Sami, and associate them with prosodic patterns prevalent in the majority languages. We present a novel methodology that: (a) automatically finds the portions of speech (words) where the prosodic differences based on majority languages are most robustly manifested; and (b) analyzes the nature of these differences in terms of intonational patterns. For the first step, we trained convolutional WaveNet speech synthesis models on North Sami speech material, modified to contain purely prosodic information, and used conditioning embeddings to find words with the greatest differences between the varieties. The subsequent exploratory analysis suggests that the differences in intonational patterns between the two Finnmark North Sami varieties are not manifested uniformly across word types (based on part-of-speech category). Instead, we argue that the differences reflect phrase-level prosodic characteristics of the majority languages.Peer reviewe

    The listening talker: A review of human and algorithmic context-induced modifications of speech

    Get PDF
    International audienceSpeech output technology is finding widespread application, including in scenarios where intelligibility might be compromised - at least for some listeners - by adverse conditions. Unlike most current algorithms, talkers continually adapt their speech patterns as a response to the immediate context of spoken communication, where the type of interlocutor and the environment are the dominant situational factors influencing speech production. Observations of talker behaviour can motivate the design of more robust speech output algorithms. Starting with a listener-oriented categorisation of possible goals for speech modification, this review article summarises the extensive set of behavioural findings related to human speech modification, identifies which factors appear to be beneficial, and goes on to examine previous computational attempts to improve intelligibility in noise. The review concludes by tabulating 46 speech modifications, many of which have yet to be perceptually or algorithmically evaluated. Consequently, the review provides a roadmap for future work in improving the robustness of speech output

    Intonation in a text-to-speech conversion system

    Get PDF
    • ā€¦
    corecore