5 research outputs found

    Prosody generation with a neural network

    Get PDF
    The use of neural networks in speech synthesis has been especially successful in the domain of prosody generation. The approach presented here differs from others in a) the transformation from a simple input to an output vector consisting of different parameters and b) the use of subcorpora that allow specialized networks. The network operates in a prominence-based synthesis system, where prominence is the most important parameter and is, consequently, the input parameter for the network. The output is not yet evaluated formally but the synthetic speech sounds natural and lively

    Prosody generation with a neural network

    Get PDF
    The use of neural networks in speech synthesis has been especially successful in the domain of prosody generation. The approach presented here differs from others in a) the transformation from a simple input to an output vector consisting of different parameters and b) the use of subcorpora that allow specialized networks. The network operates in a prominence-based synthesis system, where prominence is the most important parameter and is, consequently, the input parameter for the network. The output is not yet evaluated formally but the synthetic speech sounds natural and lively

    Exposing the hidden vocal channel: Analysis of vocal expression

    Get PDF
    This dissertation explored perception and modeling of human vocal expression, and began by asking what people heard in expressive speech. To address this fundamental question, clips from Shakespearian soliloquy and from the Library of Congress Veterans Oral History Collection were presented to Mechanical Turk workers (10 per clip); and the workers were asked to provide 1-3 keywords describing the vocal expression in the voice. The resulting keywords described prosody, voice quality, nonverbal quality, and emotion in the voice, along with the conversational style, and personal qualities attributed to the speaker. More than half of the keywords described emotion, and were wide-ranging and nuanced. In contrast, keywords describing prosody and voice quality reduced to a short list of frequently-repeating vocal elements. Given this description of perceived vocal expression, a 3-step process was used to model vocal qualities which listeners most frequently perceived. This process included 1) an interactive analysis across each condition to discover its distinguishing characteristics, 2) feature selection and evaluation via unequal variance sensitivity measurements and examination of means and 2-sigma variances across conditions, and 3) iterative, incremental classifier training and validation. The resulting models performed at 2-3.5 times chance. More importantly, the analysis revealed a continuum relationship across whispering, breathiness, modal speech, and resonance, and revealed multiple spectral sub-types of breathiness, modal speech, resonance, and creaky voice. Finally, latent semantic analysis (LSA) applied to the crowdsourced keyword descriptors enabled organic discovery of expressive dimensions present in each corpus, and revealed relationships among perceived voice qualities and emotions within each dimension and across the corpora. The resulting dimensional classifiers performed at up to 3 times chance, and a second study presented a dimensional analysis of laughter. This research produced a new way of exploring emotion in the voice, and of examining relationships among emotion, prosody, voice quality, conversation quality, personal quality, and other expressive vocal elements. For future work, this perception-grounded fusion of crowdsourcing and LSA technique can be applied to anything humans can describe, in any research domain

    Producci贸n de un corpus oral y modelado pros贸dico para la s铆ntesis del habla expresiva

    Get PDF
    Aquesta tesi aborda diferents aspectes relacionats amb la s铆ntesi de la parla expressiva. Es parteix de l'experi猫ncia pr猫via en sistemes de conversi贸 de text a parla del Grup en Processament Multimodal (GPMM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de millorar la capacitat expressiva d'aquest tipus de sistemes. La parla expressiva transmet informaci贸 paraling眉铆stica com, per exemple, l'emoci贸 del parlant, el seu estat d'脿nim, una determinada intenci贸 o aspectes relacionats amb l'entorn o amb el seu interlocutor. Els dos objectius principals de la present tesi consisteixen, d'una banda, en el desenvolupament d'un corpus oral expressiu i, d'una altra, en la proposta d'un sistema de modelatge i predicci贸 de la pros貌dia per a la seva utilitzaci贸 en l'脿mbit de la s铆ntesi expressiva del parla.En primer lloc, es requereix un corpus oral adequat per a la generaci贸 d'alguns dels m貌duls que componen un sistema de s铆ntesi del parla expressiva. La falta de disponibilitat d'un recurs d'aquest tipus va motivar el desenvolupament d'un nou corpus. A partir de l'estudi dels procediments d'obtenci贸 de parla emocionada o expressiva i de l'experi猫ncia pr猫via del grup, es planteja el disseny, l'enregistrament, l'etiquetatge i la validaci贸 del nou corpus. El principal objectiu consisteix a aconseguir una elevada qualitat del senyal i una cobertura fon猫tica suficient (segmental i pros貌dica), sense renunciar a l'autenticitat des del punt de vista de l'expressivitat oral. El corpus desenvolupat t茅 una durada de m茅s de cinc hores i cont茅 cinc estils expressius: neutre, alegre, sensual, agressiu i trist. En tractar-se de parla expressiva obtinguda mitjan莽ant la lectura de textos sem脿nticament relacionats amb els estils definits, s'ha requerit un proc茅s de validaci贸 que garanteixi que les locucions que formen el corpus incorporin el contingut expressiu desitjat. L'avaluaci贸 exhaustiva de tots els enunciats del corpus seria excessivament costosa en un corpus de gran grand脿ria. D'altra banda, no existeix suficient coneixement cient铆fic per a emular completament la percepci贸 subjectiva mitjan莽ant t猫cniques autom脿tiques que permetin una validaci贸 exhaustiva i fiable dels corpus orals. En el present treball s'ha proposat un m猫tode que suposa un avan莽 cap a una soluci贸 pr脿ctica i eficient d'aquest problema, mitjan莽ant la combinaci贸 d'una avaluaci贸 subjectiva amb t猫cniques d'identificaci贸 autom脿tica de l'emoci贸 en el parla. El m猫tode proposat s'utilitza per a portar a terme una revisi贸 autom脿tica de l'expressivitat del corpus desenvolupat. Finalment, una prova subjectiva ha perm猫s validar el correcte funcionament d'aquest proc茅s autom脿tic. En segon lloc i, sobre la base dels coneixements actuals, de l'experi猫ncia adquirida i dels reptes que es desitjaven abordar, s'ha desenvolupat un sistema d'estimaci贸 de la pros貌dia basat en corpus. Tal sistema es caracteritza per modelar de forma conjunta les funcions ling眉铆stica i paraling眉铆stica de la pros貌dia a partir de l'extracci贸 autom脿tica d'atributs pros貌dics del text, que constitueixen l'entrada d'un sistema d'aprenentatge autom脿tic que prediu els trets pros貌dics modelats pr猫viament. El sistema de modelatge pros貌dic presentat en aquest treball es fonamenta en el raonament basat en casos, que es tracta d'una t猫cnica d'aprenentatge autom脿tic per analogia. Per a l'ajustament d'alguns par脿metres del sistema desenvolupat i per a la seva avaluaci贸 s'han utilitzat mesures objectives de l'error i de la correlaci贸 calculades en les locucions del conjunt de prova. At猫s que les mesures objectives sempre es refereixen a casos concrets, no aporten informaci贸 sobre el grau d'acceptaci贸 que tindr脿 la parla sintetitzada en els o茂dors. Per tant, s'han portat a terme una s猫rie de proves de percepci贸 en les quals un conjunt d'avaluadors ha puntuat un grup d'est铆muls en cada estil. Finalment, s'han analitzat els resultats per a cada estil i s'han comparat amb les mesures objectives obtingudes, el que ha perm猫s extreure algunes conclusions sobre la rellev脿ncia dels trets pros貌dics en la parla expressiva, aix铆 com constatar que els resultats generats pel m貌dul pros貌dic han tingut una bona acceptaci贸, encara que s'han produ茂t difer猫ncies segons l'estil.Esta tesis aborda diferentes aspectos relacionados con la s铆ntesis del habla expresiva. Se parte de la experiencia previa en sistemas de conversi贸n de texto en habla del Grup en Processament Multimodal (GPMM) de Enginyeria i Arquitectura La Salle, con el objetivo de mejorar la capacidad expresiva de este tipo de sistemas. El habla expresiva transmite informaci贸n paraling眉铆stica como, por ejemplo, la emoci贸n del hablante, su estado de 谩nimo, una determinada intenci贸n o aspectos relacionados con el entorno o con su interlocutor. Los dos objetivos principales de la presente tesis consisten, por una parte, en el desarrollo de un corpus oral expresivo y, por otra, en la propuesta de un sistema de modelado y predicci贸n de la prosodia para su utilizaci贸n en el 谩mbito de la s铆ntesis expresiva del habla. En primer lugar, se requiere un corpus oral adecuado para la generaci贸n de algunos de los m贸dulos que componen un sistema de s铆ntesis del habla expresiva. La falta de disponibilidad de un recurso de este tipo motiv贸 el desarrollo de un nuevo corpus. A partir del estudio de los procedimientos de obtenci贸n de habla emocionada o expresiva y de la experiencia previa del grupo, se plantea el dise帽o, la grabaci贸n, el etiquetado y la validaci贸n del nuevo corpus. El principal objetivo consiste en conseguir una elevada calidad de la se帽al y una cobertura fon茅tica suficiente (segmental y pros贸dica), sin renunciar a la autenticidad desde el punto de vista de la expresividad oral. El corpus desarrollado tiene una duraci贸n de m谩s de cinco horas y contiene cinco estilos expresivos: neutro, alegre, sensual, agresivo y triste. Al tratarse de habla expresiva obtenida mediante la lectura de textos sem谩nticamente relacionados con los estilos definidos, se ha requerido un proceso de validaci贸n que garantice que las locuciones que forman el corpus incorporen el contenido expresivo deseado. La evaluaci贸n exhaustiva de todos los enunciados del corpus ser铆a excesivamente costosa en un corpus de gran tama帽o. Por otro lado, no existe suficiente conocimiento cient铆fico para emular completamente la percepci贸n subjetiva mediante t茅cnicas autom谩ticas que permitan una validaci贸n exhaustiva y fiable de los corpus orales. En el presente trabajo se ha propuesto un m茅todo que supone un avance hacia una soluci贸n pr谩ctica y eficiente de este problema, mediante la combinaci贸n de una evaluaci贸n subjetiva con t茅cnicas de identificaci贸n autom谩tica de la emoci贸n en el habla. El m茅todo propuesto se utiliza para llevar a cabo una revisi贸n autom谩tica de la expresividad del corpus desarrollado. Finalmente, una prueba subjetiva con oyentes ha permitido validar el correcto funcionamiento de este proceso autom谩tico.En segundo lugar y, sobre la base de los conocimientos actuales, a la experiencia adquirida y a los retos que se deseaban abordar, se ha desarrollado un sistema de estimaci贸n de la prosodia basado en corpus. Tal sistema se caracteriza por modelar de forma conjunta las funciones ling眉铆stica y paraling眉铆stica de la prosodia a partir de la extracci贸n autom谩tica de atributos pros贸dicos del texto, que constituyen la entrada de un sistema de aprendizaje autom谩tico que predice los rasgos pros贸dicos modelados previamente. El sistema de modelado pros贸dico presentado en este trabajo se fundamenta en el razonamiento basado en casos que se trata de una t茅cnica de aprendizaje autom谩tico por analog铆a. Para el ajuste de algunos par谩metros del sistema desarrollado y para su evaluaci贸n se han utilizado medidas objetivas del error y de la correlaci贸n calculadas en las locuciones del conjunto de prueba. Dado que las medidas objetivas siempre se refieren a casos concretos, no aportan informaci贸n sobre el grado de aceptaci贸n que tendr谩 el habla sintetizada en los oyentes. Por lo tanto, se han llevado a cabo una serie de pruebas de percepci贸n en las que un conjunto de oyentes ha puntuado un grupo de est铆mulos en cada estilo. Finalmente, se han analizado los resultados para cada estilo y se han comparado con las medidas objetivas obtenidas, lo que ha permitido extraer algunas conclusiones sobre la relevancia de los rasgos pros贸dicos en el habla expresiva, as铆 como constatar que los resultados generados por el m贸dulo pros贸dico han tenido una buena aceptaci贸n, aunque se han producido diferencias seg煤n el estilo.This thesis deals with different aspects related to expressive speech synthesis (ESS). Based on the previous experience in text-to-speech (TTS) systems of the Grup en Processament Multimodal (GPMM) of Enginyeria i Arquitectura La Salle, its main aim is to improve the expressive capabilities of such systems. The expressive speech transmits paralinguistic information as, for example, the emotion of the speaker, his/her mood, a certain intention or aspects related to the environment or to his/her conversational partner. The present thesis tackles two main objectives: on the one hand, the development of an expressive speech corpus and, on the other, the modelling and the prediction of prosody from text for their use in the ESS framework. First, an ESS system requires a speech corpus suitable for the development and the performance of some of its modules. The unavailability of a resource of this kind motivated the development of a new corpus. Based on the study of the strategies to obtain expressive speech and the previous experience of the group, the different tasks have been defined: design, recording, segmentation, tagging and validation. The main objective is to achieve a high quality speech signal and sufficient phonetic coverage (segmental and prosodic), preserving the authenticity from the point of view of the oral expressiveness. The recorded corpus has 4638 sentences and it is 5 h 12 min long; it contains five expressive styles: neutral, happy, sensual, aggressive and sad. Expressive speech has been obtained by means of the reading of texts semantically related to the defined styles. Therefore, a validation process has been required in order to guarantee that recorded utterances incorporate the desired expressive content. A comprehensive assessment of the whole corpus would be too costly. Moreover, there is insufficient scientific knowledge to completely emulate the subjective perception through automated techniques that yield a reliable validation of speech corpora. In this thesis, we propose an approach that supposes a step towards a practical solution to this problem, by combining subjective evaluation with techniques for the automatic identification of emotion in speech. The proposed method is used to perform an automatic review of the expressiveness of the corpus developed. Finally, a subjective test has allowed listeners to validate this automatic process.Second, based on our current experience and the proposed challenges, a corpus-based system for prosody estimation has been developed. This system is characterized by modelling both the linguistic and the paralinguistic functions of prosody. A set of prosodic attributes is automatically extracted from text. This information is the input to an automatic learning system that predicts the prosodic features modelled previously by a supervised training. The root mean squared error and the correlation coefficient have been used in both the adjustment of some system parameters and the objective evaluation. However, these measures are referred to specific utterances delivered by the speaker in the recording session, and then they do not provide information about the degree of acceptance of synthesized speech in listeners. Therefore, we have conducted different perception tests in which a group of listeners has scored a set of stimuli in each expressive style. Finally, the results for each style have been analyzed and compared with the objective measures, which has allowed to draw some conclusions about the relevance of prosodic features in expressive speech, as well as to verify that the results generated by the prosodic module have had a good acceptance, although with differences as a function of the style
    corecore