2 research outputs found

    A Comparative Analysis of Pretrained Language Models for Text-to-Speech

    Full text link
    State-of-the-art text-to-speech (TTS) systems have utilized pretrained language models (PLMs) to enhance prosody and create more natural-sounding speech. However, while PLMs have been extensively researched for natural language understanding (NLU), their impact on TTS has been overlooked. In this study, we aim to address this gap by conducting a comparative analysis of different PLMs for two TTS tasks: prosody prediction and pause prediction. Firstly, we trained a prosody prediction model using 15 different PLMs. Our findings revealed a logarithmic relationship between model size and quality, as well as significant performance differences between neutral and expressive prosody. Secondly, we employed PLMs for pause prediction and found that the task was less sensitive to small models. We also identified a strong correlation between our empirical results and the GLUE scores obtained for these language models. To the best of our knowledge, this is the first study of its kind to investigate the impact of different PLMs on TTS.Comment: Accepted for presentation at the 12th ISCA Speech Synthesis Workshop (SSW) in Grenoble, France, from 26th to 28th August 202

    Base de dades de vídeos per analitzar respostes fisiològiques afectives

    No full text
    Affective computing, leveraged by machine learning techniques, is advancing rapidly in the task of affect recognition in videos. However, there is a need for more annotated data. Several studies have built huge video datasets with emotions annotations. Others have collected music videos or film scenes datasets with physiological signals. However, none of them approached a solution with both physiological signals and user-generated videos. The work introduced here presents GALLUS, a novel database of user-generated videos with affective physiological responses. The database is composed of 775 videos that have been previously annotated through an online crowdsourcing platform. Physiological responses such as electroencephalography, electrocardiography, galvanic skin response, facial emotion recognition, and eye-gaze have been collected from 30 participants while they watched the stimuli. Our dataset will be made public to foster research in affect recognition.La computación afectiva aprovecha de las técnicas de aprendizaje automático avanzar rápidamente en la tarea del reconocimiento de emociones en vídeos. Sin embargo, se necesitan más datos anotados. Varios estudios han construido grandes bases de datos de videos con anotaciones de emociones. Otros han recopilado bases de datos de vídeos musicales o escenas de películas conjuntamente con señales fisiológicas. Pero, ninguno de estos trabajos ha abordado una solución tanto con señales fisiológicas como con vídeos generados por usuarios. En este trabajo presentamos Gallus, una nueva base de datos de vídeos generados por usuarios con respuestas fisiológicas afectivas. La base de datos se compone de 775 vídeos que se han anotado previamente a través de una plataforma de crowdsourcing en línea. Las respuestas fisiológicas como la electroencefalografía, la electrocardiografía, la actividad electrodérmica, el reconocimiento de las emociones faciales y el seguimiento de mirada se han recogido de 30 participantes mientras observaban los estímulos. Nuestra base de datos se hará pública para fomentar la investigación en el reconocimiento de emociones.La computació afectiva aprofita de les tècniques d'aprenentatge automàtic avançar ràpidament en la tasca del reconeixement d'emocions en vídeos. Tanmateix, calen més dades anotades. Diversos estudis han construït grans bases de dades de vídeos amb anotacions d'emocions. Altres han recopilat bases de dades de vídeos musicals o escenes de pel.lícules conjuntament amb senyals fisiològiques. Però, cap d'aquests treballs ha abordat una solució tant amb senyals fisiològics com amb vídeos generats per usuaris. En aquest treball presentem GALLUS, una nova base de dades de vídeos generats per usuaris amb respostes fisiològiques afectives. La base de dades es compon de 775 vídeos que s'han anotat prèviament a través d'una plataforma de crowdsourcing en línia. Les respostes fisiològiques com l'electroencefalografia, l'electrocardiografia, l'activitat electrodèrmica, el reconeixement de les emocions facials i el seguiment de mirada s'han recollit de 30 participants mentre observaven els estímuls. La nostra base de dades es farà pública per fomentar la investigació en el reconeixement d'emocions
    corecore