19 research outputs found
Producci贸n de un corpus oral y modelado pros贸dico para la s铆ntesis del habla expresiva
Aquesta tesi aborda diferents aspectes relacionats amb la s铆ntesi de la parla expressiva. Es parteix de l'experi猫ncia pr猫via en sistemes de conversi贸 de text a parla del Grup en Processament Multimodal (GPMM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de millorar la capacitat expressiva d'aquest tipus de sistemes. La parla expressiva transmet informaci贸 paraling眉铆stica com, per exemple, l'emoci贸 del parlant, el seu estat d'脿nim, una determinada intenci贸 o aspectes relacionats amb l'entorn o amb el seu interlocutor. Els dos objectius principals de la present tesi consisteixen, d'una banda, en el desenvolupament d'un corpus oral expressiu i, d'una altra, en la proposta d'un sistema de modelatge i predicci贸 de la pros貌dia per a la seva utilitzaci贸 en l'脿mbit de la s铆ntesi expressiva del parla.En primer lloc, es requereix un corpus oral adequat per a la generaci贸 d'alguns dels m貌duls que componen un sistema de s铆ntesi del parla expressiva. La falta de disponibilitat d'un recurs d'aquest tipus va motivar el desenvolupament d'un nou corpus. A partir de l'estudi dels procediments d'obtenci贸 de parla emocionada o expressiva i de l'experi猫ncia pr猫via del grup, es planteja el disseny, l'enregistrament, l'etiquetatge i la validaci贸 del nou corpus. El principal objectiu consisteix a aconseguir una elevada qualitat del senyal i una cobertura fon猫tica suficient (segmental i pros貌dica), sense renunciar a l'autenticitat des del punt de vista de l'expressivitat oral. El corpus desenvolupat t茅 una durada de m茅s de cinc hores i cont茅 cinc estils expressius: neutre, alegre, sensual, agressiu i trist. En tractar-se de parla expressiva obtinguda mitjan莽ant la lectura de textos sem脿nticament relacionats amb els estils definits, s'ha requerit un proc茅s de validaci贸 que garanteixi que les locucions que formen el corpus incorporin el contingut expressiu desitjat. L'avaluaci贸 exhaustiva de tots els enunciats del corpus seria excessivament costosa en un corpus de gran grand脿ria. D'altra banda, no existeix suficient coneixement cient铆fic per a emular completament la percepci贸 subjectiva mitjan莽ant t猫cniques autom脿tiques que permetin una validaci贸 exhaustiva i fiable dels corpus orals. En el present treball s'ha proposat un m猫tode que suposa un avan莽 cap a una soluci贸 pr脿ctica i eficient d'aquest problema, mitjan莽ant la combinaci贸 d'una avaluaci贸 subjectiva amb t猫cniques d'identificaci贸 autom脿tica de l'emoci贸 en el parla. El m猫tode proposat s'utilitza per a portar a terme una revisi贸 autom脿tica de l'expressivitat del corpus desenvolupat. Finalment, una prova subjectiva ha perm猫s validar el correcte funcionament d'aquest proc茅s autom脿tic. En segon lloc i, sobre la base dels coneixements actuals, de l'experi猫ncia adquirida i dels reptes que es desitjaven abordar, s'ha desenvolupat un sistema d'estimaci贸 de la pros貌dia basat en corpus. Tal sistema es caracteritza per modelar de forma conjunta les funcions ling眉铆stica i paraling眉铆stica de la pros貌dia a partir de l'extracci贸 autom脿tica d'atributs pros貌dics del text, que constitueixen l'entrada d'un sistema d'aprenentatge autom脿tic que prediu els trets pros貌dics modelats pr猫viament. El sistema de modelatge pros貌dic presentat en aquest treball es fonamenta en el raonament basat en casos, que es tracta d'una t猫cnica d'aprenentatge autom脿tic per analogia. Per a l'ajustament d'alguns par脿metres del sistema desenvolupat i per a la seva avaluaci贸 s'han utilitzat mesures objectives de l'error i de la correlaci贸 calculades en les locucions del conjunt de prova. At猫s que les mesures objectives sempre es refereixen a casos concrets, no aporten informaci贸 sobre el grau d'acceptaci贸 que tindr脿 la parla sintetitzada en els o茂dors. Per tant, s'han portat a terme una s猫rie de proves de percepci贸 en les quals un conjunt d'avaluadors ha puntuat un grup d'est铆muls en cada estil. Finalment, s'han analitzat els resultats per a cada estil i s'han comparat amb les mesures objectives obtingudes, el que ha perm猫s extreure algunes conclusions sobre la rellev脿ncia dels trets pros貌dics en la parla expressiva, aix铆 com constatar que els resultats generats pel m貌dul pros貌dic han tingut una bona acceptaci贸, encara que s'han produ茂t difer猫ncies segons l'estil.Esta tesis aborda diferentes aspectos relacionados con la s铆ntesis del habla expresiva. Se parte de la experiencia previa en sistemas de conversi贸n de texto en habla del Grup en Processament Multimodal (GPMM) de Enginyeria i Arquitectura La Salle, con el objetivo de mejorar la capacidad expresiva de este tipo de sistemas. El habla expresiva transmite informaci贸n paraling眉铆stica como, por ejemplo, la emoci贸n del hablante, su estado de 谩nimo, una determinada intenci贸n o aspectos relacionados con el entorno o con su interlocutor. Los dos objetivos principales de la presente tesis consisten, por una parte, en el desarrollo de un corpus oral expresivo y, por otra, en la propuesta de un sistema de modelado y predicci贸n de la prosodia para su utilizaci贸n en el 谩mbito de la s铆ntesis expresiva del habla. En primer lugar, se requiere un corpus oral adecuado para la generaci贸n de algunos de los m贸dulos que componen un sistema de s铆ntesis del habla expresiva. La falta de disponibilidad de un recurso de este tipo motiv贸 el desarrollo de un nuevo corpus. A partir del estudio de los procedimientos de obtenci贸n de habla emocionada o expresiva y de la experiencia previa del grupo, se plantea el dise帽o, la grabaci贸n, el etiquetado y la validaci贸n del nuevo corpus. El principal objetivo consiste en conseguir una elevada calidad de la se帽al y una cobertura fon茅tica suficiente (segmental y pros贸dica), sin renunciar a la autenticidad desde el punto de vista de la expresividad oral. El corpus desarrollado tiene una duraci贸n de m谩s de cinco horas y contiene cinco estilos expresivos: neutro, alegre, sensual, agresivo y triste. Al tratarse de habla expresiva obtenida mediante la lectura de textos sem谩nticamente relacionados con los estilos definidos, se ha requerido un proceso de validaci贸n que garantice que las locuciones que forman el corpus incorporen el contenido expresivo deseado. La evaluaci贸n exhaustiva de todos los enunciados del corpus ser铆a excesivamente costosa en un corpus de gran tama帽o. Por otro lado, no existe suficiente conocimiento cient铆fico para emular completamente la percepci贸n subjetiva mediante t茅cnicas autom谩ticas que permitan una validaci贸n exhaustiva y fiable de los corpus orales. En el presente trabajo se ha propuesto un m茅todo que supone un avance hacia una soluci贸n pr谩ctica y eficiente de este problema, mediante la combinaci贸n de una evaluaci贸n subjetiva con t茅cnicas de identificaci贸n autom谩tica de la emoci贸n en el habla. El m茅todo propuesto se utiliza para llevar a cabo una revisi贸n autom谩tica de la expresividad del corpus desarrollado. Finalmente, una prueba subjetiva con oyentes ha permitido validar el correcto funcionamiento de este proceso autom谩tico.En segundo lugar y, sobre la base de los conocimientos actuales, a la experiencia adquirida y a los retos que se deseaban abordar, se ha desarrollado un sistema de estimaci贸n de la prosodia basado en corpus. Tal sistema se caracteriza por modelar de forma conjunta las funciones ling眉铆stica y paraling眉铆stica de la prosodia a partir de la extracci贸n autom谩tica de atributos pros贸dicos del texto, que constituyen la entrada de un sistema de aprendizaje autom谩tico que predice los rasgos pros贸dicos modelados previamente. El sistema de modelado pros贸dico presentado en este trabajo se fundamenta en el razonamiento basado en casos que se trata de una t茅cnica de aprendizaje autom谩tico por analog铆a. Para el ajuste de algunos par谩metros del sistema desarrollado y para su evaluaci贸n se han utilizado medidas objetivas del error y de la correlaci贸n calculadas en las locuciones del conjunto de prueba. Dado que las medidas objetivas siempre se refieren a casos concretos, no aportan informaci贸n sobre el grado de aceptaci贸n que tendr谩 el habla sintetizada en los oyentes. Por lo tanto, se han llevado a cabo una serie de pruebas de percepci贸n en las que un conjunto de oyentes ha puntuado un grupo de est铆mulos en cada estilo. Finalmente, se han analizado los resultados para cada estilo y se han comparado con las medidas objetivas obtenidas, lo que ha permitido extraer algunas conclusiones sobre la relevancia de los rasgos pros贸dicos en el habla expresiva, as铆 como constatar que los resultados generados por el m贸dulo pros贸dico han tenido una buena aceptaci贸n, aunque se han producido diferencias seg煤n el estilo.This thesis deals with different aspects related to expressive speech synthesis (ESS). Based on the previous experience in text-to-speech (TTS) systems of the Grup en Processament Multimodal (GPMM) of Enginyeria i Arquitectura La Salle, its main aim is to improve the expressive capabilities of such systems. The expressive speech transmits paralinguistic information as, for example, the emotion of the speaker, his/her mood, a certain intention or aspects related to the environment or to his/her conversational partner. The present thesis tackles two main objectives: on the one hand, the development of an expressive speech corpus and, on the other, the modelling and the prediction of prosody from text for their use in the ESS framework. First, an ESS system requires a speech corpus suitable for the development and the performance of some of its modules. The unavailability of a resource of this kind motivated the development of a new corpus. Based on the study of the strategies to obtain expressive speech and the previous experience of the group, the different tasks have been defined: design, recording, segmentation, tagging and validation. The main objective is to achieve a high quality speech signal and sufficient phonetic coverage (segmental and prosodic), preserving the authenticity from the point of view of the oral expressiveness. The recorded corpus has 4638 sentences and it is 5 h 12 min long; it contains five expressive styles: neutral, happy, sensual, aggressive and sad. Expressive speech has been obtained by means of the reading of texts semantically related to the defined styles. Therefore, a validation process has been required in order to guarantee that recorded utterances incorporate the desired expressive content. A comprehensive assessment of the whole corpus would be too costly. Moreover, there is insufficient scientific knowledge to completely emulate the subjective perception through automated techniques that yield a reliable validation of speech corpora. In this thesis, we propose an approach that supposes a step towards a practical solution to this problem, by combining subjective evaluation with techniques for the automatic identification of emotion in speech. The proposed method is used to perform an automatic review of the expressiveness of the corpus developed. Finally, a subjective test has allowed listeners to validate this automatic process.Second, based on our current experience and the proposed challenges, a corpus-based system for prosody estimation has been developed. This system is characterized by modelling both the linguistic and the paralinguistic functions of prosody. A set of prosodic attributes is automatically extracted from text. This information is the input to an automatic learning system that predicts the prosodic features modelled previously by a supervised training. The root mean squared error and the correlation coefficient have been used in both the adjustment of some system parameters and the objective evaluation. However, these measures are referred to specific utterances delivered by the speaker in the recording session, and then they do not provide information about the degree of acceptance of synthesized speech in listeners. Therefore, we have conducted different perception tests in which a group of listeners has scored a set of stimuli in each expressive style. Finally, the results for each style have been analyzed and compared with the objective measures, which has allowed to draw some conclusions about the relevance of prosodic features in expressive speech, as well as to verify that the results generated by the prosodic module have had a good acceptance, although with differences as a function of the style
Adaptaci贸n del CTH-URL para la competici贸n ALBAYZIN 2008
En esta comunicaci贸n describimos el sistema de s铆ntesis de voz presentado a la competici贸n Albayzin 2008. Es un sistema que
sigue un esquema cl谩sico de concatenaci贸n de unidades basado en corpus. Cabe destacar que los costes de selecci贸n se han ajustado mediante un m茅todo basado en algoritmos gen茅ticos y que no se ha utilizado ning煤n sistema de predicci贸n pros贸dica.
Se construyeron dos sistemas preliminares que difer铆an en el algoritmo de generaci贸n de forma de onda escogiendo el que se
presenta a la competici贸n mediante un test perceptual.Peer ReviewedPostprint (published version
La evoluci贸n de la S铆ntesis del Habla en Ingenier铆a La Salle
Este art铆culo resume la trayectoria del grupo de Tecnolog铆as del Habla de Ingenier铆a La Salle (Universitat Ramon Llull) en el marco de la investigaci贸n y el desarrollo de sistemas de s铆ntesis del habla. Partiendo del trabajo realizado en las 煤ltimas dosd茅cadas, se presentan las l铆neas de investigaci贸n que se est谩n desarrollando en la actualidad y se definen los objetivos planteados para un futuro pr贸ximo. La idea fundamental es conseguir un sistema de s铆ntesis multimodal que haga m谩s agradableel flujo de informaci贸n desde el ordenador hacia el usuario. La materializaci贸n de estos objetivos se pretende llevar a cabo mediante el dise帽oo y el desarrollo de un locutor virtual realista conjuntamente con el grupo de Visi贸n por Computador de nuestro centro
Asignaci贸n autom谩tica de marcas de pitch basada en programaci贸n din谩mica
En este art铆culo se presenta la implementaci贸n y evaluaci贸n de un sistema de generaci贸n autom谩tica de marcas de pitch, para el etiquetado de un corpus de voz. El sistema est谩 basado en dos conceptos: la energ铆a de la se帽al de voz y la programaci贸n din谩mica. La evaluaci贸n es doble: respecto al etiquetado de un corpus de habla cont铆nua en catal谩n y respecto al funcionamiento de la utilidad de Entropic equivalente. Adem谩s se ha desarrollado un sistema h铆brido (PDEnt), combinando el sistema de Entropic y los bloques de programaci贸n din谩mica del sistema que se describe en el art铆culo. Los resultados que se obtienen para los dos sistemas implementados son muy satisfactorios.Este trabajo se ha realizado con el apoyo del Departament d'Universitats, Recerca i Societat de la Informaci贸 de la Generalitat de Catalunya mediante la beca 2000FI-00679 del DOGC 07/02/01
Ajuste subjetivo de pesos para selecci贸n de unidades a trav茅s de algoritmos gen茅ticos interactivos
Este trabajo se sit煤a en el marco de los sistemas de s铆ntesis concatenativa del habla basados en selecci贸n de unidades. Concretamente, se ha desarrollado una interfaz que permite establecer los pesos que ponderan los par谩metros que intervienen en la funci贸n de coste del m贸dulo de selecci贸n de unidades, mediante la incorporaci贸n de algoritmos gen茅ticos interactivos. De este modo, el proceso de selecci贸n incorporar谩 el criterio subjetivo de los usuarios finales del sistema. La aplicaci贸n se ha desarrollado bajo una plataforma web y se ha distribuido en distintos servidores para poder ofrecer un buen rendimiento y una alta portabilidad.The work presented in this paper deals with text-to-speech systems based
on unit selection. The quality of the synthesis relies on having an accurate unit
selection process. Usually, the quality of this procedure can be tuned by adjusting
a set of weights that control the selection process. However, in order to achieve a
good quality, the tuning process must take into account some subjective dimensions.
Interactive genetic algorithms overcome this issue, allowing the user to take active
part in the tuning process. With the fusion of the tuning technique and the final
user (by means of a web interface), the unit selection can be adjusted to trap the
subjective elements that lead to a high quality synthesis.Este trabajo se ha realizado con el apoyo del
Departament d鈥橴niversitats, Recerca i Societat
de la Informaci贸 de la Generalitat de
Catalunya mediante la beca 2000FI-00679.
Adem谩s, se ha recibido el apoyo del Technology
Research, Education and Commercialization
Center, un programa de la Universidad
de Illinois at Urbana-Champaign, administrado
por el National Center for Supercomputing
Applications (NCSA) y patrocinado
por el Office of Naval Research (N00014-01-
1-0175). Asimismo, agradecer el apoyo de la
Air Force Office of Scientific Research, Air
Force Material Command, USAF (F49620-
00-0163), y la National Science Foundation
(DMI-9908252)
Multi-domain text classification for unit selectionText-to-Speech synthesis
This paper presents a new approach for designing aconcatenative text-to-speech (TTS) system based onmulti-domain unit selection. The method achievesgood synthetic quality with reasonable computationalcost for a general-purpose TTS system. The architec-ture of the multi-domain database and the text classi-fication algorithm for domain assignment are the basisof the method. The performance of the adjusted textclassification algorithm for the multi-domain TTS aimis analyzed in several encouraging experiments
Un modelo h铆brido orientado a la s铆ntesis multimodal del habla
En este art铆culo se presenta un sistema de conversi贸n texto-habla de alta calidad utilizando voz segmentada en difonemas y trifonemas. El sistema de s铆ntesis implementado se basa en un modelo h铆brido que combina aspectos de un modelo "arm贸nico + ruido", con el que se descompone la se帽al de voz original en dos componentes, y aspectos del TD-PSOLA. Los procesos de an谩lisis y s铆ntesis se realizan s铆ncronamente con el pitch, de forma que se pueden conseguir modificaciones pros贸dicas con un alto grado de naturalidad en el habla generada gracias a la representaci贸n param茅trica de la se帽al de voz. Este sistema resulta una buena soluci贸n para la s铆ntesis del habla emocionada, que requiere grandes variaciones de la prosodia. El objetivo final de este proyecto consiste en implementar este modelo h铆brido de s铆ntesis en un sistema de s铆ntesis audiovisual del habla, capaz de generar s铆ncronamente voz y animaci贸n facial para simular expresiones emocionales.In this paper we present a high-quality text-to-speech system using diphones and triphones. The implemented synthesis system is based on a hybrid model that combines a harmonic plus noise decomposition technique with some features of TD-PSOLA. The analysis and the synthesis processes are pitch-synchronous, so prosodic modifications can be generated achieving a more natural-sounding of synthetic speech. This parametric representation of speech outperforms other techniques for concatenative synthesis (e.g., TD-PSOLA) in intelligibility and naturalness, so it is a good solution for emotional speech synthesis, which requires high-quality prosody modifications. The final goal of this project is to integrate this hybrid speech synthesis method in a text-to-audiovisual speech system that can generate synchronously speech and facial animation to emulate emotional expressions.Este trabajo se ha realizado en parte con el apoyo del Departament d'Universitats, Recerca i Societat de la Informaci贸 de la Generalitat de Catalunya mediante la beca 2000FI-00679 del DOGC 07/02/01
Simultaneous and causal appearance learning and tracking
A novel way to learn and track simultaneously the appearance of a previously non-seen face without
intrusive techniques can be found in this article. The presented approach has a causal behaviour: no future
frames are needed to process the current ones. The model used in the tracking process is refined with each
input frame thanks to a new algorithm for the simultaneous and incremental computation of the singular
value decomposition (SVD) and the mean of the data. Previously developed methods about iterative computation
of SVD are taken into account and an original way to extract the mean information from the reduced
SVD of a matrix is also considered. Furthermore, the results are produced with linear computational cost
and sublinear memory requirements with respect to the size of the data. Finally, experimental results are
included, showing the tracking performance and some comparisons between the batch and our incremental
computation of the SVD with mean information
Aplicaci贸 de t猫cniques de generaci贸 autom脿tica de la parla en producci贸 audiovisual
En aquest article es presenta un resum del treball de recerca que porta el mateix t铆tol, realitzat gr脿cies a l鈥檃jut concedit pel CAC en la VII convocat貌ria d鈥橝juts a projectes de recerca sobre comunicaci贸 audiovisual. Despr茅s d鈥檈studiar el grau d鈥檌mplantaci贸 dels sistemes de s铆ntesi de veu a Catalunya, se n鈥檃nalitza la viabilitat de l鈥櫭簊 en l鈥櫭爉bit de la creaci贸 de produccions audiovisuals. En aquest article es presenten les conclusions de l鈥檈studi de camp realitzat i dels experiments desenvolupats a partir del sistema de s铆ntesi de la parla de La Salle (Universitat Ramon Llull) adaptat al catal脿This article presents a summary of the research work of the same title, developed thanks to the grant awarded by the CAC in the VII call of research projects on audiovisual communication. After studying the degree of implementation of speech synthesis systems in Catalonia, we analyze the feasibility of its use for the creation of audiovisual productions. This article presents the findings of the field study and the experiments developed after adapting the speech synthesis system of La Salle (Universitat Ramon Llull) to the Catalan language