3 research outputs found

    Modelos de entonaci贸n anal铆tico y fon茅tico-fonol贸gico aplicados a una base de datos del espa帽ol de Buenos Aires

    Get PDF
    En este trabajo evaluamos un modelo anal铆tico-cuantitativo y otro fon茅ticofonol贸gico de las caracter铆sticas entonativas obtenidas para una base de datos de 741 oraciones declarativas de foco amplio para el espa帽ol de Buenos Aires. La descripci贸n cuantitativa es la resultante de la aplicaci贸n del modelo de superposici贸n de contornos de frecuencia fundamental propuesto por Fujisaki (2003) para diversas lenguas. La descripci贸n fon茅tica que utiliza la marcaci贸n de 铆ndices de juntura y tono ToBI (Beckman y Ayers, 1993) surge de la percepci贸n de los grupos entonativos y de las prominencias y la aplicaci贸n de un m茅todo de etiquetado manual (Gurlekian y otros, 2001b), denominado ToBI ampliado (ToBIA). Los resultados obtenidos, extienden la validez del modelo anal铆tico para un gran n煤mero de oraciones declarativas de foco amplio del espa帽ol. Asimismo se comprueba la validez del ToBI-A para producir un contorno de entonaci贸n comparable con el real a partir de las nuevas etiquetas propuestas. Para este fin, se realiza una prueba perceptual de comparaci贸n por pares y se calculan los errores respecto de la curva real que resultan ser del mismo orden para ambos modelos. Tambi茅n se verifica la validez del ToBI-A en las aplicaciones de s铆ntesis de habla y para la definici贸n fonol贸gica de los acentos tonales de variedades no estudiadas del espa帽ol.We evaluate here the application of two intonational models 鈥搎uantitative and phonetic- to the analysis of an Argentine Spanish database of 741 broad-focus declarative sentences. The analytic model is the superpositional model proposed by Fujisaki (2003) for several languages. The phonetic model is the result of the application of a labelling method (Gurlekian et al., 2001b) that incorporates psycho-acoustic measurements and a detailed description of the shape of the accent. Parameters generated by this labelling method were used to synthesize the intonational contours, which were then evaluated in a perception test. Results indicate the validity of Fujisaki麓s model for describing a large database of Spanish broad-focus declaratives, and, thus, suggest the importance of Fujisaki鈥檚 model for speech technology applications. The extended ToBI model (ToBI-A) is validated by the correlation coefficient and RMSE values as well as the results of the perception test. Ten native speakers of the variety under study judged the synthesized sentences as highly natural with only minor differences with the original contour. These results indicate that the ToBI-A (i) is adequate for a linguistically-meaningful description of the intonation of a new variety; (ii) can be adequately used for modelling intonation.En este trabajo evaluamos un modelo anal铆tico-cuantitativo y otro fon茅ticofonol贸gico de las caracter铆sticas entonativas obtenidas para una base de datos de 741 oraciones declarativas de foco amplio para el espa帽ol de Buenos Aires. La descripci贸n cuantitativa es la resultante de la aplicaci贸n del modelo de superposici贸n de contornos de frecuencia fundamental propuesto por Fujisaki (2003) para diversas lenguas. La descripci贸n fon茅tica que utiliza la marcaci贸n de 铆ndices de juntura y tono ToBI (Beckman y Ayers, 1993) surge de la percepci贸n de los grupos entonativos y de las prominencias y la aplicaci贸n de un m茅todo de etiquetado manual (Gurlekian y otros, 2001b), denominado ToBI ampliado (ToBIA). Los resultados obtenidos, extienden la validez del modelo anal铆tico para un gran n煤mero de oraciones declarativas de foco amplio del espa帽ol. Asimismo se comprueba la validez del ToBI-A para producir un contorno de entonaci贸n comparable con el real a partir de las nuevas etiquetas propuestas. Para este fin, se realiza una prueba perceptual de comparaci贸n por pares y se calculan los errores respecto de la curva real que resultan ser del mismo orden para ambos modelos. Tambi茅n se verifica la validez del ToBI-A en las aplicaciones de s铆ntesis de habla y para la definici贸n fonol贸gica de los acentos tonales de variedades no estudiadas del espa帽ol

    Producci贸n de un corpus oral y modelado pros贸dico para la s铆ntesis del habla expresiva

    Get PDF
    Aquesta tesi aborda diferents aspectes relacionats amb la s铆ntesi de la parla expressiva. Es parteix de l'experi猫ncia pr猫via en sistemes de conversi贸 de text a parla del Grup en Processament Multimodal (GPMM) d'Enginyeria i Arquitectura La Salle, amb l'objectiu de millorar la capacitat expressiva d'aquest tipus de sistemes. La parla expressiva transmet informaci贸 paraling眉铆stica com, per exemple, l'emoci贸 del parlant, el seu estat d'脿nim, una determinada intenci贸 o aspectes relacionats amb l'entorn o amb el seu interlocutor. Els dos objectius principals de la present tesi consisteixen, d'una banda, en el desenvolupament d'un corpus oral expressiu i, d'una altra, en la proposta d'un sistema de modelatge i predicci贸 de la pros貌dia per a la seva utilitzaci贸 en l'脿mbit de la s铆ntesi expressiva del parla.En primer lloc, es requereix un corpus oral adequat per a la generaci贸 d'alguns dels m貌duls que componen un sistema de s铆ntesi del parla expressiva. La falta de disponibilitat d'un recurs d'aquest tipus va motivar el desenvolupament d'un nou corpus. A partir de l'estudi dels procediments d'obtenci贸 de parla emocionada o expressiva i de l'experi猫ncia pr猫via del grup, es planteja el disseny, l'enregistrament, l'etiquetatge i la validaci贸 del nou corpus. El principal objectiu consisteix a aconseguir una elevada qualitat del senyal i una cobertura fon猫tica suficient (segmental i pros貌dica), sense renunciar a l'autenticitat des del punt de vista de l'expressivitat oral. El corpus desenvolupat t茅 una durada de m茅s de cinc hores i cont茅 cinc estils expressius: neutre, alegre, sensual, agressiu i trist. En tractar-se de parla expressiva obtinguda mitjan莽ant la lectura de textos sem脿nticament relacionats amb els estils definits, s'ha requerit un proc茅s de validaci贸 que garanteixi que les locucions que formen el corpus incorporin el contingut expressiu desitjat. L'avaluaci贸 exhaustiva de tots els enunciats del corpus seria excessivament costosa en un corpus de gran grand脿ria. D'altra banda, no existeix suficient coneixement cient铆fic per a emular completament la percepci贸 subjectiva mitjan莽ant t猫cniques autom脿tiques que permetin una validaci贸 exhaustiva i fiable dels corpus orals. En el present treball s'ha proposat un m猫tode que suposa un avan莽 cap a una soluci贸 pr脿ctica i eficient d'aquest problema, mitjan莽ant la combinaci贸 d'una avaluaci贸 subjectiva amb t猫cniques d'identificaci贸 autom脿tica de l'emoci贸 en el parla. El m猫tode proposat s'utilitza per a portar a terme una revisi贸 autom脿tica de l'expressivitat del corpus desenvolupat. Finalment, una prova subjectiva ha perm猫s validar el correcte funcionament d'aquest proc茅s autom脿tic. En segon lloc i, sobre la base dels coneixements actuals, de l'experi猫ncia adquirida i dels reptes que es desitjaven abordar, s'ha desenvolupat un sistema d'estimaci贸 de la pros貌dia basat en corpus. Tal sistema es caracteritza per modelar de forma conjunta les funcions ling眉铆stica i paraling眉铆stica de la pros貌dia a partir de l'extracci贸 autom脿tica d'atributs pros貌dics del text, que constitueixen l'entrada d'un sistema d'aprenentatge autom脿tic que prediu els trets pros貌dics modelats pr猫viament. El sistema de modelatge pros貌dic presentat en aquest treball es fonamenta en el raonament basat en casos, que es tracta d'una t猫cnica d'aprenentatge autom脿tic per analogia. Per a l'ajustament d'alguns par脿metres del sistema desenvolupat i per a la seva avaluaci贸 s'han utilitzat mesures objectives de l'error i de la correlaci贸 calculades en les locucions del conjunt de prova. At猫s que les mesures objectives sempre es refereixen a casos concrets, no aporten informaci贸 sobre el grau d'acceptaci贸 que tindr脿 la parla sintetitzada en els o茂dors. Per tant, s'han portat a terme una s猫rie de proves de percepci贸 en les quals un conjunt d'avaluadors ha puntuat un grup d'est铆muls en cada estil. Finalment, s'han analitzat els resultats per a cada estil i s'han comparat amb les mesures objectives obtingudes, el que ha perm猫s extreure algunes conclusions sobre la rellev脿ncia dels trets pros貌dics en la parla expressiva, aix铆 com constatar que els resultats generats pel m貌dul pros貌dic han tingut una bona acceptaci贸, encara que s'han produ茂t difer猫ncies segons l'estil.Esta tesis aborda diferentes aspectos relacionados con la s铆ntesis del habla expresiva. Se parte de la experiencia previa en sistemas de conversi贸n de texto en habla del Grup en Processament Multimodal (GPMM) de Enginyeria i Arquitectura La Salle, con el objetivo de mejorar la capacidad expresiva de este tipo de sistemas. El habla expresiva transmite informaci贸n paraling眉铆stica como, por ejemplo, la emoci贸n del hablante, su estado de 谩nimo, una determinada intenci贸n o aspectos relacionados con el entorno o con su interlocutor. Los dos objetivos principales de la presente tesis consisten, por una parte, en el desarrollo de un corpus oral expresivo y, por otra, en la propuesta de un sistema de modelado y predicci贸n de la prosodia para su utilizaci贸n en el 谩mbito de la s铆ntesis expresiva del habla. En primer lugar, se requiere un corpus oral adecuado para la generaci贸n de algunos de los m贸dulos que componen un sistema de s铆ntesis del habla expresiva. La falta de disponibilidad de un recurso de este tipo motiv贸 el desarrollo de un nuevo corpus. A partir del estudio de los procedimientos de obtenci贸n de habla emocionada o expresiva y de la experiencia previa del grupo, se plantea el dise帽o, la grabaci贸n, el etiquetado y la validaci贸n del nuevo corpus. El principal objetivo consiste en conseguir una elevada calidad de la se帽al y una cobertura fon茅tica suficiente (segmental y pros贸dica), sin renunciar a la autenticidad desde el punto de vista de la expresividad oral. El corpus desarrollado tiene una duraci贸n de m谩s de cinco horas y contiene cinco estilos expresivos: neutro, alegre, sensual, agresivo y triste. Al tratarse de habla expresiva obtenida mediante la lectura de textos sem谩nticamente relacionados con los estilos definidos, se ha requerido un proceso de validaci贸n que garantice que las locuciones que forman el corpus incorporen el contenido expresivo deseado. La evaluaci贸n exhaustiva de todos los enunciados del corpus ser铆a excesivamente costosa en un corpus de gran tama帽o. Por otro lado, no existe suficiente conocimiento cient铆fico para emular completamente la percepci贸n subjetiva mediante t茅cnicas autom谩ticas que permitan una validaci贸n exhaustiva y fiable de los corpus orales. En el presente trabajo se ha propuesto un m茅todo que supone un avance hacia una soluci贸n pr谩ctica y eficiente de este problema, mediante la combinaci贸n de una evaluaci贸n subjetiva con t茅cnicas de identificaci贸n autom谩tica de la emoci贸n en el habla. El m茅todo propuesto se utiliza para llevar a cabo una revisi贸n autom谩tica de la expresividad del corpus desarrollado. Finalmente, una prueba subjetiva con oyentes ha permitido validar el correcto funcionamiento de este proceso autom谩tico.En segundo lugar y, sobre la base de los conocimientos actuales, a la experiencia adquirida y a los retos que se deseaban abordar, se ha desarrollado un sistema de estimaci贸n de la prosodia basado en corpus. Tal sistema se caracteriza por modelar de forma conjunta las funciones ling眉铆stica y paraling眉铆stica de la prosodia a partir de la extracci贸n autom谩tica de atributos pros贸dicos del texto, que constituyen la entrada de un sistema de aprendizaje autom谩tico que predice los rasgos pros贸dicos modelados previamente. El sistema de modelado pros贸dico presentado en este trabajo se fundamenta en el razonamiento basado en casos que se trata de una t茅cnica de aprendizaje autom谩tico por analog铆a. Para el ajuste de algunos par谩metros del sistema desarrollado y para su evaluaci贸n se han utilizado medidas objetivas del error y de la correlaci贸n calculadas en las locuciones del conjunto de prueba. Dado que las medidas objetivas siempre se refieren a casos concretos, no aportan informaci贸n sobre el grado de aceptaci贸n que tendr谩 el habla sintetizada en los oyentes. Por lo tanto, se han llevado a cabo una serie de pruebas de percepci贸n en las que un conjunto de oyentes ha puntuado un grupo de est铆mulos en cada estilo. Finalmente, se han analizado los resultados para cada estilo y se han comparado con las medidas objetivas obtenidas, lo que ha permitido extraer algunas conclusiones sobre la relevancia de los rasgos pros贸dicos en el habla expresiva, as铆 como constatar que los resultados generados por el m贸dulo pros贸dico han tenido una buena aceptaci贸n, aunque se han producido diferencias seg煤n el estilo.This thesis deals with different aspects related to expressive speech synthesis (ESS). Based on the previous experience in text-to-speech (TTS) systems of the Grup en Processament Multimodal (GPMM) of Enginyeria i Arquitectura La Salle, its main aim is to improve the expressive capabilities of such systems. The expressive speech transmits paralinguistic information as, for example, the emotion of the speaker, his/her mood, a certain intention or aspects related to the environment or to his/her conversational partner. The present thesis tackles two main objectives: on the one hand, the development of an expressive speech corpus and, on the other, the modelling and the prediction of prosody from text for their use in the ESS framework. First, an ESS system requires a speech corpus suitable for the development and the performance of some of its modules. The unavailability of a resource of this kind motivated the development of a new corpus. Based on the study of the strategies to obtain expressive speech and the previous experience of the group, the different tasks have been defined: design, recording, segmentation, tagging and validation. The main objective is to achieve a high quality speech signal and sufficient phonetic coverage (segmental and prosodic), preserving the authenticity from the point of view of the oral expressiveness. The recorded corpus has 4638 sentences and it is 5 h 12 min long; it contains five expressive styles: neutral, happy, sensual, aggressive and sad. Expressive speech has been obtained by means of the reading of texts semantically related to the defined styles. Therefore, a validation process has been required in order to guarantee that recorded utterances incorporate the desired expressive content. A comprehensive assessment of the whole corpus would be too costly. Moreover, there is insufficient scientific knowledge to completely emulate the subjective perception through automated techniques that yield a reliable validation of speech corpora. In this thesis, we propose an approach that supposes a step towards a practical solution to this problem, by combining subjective evaluation with techniques for the automatic identification of emotion in speech. The proposed method is used to perform an automatic review of the expressiveness of the corpus developed. Finally, a subjective test has allowed listeners to validate this automatic process.Second, based on our current experience and the proposed challenges, a corpus-based system for prosody estimation has been developed. This system is characterized by modelling both the linguistic and the paralinguistic functions of prosody. A set of prosodic attributes is automatically extracted from text. This information is the input to an automatic learning system that predicts the prosodic features modelled previously by a supervised training. The root mean squared error and the correlation coefficient have been used in both the adjustment of some system parameters and the objective evaluation. However, these measures are referred to specific utterances delivered by the speaker in the recording session, and then they do not provide information about the degree of acceptance of synthesized speech in listeners. Therefore, we have conducted different perception tests in which a group of listeners has scored a set of stimuli in each expressive style. Finally, the results for each style have been analyzed and compared with the objective measures, which has allowed to draw some conclusions about the relevance of prosodic features in expressive speech, as well as to verify that the results generated by the prosodic module have had a good acceptance, although with differences as a function of the style

    Estudio de las habilidades pros贸dicas y musicales en el s铆ndrome de Williams

    Full text link
    Tesis doctoral in茅dita le铆da en la Universidad Aut贸noma de Madrid, Facultad de Psicolog铆a, Departamento de Psicolog铆a B谩sica. Fecha de lectura: enero de 200
    corecore