Este artículo describe el proceso de generación de una voz
en castellano utilizando el corpus UPC ESMA de UPC
proporcionado por la Evaluación Albayzín 2008: Conversión
Texto a Voz. Se ha implementado una voz basada
en selección de unidades mediante el paquete Multisyn
de Festival y otra basada en Hidden Semi-Markov Models
(HSMM) mediante HTS. Tras una breve evaluación
de la calidad de ambas voces, se detallan las características
principales de la voz basada en HSMM, sistema final
presentado a la evaluación

J. Macias-Guarasa

J.M. Montero

King, Simon

R. Barra-Chicote

S. Lutfi

Yamagishi, Junichi

Edinburgh Research Explorer

     Edinburgh Research Explorer                                      Generacion de una voz sintetica en Castellano basada en HSMMpara la Evaluacion Albayzin 2008: conversion texto a vozCitation for published version:Barra-Chicote, R, Yamagishi, J, Montero, JM, King, S, Lutfi, S & Macias-Guarasa, J 2008, 'Generacion deuna voz sintetica en Castellano basada en HSMM para la Evaluacion Albayzin 2008: conversion texto avoz'. ???in??? V Jornadas en Tecnologia del Habla. ???pages??? 115-118.Link:Link to publication record in Edinburgh Research ExplorerDocument Version:Author final version (often known as postprint)Published In:V Jornadas en Tecnologia del HablaPublisher Rights Statement:© Barra-Chicote, R., Yamagishi, J., Montero, J. M., King, S., Lutfi, S., & Macias-Guarasa, J. (2008). Generacionde una voz sintetica en Castellano basada en HSMM para la Evaluacion Albayzin 2008: conversion texto a voz.In V Jornadas en Tecnologia del Habla. (pp. 115-118)General rightsCopyright for the publications made accessible via the Edinburgh Research Explorer is retained by the author(s)and / or other copyright owners and it is a condition of accessing these publications that users recognise andabide by the legal requirements associated with these rights.Take down policyThe University of Edinburgh has made every reasonable effort to ensure that Edinburgh Research Explorercontent complies with UK legislation. If you believe that the public display of this file breaches copyright pleasecontact openaccess@ed.ac.uk providing details, and we will remove access to the work immediately andinvestigate your claim.Download date: 20. Feb. 2015GENERACIÓN DE UNA VOZ SINTÉTICA EN CASTELLANO BASADA EN HSMM PARALA EVALUACIÓN ALBAYZÍN 2008: CONVERSIÓN TEXTO A VOZR. Barra-Chicote1, J. Yamagishi2, J. M. Montero1, S. King2, S. Lufti 1, J. Macias-Guarasa3Grupo de Tecnología del Habla, Universidad Politécnica de Madrid1,Center for Speech Technology Research, University of Edinburgh2,Universidad de Alcalá3RESUMENEste artículo describe el proceso de generación de una vozen castellano utilizando el corpus UPC ESMA de UPCproporcionado por la Evaluación Albayzín 2008: Conver-sión Texto a Voz. Se ha implementado una voz basadaen selección de unidades mediante el paquete Multisynde Festival y otra basada en Hidden Semi-Markov Mo-dels (HSMM) mediante HTS. Tras una breve evaluaciónde la calidad de ambas voces, se detallan las característi-cas principales de la voz basada en HSMM, sistema finalpresentado a la evaluación.1. INTRODUCCIÓNLa Evaluación Albayzín 2008: conversión texto a voztiene como objetivo la evaluación de las técnicas de sínte-sis actuales aplicadas al castellano, del mimo modo que lacompetición Blizzard Challenge para inglés y chino man-darín.Cada equipo participante debe proporcionar una vozgenerada a partir del corpus proporcionado en un plazode 7 semanas. Posteriormente deben sintetizar un conjun-to de ejemplos de test, que serán evaluados perceptual-mente, de forma conjunta con los del resto de equipos, entérminos de similaridad con la voz original, naturalidad einteligibilidad.2. CORPUSEl corpus UPC ESMA [1] proporcionado para la eva-luación del sistema consiste en las grabaciones de un con-junto de textos leídos con estilo neutro por parte de unalocutora profesional.El corpus proporciona 506 frases fonéticamente ba-lanceadas (30 minutos), 208 párrafos de longitud mediafonéticamente balanceados (30 minutos) y 62 párrafos li-terarios de mayor longitud (45 minutos).Además del audio, señal de voz y señal del laringógra-fo, se cuenta con el texto de referencia, la trascripción fo-nética y un diccionario con la información léxica. Con elEste trabajo ha sido parcialmente financiado por el M.E.C. ylos proyectos proyecto ROBONAUTA (DPI2007-66846-C02-02), EDE-CAN (TIN2005-08660-C04-04).corpus se proporciona la segmentación fonética y la mar-cación automática de pitch. Adicionalmente se dispone dela marcación manual de un subconjunto de la base de da-tos.3. ANÁLISIS LINGÜÍSTICOPara la realización del análisis lingüístico se han uti-lizado las herramientas proporcionadas por Festival [2].Se ha prescindido de la información proporcionada conla base de datos y se ha empleado un alfabeto propio, unsilabicador y un conversión grafema-alófono incorpora-dos a Festival. El alfabeto utilizado consta de 30 alófonostípicos en castellano, entre los que se incluye el silencio.Los módulos incorporados a Festival para llevar a ca-bo el análisis lingüístico son:Módulo de preproceso y normalización, que tratala pronunciación de nombres propios, acrónimos,números romanos y cifras.Módulo conversor grafema-alófono, que a partir dereglas fonéticas extrae la secuencia de alófonos deltexto.Módulo silabicador, que a partir de la trascripciónfonética y basándose en reglas, estima automática-mente la división en sílabas.Módulo acentuador, que determina, a partir de re-glas, las sílabas tónicas y átonas de la secuenciaalofónica.Módulo categorizador, que únicamente diferenciadel resto el conjunto de palabras función.A partir del análisis lingüístico se han extraído un con-junto de 65 características lingüísticas. Algunas de lasmás relevantes son:A nivel de alófono: Alófono anterior al predecesor,predecesor, actual, posterior, siguiente al posterior,y la posición del alófono actual en la sílaba.A nivel de sílaba: no de fonemas y acentuación dela sílaba anterior, actual y posterior; posición de la— 115 —V Jornadas en Tecnología del Hablasílaba dentro la palabra y del grupo fónico; y la vo-cal de la sílaba.A nivel de palabra: la categoría gramatical (POS)de la palabra anterior, actual y posterior; no de sí-labas de la palabra anterior, actual y posterior; po-sición dentro del grupo fónico desde el comienzo ydesde el final; y la posición del grupo fónico dentrode la frase.A nivel de grupo fónico: No de sílabas y de pala-bras del grupo fónico anterior, actual y posterior, ytipo de entonación final.A nivel de frase: No de sílabas, de palabras y degrupos fónicos.4. SELECCIÓN DE UNIDADES VERSUSSÍNTESIS HSMMEn este trabajo se ha implementado una voz basadaen selección de unidades y otra basada en Semi-ModelosOcultos de Markov (HSMM: Hidden Semi Markov Mo-dels); con el fin de evaluar la bondad de cada técnica apli-cada al corpus de la evaluación. Ambas voces han utiliza-do como módulo de preproceso el explicado en el aparta-do anterior.En el caso de la voz basada en selección de unidadesse ha utilizado el motor multisyn[3] de Festival. Durantela generación de esta voz se han encontrado un conjuntode problemas que han dado lugar a las siguientes limita-ciones:Se ha tenido que prescindir de los párrafos literariosen el entrenamiento de HMM para la segmentaciónautomática del corpus, usando únicamente las fra-ses y los párrafos fonéticamente balanceados.A pesar de normalizar la intensidad de los ficherosde audio, se comprobaron variaciones de intensidaden los ejemplos sintetizados.Dado el tamaño del corpus, no se dispone de la su-ficiente cobertura de contextos lingüísticos comopara modelar de forma implícita la parte prosódi-ca [3], afectando a la naturalidad de la voz.La voz basada en HSMM ha sido generada medianteHTS 2.1 [4]. Algunos de los aspectos que diferencian estavoz de la anterior y que a priori mejoran la calidad de lavoz (a falta de una evaluación exhaustiva) son:La segmentación fonética es un proceso implícitoen el entrenamiento de los HSMM. A diferencia dela segmentación con multisyn, en este caso se uti-liza información referente a la fuente de excitación(log F0 y componente aperiódica), un mayor nú-mero de coeficientes cepstrales y mayor número deestados.Figura 1. Evaluación de la calidad de la voz basada enselección de unidades y la basada en HSMM.Figura 2. Descripción del sistema (adaptada de [5]).El uso de un modelo paramétrico proporciona ma-yor robustez, evitando discontinuidades. A priori,esta técnica proporciona una voz más estable y unasíntesis más robusta para este volumen de datos deentrenamiento.Se ha realizado una breve evaluación de calidad de lasvoces con objeto de seleccionar la mejor de ambas pa-ra la evaluación. 5 oyentes han evaluado 10 textos selec-cionados del conjunto de ejemplos de test enviados porla organización de la evaluación, puntuando cada ejem-plo siguiendo la escala MOS. Los resultados mostradosen la gráfica 1, indican que la calidad de la voz basadaen HSMM (3,52) es mejor que la basada en selección deunidades (2,68).5. CONVERSIÓN DE TEXTO A VOZ BASADA ENHSMMEn esta sección se describen las características princi-pales del sistema empleado finalmente. Cada uno de losalgoritmos empleados se detalla exhaustivamente en [5] y[4]. La Figura 2 presenta un diagrama general del sistema.5.1. Modelo de producción de vozUno de los modelos de producción más extendidos esel conocido como vocoder. Este modelo consiste en mo-delar la voz humana como la convolución de un señal de— 116 —V Jornadas en Tecnología del Hablaexcitación con un filtro, el cual representa la informaciónasociada al tracto vocal.El uso de este modelo limita la calidad de la voz sinte-tizada, debido a que asume independencia entre la excita-ción y el filtro dado que simplifica la señal de excitacióna un tren de impulsos en los sonidos sonoros, y a ruidoen caso de los sonidos sordos. El resultado suele ser lapercepción de una voz robótica.Como solución a este problema, el sistema presentadoincorpora STRAIGHT [6], vocoder que mejora la calidadde la síntesis al aplicar un procedimiento adaptativo sobreF0 en la estimación de la envolvente espectral. De estaforma se consigue separar la envolvente espectral de lacomponente periódica de la señal. Adicionalmente, se es-timan medidas de aperiodicidad del espectro, basadas enla relación entre la zona de alta y de baja frecuencia dela envolvente espectral, las cuales representan la distribu-ción relativa de energía de cada componente aperiódica[7].En el proceso de síntesis, se utiliza un modelo de ex-citación mixta, basado en la suma de un tren de impulsoscon manipulación de la fase y un ruido gausiano. La pon-deración de ambas señales se realiza en el dominio de lafrecuencia mediante las medidas de aperiodicidad comen-tadas anteriormente.5.2. Entrenamiento de los modelos acústicosSe ha utilizado una frecuencia de muestreo de 16kHzy un análisis trama a trama con un enventanado de tipoBlackman de 25ms y un desplazamiento de ventana de5ms.Como ya se ha mencionado, en el sistema se han uti-lizado HSMMs para modelar la envolvente espectral, lainformación de aperiodicidad y el contorno de F0 (loga-ritmo de F0 realmente). Con el fin de que los modelossean entrenables, es necesario codificar la informaciónpara disminuir la dimensionalidad de las observaciones.Para ello, a partir de la envolvente espectral se estimanlos 40 primeros coeficientes cepstrales (global mel ceps-trum) y las medidas de aperiodicidad se promedian en 5subbandas de frecuencia.Se ha prescindido de la información de las marcas depitch proporcionadas con la base de datos. En nuestro sis-tema se ha buscado robustecer la estimación del contornode logaritmo de F0 mediante el empleo de tres tipos dealgoritmos de extracción de F0 a partir de la señal de voz.Finalmente, el contorno resultante es el promedio del re-sultado ofrecido por cada uno de los algoritmos por sepa-rado.Adicionalmente, se calculan la primera y segunda de-rivada de cada una de las componentes estáticas, forman-do así un vector de 138 componentes.En el caso de logF0 y sus derivadas se han modeladoutilizado distribuciones MSD (Multi Space Ditribution)[8], en las que las tramas sonoras se modelan medianteun distribución gausiana con una matriz de covarianzasFigura 3. HSMM dependientes del contexto (adaptadade [11]).diagonal, y las tramas sordas mediante una distribucióndiscreta.5.2.1. Empleo de HSMM y modelado de duracionesLos HSMM modelan la duración de cada estado deforma explícita mediante una función de distribución enlugar de utilizar las probabilidades de transición de losHMM convencionales, lo cual permite modelar el ritmode una forma más apropiada [9].En este caso se ha utilizado una función de distribu-ción gausiana multivariable de dimensión equivalente alnúmero de estados (5 en nuestro caso).5.2.2. Modelos dependientes del contextoCada fonema se modela como un HSMM de 5 estadosde izquierda a derecha. Para cada estado y cada una delas componentes del modelo (espectro, F0, aperiodicidady duraciones) se entrenan, de forma independiente perosíncrona [10], un conjunto de modelos dependientes delcontexto para cada estado. Éstos se estiman mediante elentrenamiento un árbol de decisión para cada componenteaplicando un criterio basado en la Minimum DescriptionLength (MDL).En la generación del árbol de decisión, se ha parti-do de un conjunto inicial de 2042 preguntas relacionadascon el contexto a nivel fonético (se han utilizado pentafo-nemas), de sílaba, de palabra o grupo fónico.El resultado es un conjunto de 63773 modelos para lacomponente espectral, logF0 y aperiódica y 17556 para elmodelado de duraciones. La Figura 3 muestra el conjuntode modelos entrenados.5.3. Generación de parámetros considerando su va-rianza globalLa generación de secuencias de parámetros se lleva acabo mediante el algoritmo introducido en [12]. Mediante— 117 —V Jornadas en Tecnología del Hablala relación entre las características estáticas y dinámicasse generan trayectorias suavizadas de parámetros.Habitualmente, este suavizado suele ser excesivo, ypara evitar esto se incorpora la varianza global de las ca-racterísticas como parámetro de optimización junto al dela probabilidad de la observación dada la secuencia de pa-rámetros. En [13] se describe en detalle la consideraciónde la varianza global en la generación de trayectorias.5.4. Síntesis de vozA la hora de sintetizar la señal de voz es necesario es-timar la envolvente espectral. Dicha envolvente se aproxi-ma mediante un filtro MLSA (Mel Log Spectrum Appro-ximation), con el fin de reducir el coste computacional,estimado a partir de los coeficientes mel-cepstrum. La sín-tesis se realiza periodo a periodo como la convolución deuna fuente de excitación mixta y dicho filtro MLSA [5].6. CONCLUSIONESEste trabajo describe la implementación de una vozsintética en castellano basada en HSMM para la Evalua-ción Albayzín 2008: Conversión Texto a Voz. Se han im-plementado voces basadas en las dos técnicas actuales quecompiten en síntesis de voz, selección de unidades y sínte-sis basada en HSMM. Dichas voces se han implementadousando Multisyn de Festival y HTS 2.1 respectivamente.Se ha realizado una evaluación limitada para decidir elmejor sistema para la competición, y finalmente se handescrito las características principales de cada uno de susmódulos. Una demostración de ambos sistemas se puedeencontrar on-line en [14].7. AGRADECIMIENTOSLos autores agradecen a los miembros de CSTR yGTH su colaboración en la preparación de este trabajo.8. BIBLIOGRAFÍA[1] Antonio Bonafonte y Asuncion Moreno, “Docu-mentation of the upc_esma spanish database,” TALPResearch Center, Universitat Politecnica de Cata-lunya, Barcelona, pp. 2781–2784, 2008.[2] Paul Taylor, Alan W Black, y Richard Caley, “Thearchitecture of the festival speech synthesis system,”in In The Third ESCA Workshop in Speech Synthesis,1998, pp. 147–151.[3] Robert A. J. Clark, Korin Richmond, y Simon King,“Multisyn: Open-domain unit selection for the festi-val speech synthesis system,” Speech Communica-tion, vol. 49, no. 4, pp. 317–330, 2007.[4] The HTS working group, “Hmm-based speech synt-hesis system (hts). http://hts.sp.nitech.ac.jp,” Últimoacceso: septiembre de 2008.[5] H. Zen, T. Toda, M.Ñakamura, y K. Tokuda, “De-tails of nitech hmm-based speech synthesis systemfor the blizzard challenge 2005,” IEICE Trans. Inf.& Syst, vol. E90-D, no. 1, pp. 325–333, January2007.[6] Hideki Kawahara, Haruhiro Katayose, Alainde Cheveign´e, y Roy D. Patterson, “Fixed pointanalysis of frequency to instantaneous frequencymapping for accurate estimation of f0 and perio-dicity,” In Proc. of Eurospeech, pp. 2781–2784,1999.[7] Hideki Kawahara, Jo Still, y Osama Fujimura, “Ape-riodicity extraction and control using mixed modeexcitation and group delay manipulation for a highquality speech analysis, modification and syntesissystem straight,” Proc MAVEBA, pp. 13–15, Sep-tember 2001.[8] K. Tokuda, T. Masuko, N. Miyazaki, y T. Kobayas-hi, “Multi-space probability distribution hmm,” IEI-CE Trans. Inf. & Syst., vol. E85-D, no. 3, pp. 455–464, March 2002.[9] H. Zen, K. Tokuda, T. Masuko, T. Kobayashi, yT. Kitamura, “Hidden semi-markov model basedspeech synthesis,” In Proc. of ICSLP, vol. II, pp.1397–1400, October 2004.[10] T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi,y T. Kitamura, “Simultaneous modeling of spec-trum, pitch and duration in hmm-based speech synt-hesis,” In Proc. of Eurospeech, pp. 2347–2350, Sep-tember 1999.[11] Keiichi Tokuda, Heiga Zen, y Alan W. Black, “Anhmm-based speech synthesis system applied to en-glish,” Proc. of IEEE SSW, vol. E90-D, no. 5, pp.806–824, September 2002.[12] K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi,y T. Kitamura, “Speech parameter generation algo-rithms for hmm-based speech synthesis,” In Proc. ofICASSP, pp. 1315–1318, June 2000.[13] T. Toda y K. Tokuda, “A speech parameter genera-tion algorithm considering global variance for hmm-based speech synthesis,” IEICE Transactions, vol.E90-D, no. 5, pp. 806–824, May 2007.[14] R. Barra-Chicote et al., “Madrid-bsdm.http://lorien.die.upm.es/ barra/sintesis-albayzin08,”Último acceso: septiembre de 2008.— 118 —V Jornadas en Tecnología del Habla

Spanish

Edinburgh Research Archive

GENERACIÓN DE UNA VOZ SINTÉTICA EN CASTELLANO BASADA EN HSMM PARALA EVALUACIÓN ALBAYZÍN 2008: CONVERSIÓN TEXTO A VOZR. Barra-Chicote1, J. Yamagishi2, J. M. Montero1, S. King2, S. Lufti 1, J. Macias-Guarasa3Grupo de Tecnología del Habla, Universidad Politécnica de Madrid1,Center for Speech Technology Research, University of Edinburgh2,Universidad de Alcalá3RESUMENEste artículo describe el proceso de generación de una vozen castellano utilizando el corpus UPC ESMA de UPCproporcionado por la Evaluación Albayzín 2008: Conver-sión Texto a Voz. Se ha implementado una voz basadaen selección de unidades mediante el paquete Multisynde Festival y otra basada en Hidden Semi-Markov Mo-dels (HSMM) mediante HTS. Tras una breve evaluaciónde la calidad de ambas voces, se detallan las característi-cas principales de la voz basada en HSMM, sistema finalpresentado a la evaluación.1. INTRODUCCIÓNLa Evaluación Albayzín 2008: conversión texto a voztiene como objetivo la evaluación de las técnicas de sínte-sis actuales aplicadas al castellano, del mimo modo que lacompetición Blizzard Challenge para inglés y chino man-darín.Cada equipo participante debe proporcionar una vozgenerada a partir del corpus proporcionado en un plazode 7 semanas. Posteriormente deben sintetizar un conjun-to de ejemplos de test, que serán evaluados perceptual-mente, de forma conjunta con los del resto de equipos, entérminos de similaridad con la voz original, naturalidad einteligibilidad.2. CORPUSEl corpus UPC ESMA [1] proporcionado para la eva-luación del sistema consiste en las grabaciones de un con-junto de textos leídos con estilo neutro por parte de unalocutora profesional.El corpus proporciona 506 frases fonéticamente ba-lanceadas (30 minutos), 208 párrafos de longitud mediafonéticamente balanceados (30 minutos) y 62 párrafos li-terarios de mayor longitud (45 minutos).Además del audio, señal de voz y señal del laringógra-fo, se cuenta con el texto de referencia, la trascripción fo-nética y un diccionario con la información léxica. Con elEste trabajo ha sido parcialmente financiado por el M.E.C. ylos proyectos proyecto ROBONAUTA (DPI2007-66846-C02-02), EDE-CAN (TIN2005-08660-C04-04).corpus se proporciona la segmentación fonética y la mar-cación automática de pitch. Adicionalmente se dispone dela marcación manual de un subconjunto de la base de da-tos.3. ANÁLISIS LINGÜÍSTICOPara la realización del análisis lingüístico se han uti-lizado las herramientas proporcionadas por Festival [2].Se ha prescindido de la información proporcionada conla base de datos y se ha empleado un alfabeto propio, unsilabicador y un conversión grafema-alófono incorpora-dos a Festival. El alfabeto utilizado consta de 30 alófonostípicos en castellano, entre los que se incluye el silencio.Los módulos incorporados a Festival para llevar a ca-bo el análisis lingüístico son:Módulo de preproceso y normalización, que tratala pronunciación de nombres propios, acrónimos,números romanos y cifras.Módulo conversor grafema-alófono, que a partir dereglas fonéticas extrae la secuencia de alófonos deltexto.Módulo silabicador, que a partir de la trascripciónfonética y basándose en reglas, estima automática-mente la división en sílabas.Módulo acentuador, que determina, a partir de re-glas, las sílabas tónicas y átonas de la secuenciaalofónica.Módulo categorizador, que únicamente diferenciadel resto el conjunto de palabras función.A partir del análisis lingüístico se han extraído un con-junto de 65 características lingüísticas. Algunas de lasmás relevantes son:A nivel de alófono: Alófono anterior al predecesor,predecesor, actual, posterior, siguiente al posterior,y la posición del alófono actual en la sílaba.A nivel de sílaba: no de fonemas y acentuación dela sílaba anterior, actual y posterior; posición de la— 115 —V Jornadas en Tecnología del Hablasílaba dentro la palabra y del grupo fónico; y la vo-cal de la sílaba.A nivel de palabra: la categoría gramatical (POS)de la palabra anterior, actual y posterior; no de sí-labas de la palabra anterior, actual y posterior; po-sición dentro del grupo fónico desde el comienzo ydesde el final; y la posición del grupo fónico dentrode la frase.A nivel de grupo fónico: No de sílabas y de pala-bras del grupo fónico anterior, actual y posterior, ytipo de entonación final.A nivel de frase: No de sílabas, de palabras y degrupos fónicos.4. SELECCIÓN DE UNIDADES VERSUSSÍNTESIS HSMMEn este trabajo se ha implementado una voz basadaen selección de unidades y otra basada en Semi-ModelosOcultos de Markov (HSMM: Hidden Semi Markov Mo-dels); con el fin de evaluar la bondad de cada técnica apli-cada al corpus de la evaluación. Ambas voces han utiliza-do como módulo de preproceso el explicado en el aparta-do anterior.En el caso de la voz basada en selección de unidadesse ha utilizado el motor multisyn[3] de Festival. Durantela generación de esta voz se han encontrado un conjuntode problemas que han dado lugar a las siguientes limita-ciones:Se ha tenido que prescindir de los párrafos literariosen el entrenamiento de HMM para la segmentaciónautomática del corpus, usando únicamente las fra-ses y los párrafos fonéticamente balanceados.A pesar de normalizar la intensidad de los ficherosde audio, se comprobaron variaciones de intensidaden los ejemplos sintetizados.Dado el tamaño del corpus, no se dispone de la su-ficiente cobertura de contextos lingüísticos comopara modelar de forma implícita la parte prosódi-ca [3], afectando a la naturalidad de la voz.La voz basada en HSMM ha sido generada medianteHTS 2.1 [4]. Algunos de los aspectos que diferencian estavoz de la anterior y que a priori mejoran la calidad de lavoz (a falta de una evaluación exhaustiva) son:La segmentación fonética es un proceso implícitoen el entrenamiento de los HSMM. A diferencia dela segmentación con multisyn, en este caso se uti-liza información referente a la fuente de excitación(log F0 y componente aperiódica), un mayor nú-mero de coeficientes cepstrales y mayor número deestados.Figura 1. Evaluación de la calidad de la voz basada enselección de unidades y la basada en HSMM.Figura 2. Descripción del sistema (adaptada de [5]).El uso de un modelo paramétrico proporciona ma-yor robustez, evitando discontinuidades. A priori,esta técnica proporciona una voz más estable y unasíntesis más robusta para este volumen de datos deentrenamiento.Se ha realizado una breve evaluación de calidad de lasvoces con objeto de seleccionar la mejor de ambas pa-ra la evaluación. 5 oyentes han evaluado 10 textos selec-cionados del conjunto de ejemplos de test enviados porla organización de la evaluación, puntuando cada ejem-plo siguiendo la escala MOS. Los resultados mostradosen la gráfica 1, indican que la calidad de la voz basadaen HSMM (3,52) es mejor que la basada en selección deunidades (2,68).5. CONVERSIÓN DE TEXTO A VOZ BASADA ENHSMMEn esta sección se describen las características princi-pales del sistema empleado finalmente. Cada uno de losalgoritmos empleados se detalla exhaustivamente en [5] y[4]. La Figura 2 presenta un diagrama general del sistema.5.1. Modelo de producción de vozUno de los modelos de producción más extendidos esel conocido como vocoder. Este modelo consiste en mo-delar la voz humana como la convolución de un señal de— 116 —V Jornadas en Tecnología del Hablaexcitación con un filtro, el cual representa la informaciónasociada al tracto vocal.El uso de este modelo limita la calidad de la voz sinte-tizada, debido a que asume independencia entre la excita-ción y el filtro dado que simplifica la señal de excitacióna un tren de impulsos en los sonidos sonoros, y a ruidoen caso de los sonidos sordos. El resultado suele ser lapercepción de una voz robótica.Como solución a este problema, el sistema presentadoincorpora STRAIGHT [6], vocoder que mejora la calidadde la síntesis al aplicar un procedimiento adaptativo sobreF0 en la estimación de la envolvente espectral. De estaforma se consigue separar la envolvente espectral de lacomponente periódica de la señal. Adicionalmente, se es-timan medidas de aperiodicidad del espectro, basadas enla relación entre la zona de alta y de baja frecuencia dela envolvente espectral, las cuales representan la distribu-ción relativa de energía de cada componente aperiódica[7].En el proceso de síntesis, se utiliza un modelo de ex-citación mixta, basado en la suma de un tren de impulsoscon manipulación de la fase y un ruido gausiano. La pon-deración de ambas señales se realiza en el dominio de lafrecuencia mediante las medidas de aperiodicidad comen-tadas anteriormente.5.2. Entrenamiento de los modelos acústicosSe ha utilizado una frecuencia de muestreo de 16kHzy un análisis trama a trama con un enventanado de tipoBlackman de 25ms y un desplazamiento de ventana de5ms.Como ya se ha mencionado, en el sistema se han uti-lizado HSMMs para modelar la envolvente espectral, lainformación de aperiodicidad y el contorno de F0 (loga-ritmo de F0 realmente). Con el fin de que los modelossean entrenables, es necesario codificar la informaciónpara disminuir la dimensionalidad de las observaciones.Para ello, a partir de la envolvente espectral se estimanlos 40 primeros coeficientes cepstrales (global mel ceps-trum) y las medidas de aperiodicidad se promedian en 5subbandas de frecuencia.Se ha prescindido de la información de las marcas depitch proporcionadas con la base de datos. En nuestro sis-tema se ha buscado robustecer la estimación del contornode logaritmo de F0 mediante el empleo de tres tipos dealgoritmos de extracción de F0 a partir de la señal de voz.Finalmente, el contorno resultante es el promedio del re-sultado ofrecido por cada uno de los algoritmos por sepa-rado.Adicionalmente, se calculan la primera y segunda de-rivada de cada una de las componentes estáticas, forman-do así un vector de 138 componentes.En el caso de logF0 y sus derivadas se han modeladoutilizado distribuciones MSD (Multi Space Ditribution)[8], en las que las tramas sonoras se modelan medianteun distribución gausiana con una matriz de covarianzasFigura 3. HSMM dependientes del contexto (adaptadade [11]).diagonal, y las tramas sordas mediante una distribucióndiscreta.5.2.1. Empleo de HSMM y modelado de duracionesLos HSMM modelan la duración de cada estado deforma explícita mediante una función de distribución enlugar de utilizar las probabilidades de transición de losHMM convencionales, lo cual permite modelar el ritmode una forma más apropiada [9].En este caso se ha utilizado una función de distribu-ción gausiana multivariable de dimensión equivalente alnúmero de estados (5 en nuestro caso).5.2.2. Modelos dependientes del contextoCada fonema se modela como un HSMM de 5 estadosde izquierda a derecha. Para cada estado y cada una delas componentes del modelo (espectro, F0, aperiodicidady duraciones) se entrenan, de forma independiente perosíncrona [10], un conjunto de modelos dependientes delcontexto para cada estado. Éstos se estiman mediante elentrenamiento un árbol de decisión para cada componenteaplicando un criterio basado en la Minimum DescriptionLength (MDL).En la generación del árbol de decisión, se ha parti-do de un conjunto inicial de 2042 preguntas relacionadascon el contexto a nivel fonético (se han utilizado pentafo-nemas), de sílaba, de palabra o grupo fónico.El resultado es un conjunto de 63773 modelos para lacomponente espectral, logF0 y aperiódica y 17556 para elmodelado de duraciones. La Figura 3 muestra el conjuntode modelos entrenados.5.3. Generación de parámetros considerando su va-rianza globalLa generación de secuencias de parámetros se lleva acabo mediante el algoritmo introducido en [12]. Mediante— 117 —V Jornadas en Tecnología del Hablala relación entre las características estáticas y dinámicasse generan trayectorias suavizadas de parámetros.Habitualmente, este suavizado suele ser excesivo, ypara evitar esto se incorpora la varianza global de las ca-racterísticas como parámetro de optimización junto al dela probabilidad de la observación dada la secuencia de pa-rámetros. En [13] se describe en detalle la consideraciónde la varianza global en la generación de trayectorias.5.4. Síntesis de vozA la hora de sintetizar la señal de voz es necesario es-timar la envolvente espectral. Dicha envolvente se aproxi-ma mediante un filtro MLSA (Mel Log Spectrum Appro-ximation), con el fin de reducir el coste computacional,estimado a partir de los coeficientes mel-cepstrum. La sín-tesis se realiza periodo a periodo como la convolución deuna fuente de excitación mixta y dicho filtro MLSA [5].6. CONCLUSIONESEste trabajo describe la implementación de una vozsintética en castellano basada en HSMM para la Evalua-ción Albayzín 2008: Conversión Texto a Voz. Se han im-plementado voces basadas en las dos técnicas actuales quecompiten en síntesis de voz, selección de unidades y sínte-sis basada en HSMM. Dichas voces se han implementadousando Multisyn de Festival y HTS 2.1 respectivamente.Se ha realizado una evaluación limitada para decidir elmejor sistema para la competición, y finalmente se handescrito las características principales de cada uno de susmódulos. Una demostración de ambos sistemas se puedeencontrar on-line en [14].7. AGRADECIMIENTOSLos autores agradecen a los miembros de CSTR yGTH su colaboración en la preparación de este trabajo.8. BIBLIOGRAFÍA[1] Antonio Bonafonte y Asuncion Moreno, “Docu-mentation of the upc_esma spanish database,” TALPResearch Center, Universitat Politecnica de Cata-lunya, Barcelona, pp. 2781–2784, 2008.[2] Paul Taylor, Alan W Black, y Richard Caley, “Thearchitecture of the festival speech synthesis system,”in In The Third ESCA Workshop in Speech Synthesis,1998, pp. 147–151.[3] Robert A. J. Clark, Korin Richmond, y Simon King,“Multisyn: Open-domain unit selection for the festi-val speech synthesis system,” Speech Communica-tion, vol. 49, no. 4, pp. 317–330, 2007.[4] The HTS working group, “Hmm-based speech synt-hesis system (hts). http://hts.sp.nitech.ac.jp,” Últimoacceso: septiembre de 2008.[5] H. Zen, T. Toda, M.Ñakamura, y K. Tokuda, “De-tails of nitech hmm-based speech synthesis systemfor the blizzard challenge 2005,” IEICE Trans. Inf.& Syst, vol. E90-D, no. 1, pp. 325–333, January2007.[6] Hideki Kawahara, Haruhiro Katayose, Alainde Cheveign´e, y Roy D. Patterson, “Fixed pointanalysis of frequency to instantaneous frequencymapping for accurate estimation of f0 and perio-dicity,” In Proc. of Eurospeech, pp. 2781–2784,1999.[7] Hideki Kawahara, Jo Still, y Osama Fujimura, “Ape-riodicity extraction and control using mixed modeexcitation and group delay manipulation for a highquality speech analysis, modification and syntesissystem straight,” Proc MAVEBA, pp. 13–15, Sep-tember 2001.[8] K. Tokuda, T. Masuko, N. Miyazaki, y T. Kobayas-hi, “Multi-space probability distribution hmm,” IEI-CE Trans. Inf. & Syst., vol. E85-D, no. 3, pp. 455–464, March 2002.[9] H. Zen, K. Tokuda, T. Masuko, T. Kobayashi, yT. Kitamura, “Hidden semi-markov model basedspeech synthesis,” In Proc. of ICSLP, vol. II, pp.1397–1400, October 2004.[10] T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi,y T. Kitamura, “Simultaneous modeling of spec-trum, pitch and duration in hmm-based speech synt-hesis,” In Proc. of Eurospeech, pp. 2347–2350, Sep-tember 1999.[11] Keiichi Tokuda, Heiga Zen, y Alan W. Black, “Anhmm-based speech synthesis system applied to en-glish,” Proc. of IEEE SSW, vol. E90-D, no. 5, pp.806–824, September 2002.[12] K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi,y T. Kitamura, “Speech parameter generation algo-rithms for hmm-based speech synthesis,” In Proc. ofICASSP, pp. 1315–1318, June 2000.[13] T. Toda y K. Tokuda, “A speech parameter genera-tion algorithm considering global variance for hmm-based speech synthesis,” IEICE Transactions, vol.E90-D, no. 5, pp. 806–824, May 2007.[14] R. Barra-Chicote et al., “Madrid-bsdm.http://lorien.die.upm.es/ barra/sintesis-albayzin08,”Último acceso: septiembre de 2008.— 118 —V Jornadas en Tecnología del Habla

Generacion de una voz sintetica en Castellano basada en HSMM para la Evaluacion Albayzin 2008: conversion texto a voz

https://era.ed.ac.uk/bitstream/1842/3897/1/tts-jth08.pdf

Generacion de una voz sintetica en Castellano basada en HSMM para la Evaluacion Albayzin 2008: conversion texto a voz

Abstract

Similar works

Full text

Available Versions

Edinburgh Research Explorer

Edinburgh Research Archive