5 research outputs found

    Multiband statistical learning for f\u3csub\u3e0\u3c/sub\u3e estimation in speech

    Get PDF
    We investigate a simple algorithm that combines multiband processing and least squares fits to estimate f0 contours in speech. The algorithm is untraditional in several respects: it makes no use of FFTs or autocorrelation at the pitch period; it updates the pitch incrementally on a sample-by-sample basis; it avoids peak picking and does not require interpolation in time or frequency to obtain high resolution estimates; and it works reliably, in real time, without the need for postprocessing to produce smooth contours. We show that a baseline implementation of the algorithm, though already quite accurate, is significantly improved by incorporating a model of statistical learning into its final stages. Model parameters are estimated from training data to minimize the likelihood of gross errors in f0 as well as errors in classifying voiced versus unvoiced speech. Experimental results on several databases confirm the benefits of statistical learning

    Conversi贸n de texto en habla multidominio basada en selecci贸n de unidades con ajuste subjetivo de pesos y marcado robusto de pitch

    Get PDF
    El prop貌sit final de la conversi贸 de text a parla (CTP) 茅s la generaci贸 de parla sint猫tica completament natural a partir d'un text d'entrada qualsevol. Hist貌ricament, s'han seguit dues estrat猫gies per a assolir aquest objectiu: la que prima la flexibilitat de la conversi贸 davant la qualitat de la s铆ntesi, donant lloc als sistemes de conversi贸 de text a parla de prop貌sit general (CTP-PG); i la que anteposa la naturalitat de la s铆ntesi a la generalitat de la CTP, coneguda com a conversi贸 de text a parla de domini restringit (CTP-DR). En l'actualitat, l'estrat猫gia m茅s utilitzada per a desenvolupar els sistemes de CTP 茅s la conversi贸 de text a parla basada en corpus o per selecci贸 d'unitats (CTP-SU). Tot i que la qualitat dels sistemes de CTP-SU 茅s bastant bona en general, encara existeixen q眉estions que continuen essent font d'investigaci贸. En aquesta tesi es presenten diverses aportacions en el context de la CTP-SU per a millorar, d'una banda, la naturalitat dels sistemes de CTP-PG i, per l'altra, la flexibilitat dels sistemes de CTP-DR. Per abordar la primera q眉esti贸, es presenta una t猫cnica que permet incorporar de forma eficient la percepci贸 humana al proc茅s de selecci贸 de les unitats del corpus de veu mitjan莽ant l'ajust subjectiu dels pesos de la funci贸 de cost que guia la selecci贸 de les unitats, controlant la fatiga i la consist猫ncia de l'usuari. Aix铆 mateix, es presenta un m猫tode per a millorar la fiabilitat del proc茅s d'etiquetatge autom脿tic del corpus de veu, concretament, de les marques de pitch ---q眉esti贸 fonamental en el context dels CTP basats en selecci贸 d'unitats. En quant al segon problema, i seguint l'estrat猫gia de CTP-DR, es presenta la conversi贸 de text a parla multidomini (CTP-MD), que persegueix aconseguir una qualitat sint猫tica equivalent a la dels sistemes de CTP-DR, augmentant la seva flexibilitat per considerar diferents dominis (estils de locuci贸, emocions, tem脿tiques, etc.) per a la s铆ntesi. En aquest context, 茅s necessari que el sistema de CTP-MD conegui, durant el proc茅s de conversi贸 de text a parla, quin domini o dominis s贸n els m茅s adequats per a poder sintetitzar el text d'entrada amb la major naturalitat possible. En aquest cas, el sistema de CTP-MD incorpora un m貌dul de classificaci贸 de textos a l'arquitectura cl脿ssica dels sistemes de CTP adaptat a les necessitats que planteja la CTP-MD. Finalment, totes les propostes descrites s'avaluen en termes objectius ---mitjan莽ant l'煤s de mesures cl脿ssiques juntament amb noves propostes--- i/o subjectius ---mitjan莽ant proves perceptives--- per a validar les millores aconseguides pels m猫todes desenvolupats en el context de la CTP-SU en el cam铆 cap al desenvolupament de nous sistemes de CTP d'alta qualitat y flexibilitat.El prop贸sito final de la conversi贸n de texto en habla (CTH) es la generaci贸n de habla sint茅tica completamente natural a partir de un texto de entrada cualquiera. Hist贸ricamente, se han seguido dos estrategias para lograr este objetivo: la que prima la flexibilidad de la conversi贸n ante la calidad de la s铆ntesis, dando lugar a los sistemas de conversi贸n de texto en habla de prop贸sito general (CTH-PG); y la que antepone la naturalidad de la s铆ntesis a la generalidad de la CTH, conocida como conversi贸n de texto en habla de dominio restringido (CTH-DR). En la actualidad, la estrategia m谩s utilizada para desarrollar los sistemas de CTH es la conversi贸n de texto en habla basada en corpus o por selecci贸n de unidades (CTH-SU). Aunque la calidad de los sistemas de CTH-SU es bastante buena en general, todav铆a existen elementos que contin煤an siendo fuente de investigaci贸n. En esta tesis se presentan distintas aportaciones en el contexto de la CTH-SU para mejorar, por un lado, la naturalidad de los sistemas de CTH-PG y, por otro, la flexibilidad de los sistemas de CTH-DR. Para abordar la primera cuesti贸n, se presenta una t茅cnica que permite incorporar de forma eficiente la percepci贸n humana al proceso de selecci贸n de las unidades del corpus de voz mediante el ajuste subjetivo de los pesos de la funci贸n de coste que gu铆a la selecci贸n de las unidades, controlando la fatiga y la consistencia del usuario. Asimismo, se presenta un m茅todo para mejorar la fiabilidad del proceso de etiquetado autom谩tico del corpus de voz, concretamente, de las marcas de pitch ---cuesti贸n fundamental en el contexto de los CTH basados en selecci贸n de unidades. En cuanto al segundo problema, y siguiendo la estrategia de CTH-DR, se presenta la conversi贸n de texto en habla multidominio (CTH-MD), que persigue conseguir una calidad sint茅tica equivalente a la de los sistemas de CTH-DR, aumentando su flexibilidad al considerar distintos dominios (estilos de locuci贸n, emociones, tem谩ticas, etc.) para la s铆ntesis. En este contexto, es necesario que el sistema de CTH-MD conozca, durante el proceso de conversi贸n de texto en habla, qu茅 dominio o dominios son los m谩s adecuados para poder sintetizar el texto de entrada con la mayor naturalidad posible. En este caso, el sistema de CTH-MD incorpora un m贸dulo de clasificaci贸n de textos a la arquitectura cl谩sica de los sistemas de CTH adaptado a las necesidades que plantea la CTH-MD. Finalmente, todas las propuestas descritas se eval煤an en t茅rminos objetivos ---mediante el uso de medidas cl谩sicas junto a nuevas propuestas--- y/o subjetivos ---mediante pruebas de percepci贸n--- para validar las mejoras conseguidas por los m茅todos desarrollados en el contexto de la CTH-SU en el camino hacia el desarrollo de nuevos sistemas de CTH de elevada calidad y flexibilidad.The final purpose of any Text-to-Speech (TTS) system is the generation of perfectly natural synthetic speech from any input text. Historically, two strategies have been followed in the quest for this goal: the general purpose TTS synthesis (GP-TTS), which strives the flexibility of the application at the expense of the achieved synthetic speech quality; and the limited domain TTS synthesis (LD-TTS), which prioritizes the development of high quality TTS systems by restricting the scope of the input text. At present, the most used strategy to develop TTS systems is the so called corpus-based text-to-speech or unit selection TTS (US-TTS) synthesis. Although the quality of US-TTS synthesis systems is quite good in general, there are still several open issues which are still being investigated. This PhD thesis introduces different contributions for US-TTS systems in order to improve, by one hand, the naturalness of GP-TTS systems, and by the other hand, the flexibility of LD-TTS systems. To deal with the former problem, a new technique for efficiently incorporating human perception in the unit selection process by means of subjective weight tuning is introduced, which also allows controlling user fatigue and user consistency. Moreover, a new method for improving the reliability of automatic speech corpus labelling is described, particularly, a generic pitch marks filtering algorithm is introduced ---an essential issue in corpus-based TTS systems. Moreover, the latter problem is addressed by multi-domain TTS (MD-TTS) synthesis, following the LD-TTS approach, which deals with achieving synthetic speech quality equivalent to that of LD-TTS systems, but improving TTS flexibility by considering different domains (speaking styles, emotions, topics, etc.) for conducting speech synthesis. In this context, the MD-TTS system needs to know, at run time, which domain or domains are the most suitable for synthesizing the input text with the highest synthetic speech quality. To that effect, the MD-TTS system incorporates a text classification module to classic TTS synthesis architecture adapted to the MD-TTS classification particularities. Finally, all the proposals are evaluated in terms of objective experiments ---by means of classic or new measures--- and/or subjective tests ---perceptual tests--- in order to validate the improvements achieved by the methods developed in the US-TTS framework, as a step further in our research towards developing high quality and flexible text-to-speech synthesis systems
    corecore