Search CORE

8 research outputs found

Unified solver for fluid dynamics and aeroacoustics in isentropic gas flows

Author: Baiges Aznar Joan
Codina Ramon
Guasch Fortuny Oriol
Pont Ribas Arnau
Publication venue: 'Elsevier BV'
Publication date: 01/01/2018
Field of study

The high computational cost of solving numerically the fully compressible Navier–Stokes equations, together with the poor performance of most numerical formulations for compressible flow in the low Mach number regime, has led to the necessity for more affordable numerical models for Computational Aeroacoustics. For low Mach number subsonic flows with neither shocks nor thermal coupling, both flow dynamics and wave propagation can be considered isentropic. Therefore, a joint isentropic formulation for flow and aeroacoustics can be devised which avoids the need for segregating flow and acoustic scales. Under these assumptions density and pressure fluctuations are directly proportional, and a two field velocity-pressure compressible formulation can be derived as an extension of an incompressible solver. Moreover, the linear system of equations which arises from the proposed isentropic formulation is better conditioned than the homologous incompressible one due to the presence of a pressure time derivative. Similarly to other compressible formulations the prescription of boundary conditions will have to deal with the backscattering of acoustic waves. In this sense, a separated imposition of boundary conditions for flow and acoustic scales which allows the evacuation of waves through Dirichlet boundaries without using any tailored damping model will be presented.Peer ReviewedPostprint (author's final draft

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Models and Analysis of Vocal Emissions for Biomedical Applications

Author
Publication venue: 'Firenze University Press'
Publication date: 31/05/2022
Field of study

The Models and Analysis of Vocal Emissions with Biomedical Applications (MAVEBA) workshop came into being in 1999 from the particularly felt need of sharing know-how, objectives and results between areas that until then seemed quite distinct such as bioengineering, medicine and singing. MAVEBA deals with all aspects concerning the study of the human voice with applications ranging from the neonate to the adult and elderly. Over the years the initial issues have grown and spread also in other aspects of research such as occupational voice disorders, neurology, rehabilitation, image and video analysis. MAVEBA takes place every two years always in Firenze, Italy

Directory of Open Access Books (DOAB)

The CIMNE model for generating knowledge on computational engineering and its transfer to society

Author: Oñate Ibáñez de Navarra Eugenio
Publication venue
Publication date: 01/01/2017
Field of study

We present an overview of the model implemented by the International Centre for Numerical Methods in Engineering (CIMNE, www.cimne.com ) for the generation of scientific and technical knowledge on computational engineering, understood in the broad sense, the subsequent generation of product resulting from the research activities and the transfer of these products to society for their exploitation in the industrial sector. We present examples of application of the CIMNE model to a number of academic, scientific and industry activities of CIMNE .Preprin

UPCommons. Portal del coneixement obert de la UPC

Wave propagation problems with aeroacoustic applications

Author: Espinoza Román Héctor Gabriel
Publication venue: Universitat Politècnica de Catalunya
Publication date: 01/01/2015
Field of study

The present work is a compilation of the research produced in the field of wave propagation modeling. It contains in-depth analysis of stability, convergence, dispersion and dissipation of spatial, temporal and spatial-temporal discretization schemes. Space discretization is done using stabilized finite element methods denoted with the acronyms ASGS and OSS. Time discretization is done using finite difference methods including backward Euler (BE), 2nd order backward differentiation formula (BDF2) and Crank-Nicolson (CN). Firstly, we propose two stabilized finite element methods for different functional frameworks of the wave equation in mixed form. These stabilized finite element methods are stable for any pair of interpolation spaces of the unknowns. The variational forms corresponding to different functional settings are treated in an unified manner through the introduction of length scales related to the unknowns. Stability and convergence analysis is performed together with numerical experiments. It is shown that modifying the length scales allows one to mimic at the discrete level the different functional settings of the continuous problem and influence the stability and accuracy of the resulting methods. Then, we develop numerical approximations of the wave equation in mixed form supplemented with non-reflecting boundary conditions (NRBCs) of Sommerfeld-type on artificial boundaries for truncated domains. We consider three different variational forms for this problem, depending on the functional space for the solution, in particular, in what refers to the regularity required on artificial boundaries. Then, stabilized finite element methods that can mimic these three functional settings are described. Stability and convergence analyses of these stabilized formulations including the NRBC are presented. Additionally, numerical convergence test are evaluated for various polynomial interpolations, stabilization methods and variational forms. Finally, several benchmark problems are solved to determine the accuracy of these methods in 2D and 3D. Afterwards, we analyze time marching schemes for the wave equation in mixed form. The problem is discretized in space using stabilized finite elements. On the one hand, stability and convergence analyses of the fully discrete numerical schemes are presented. On the other hand, we use Fourier techniques (also known as von Neumann analysis) in order to analyze stability, dispersion and dissipation. Additionally, numerical convergence tests are presented for various time integration schemes, polynomial interpolations (for the spatial discretization), stabilization methods, and variational forms. Finally, a 1D example is solved to analyze the behavior of the different schemes considered. Later, we present various application examples and compare the numerical results of the different algorithms i.e. ASGS or OSS stabilization and BE, BDF2 or CN time marching schemes. Additionally, comparison with experiments is performed in some cases. Finally, conclusions are drawn including the research achievements and future work.El presente trabajo es una compilación de la investigación producida en el campo de modelado de propagación de ondas. Contiene análisis de estabilidad, convergencia, dispersión y disipación de discretizaciones espaciales, temporales y espacio-temporales. La discretización espacial se hace usando elementos finitos estabilizados denotados por los acrónimos ASGS y OSS. La discretización temporal se hace usando métodos de diferencias finitas incluyendo backward Euler (BE), backward differentiation formula de 2do orden (BDF2) y Crank-Nicolson (CN). En primer lugar, proponemos dos métodos de elementos finitos estabilizados para diferentes marcos funcionales de la ecuación de ondas en forma mixta. Estos métodos de elementos finitos estabilizados son estables para cualquier par de espacios de interpolación de las incógnitas. Las formas variacionales que corresponden a los diferentes marcos funcionales son tratadas de manera unificada a través de la introducción de longitudes de escalado relacionadas a las incógnitas. Estabilidad y convergencia son analizadas junto con experimentos numéricos. Se muestra como modificando las longitudes de escalado se puede reproducir a nivel discreto los diferentes marcos funcionales del problema continuo y como influencian la estabilidad y precisión de los métodos resultantes. Luego, desarrollamos aproximaciones numéricas de la ecuación de ondas en forma mixta complementadas con condiciones de frontera de no-reflexión (NRBCs) de tipo Sommerfeld sobre fronteras artificiales para dominios truncados. Análisis de estabilidad y convergencia de estas formulaciones estabilizadas incluyendo la NRBC son presentados. Adicionalmente, pruebas de convergencia son llevadas a cabo para varias interpolaciones polinomiales, métodos de estabilización y formas variacionales. Finalmente, varios problemas de referencia son resueltos para determinar la precisión de estos métodos en 2D y 3D. Después, analizamos esquemas de discretización temporal para la ecuación de ondas en forma mixta. El problema es discretizado en el espacio utilizando elementos finitos estabilizados. Por un lado, análisis de convergencia y estabilidad de los esquemas numéricos totalmente discretos son presentados. Por otro lado, usamos técnicas de Fourier (también conocidas como análisis de von Neumann) con el fin de analizar estabilidad, dispersión y disipación. Adicionalmente, pruebas numéricas de convergencia son presentadas para varios esquemas de integración temporal, interpolaciones polinomiales (para la discretización espacial), métodos de estabilización y formas variacionales. Finalmente, un ejemplo 1D es resuelto para analizar el comportamiento de los diferentes esquemas numéricos considerados. Más tarde, presentamos varios ejemplos de aplicación y comparamos los resultados numéricos de los diferentes algoritmos. Por ejemplo estabilización ASGS/OSS y esquemas de integración temporal BD/BDF2/CN. Adicionalmente, se compara los resultados numéricos con resultados experimentales en algunos casos. Por último, las conclusiones son presentadas incluyendo los logros obtenidos en esta investigación y el trabajo futuro

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Tesis Doctorals en Xarxa

Adding expressiveness to unit selection speech synthesis and to numerical voice production

Author: Freixes Guerreiro Marc
Publication venue: Blanquerna - Universitat Ramon Llull
Publication date: 18/06/2021
Field of study

La parla és una de les formes de comunicació més naturals i directes entre éssers humans, ja que codifica un missatge i també claus paralingüístiques sobre l’estat emocional del locutor, el to o la seva intenció, esdevenint així fonamental en la consecució d’una interacció humà-màquina (HCI) més natural. En aquest context, la generació de parla expressiva pel canal de sortida d’HCI és un element clau en el desenvolupament de tecnologies assistencials o assistents personals entre altres aplicacions. La parla sintètica pot ser generada a partir de parla enregistrada utilitzant mètodes basats en corpus com la selecció d’unitats (US), que poden aconseguir resultats d’alta qualitat però d’expressivitat restringida a la pròpia del corpus. A fi de millorar la qualitat de la sortida de la síntesi, la tendència actual és construir bases de dades de veu cada cop més grans, seguint especialment l’aproximació de síntesi anomenada End-to-End basada en tècniques d’aprenentatge profund. Tanmateix, enregistrar corpus ad-hoc per cada estil expressiu desitjat pot ser extremadament costós o fins i tot inviable si el locutor no és capaç de realitzar adequadament els estils requerits per a una aplicació donada (ex: cant en el domini de la narració de contes). Alternativament, nous mètodes basats en la física de la producció de veu s’han desenvolupat a la darrera dècada gràcies a l’increment en la potència computacional. Per exemple, vocals o diftongs poden ser obtinguts utilitzant el mètode d’elements finits (FEM) per simular la propagació d’ones acústiques a través d’una geometria 3D realista del tracte vocal obtinguda a partir de ressonàncies magnètiques (MRI). Tanmateix, atès que els principals esforços en aquests mètodes de producció numèrica de veu s’han focalitzat en la millora del modelat del procés de generació de veu, fins ara s’ha prestat poca atenció a la seva expressivitat. A més, la col·lecció de dades per aquestes simulacions és molt costosa, a més de requerir un llarg postprocessament manual com el necessari per extreure geometries 3D del tracte vocal a partir de MRI. L’objectiu de la tesi és afegir expressivitat en un sistema que genera veu neutra, sense haver d’adquirir dades expressives del locutor original. Per un costat, s’afegeixen capacitats expressives a un sistema de conversió de text a parla basat en selecció d’unitats (US-TTS) dotat d’un corpus de veu neutra, per adreçar necessitats específiques i concretes en l’àmbit de la narració de contes, com són la veu cantada o situacions de suspens. A tal efecte, la veu és parametritzada utilitzant un model harmònic i transformada a l’estil expressiu desitjat d’acord amb un sistema expert. Es presenta una primera aproximació, centrada en la síntesi de suspens creixent per a la narració de contes, i es demostra la seva viabilitat pel que fa a naturalitat i qualitat de narració de contes. També s’afegeixen capacitats de cant al sistema US-TTS mitjançant la integració de mòduls de transformació de parla a veu cantada en el pipeline del TTS, i la incorporació d’un mòdul de generació de prosòdia expressiva que permet al mòdul de US seleccionar unitats més properes a la prosòdia cantada obtinguda a partir de la partitura d’entrada. Això resulta en un framework de síntesi de conversió de text a parla i veu cantada basat en selecció d’unitats (US-TTS&S) que pot generar veu parlada i cantada a partir d'un petit corpus de veu neutra (~2.6h). D’acord amb els resultats objectius, l’estratègia de US guiada per la partitura permet reduir els factors de modificació de pitch requerits per produir veu cantada a partir de les unitats de veu parlada seleccionades, però en canvi té una efectivitat limitada amb els factors de modificació de les durades degut a la curta durada de les vocals parlades neutres. Els resultats dels tests perceptius mostren que tot i òbviament obtenir una naturalitat inferior a la oferta per un sintetitzador professional de veu cantada, el framework pot adreçar necessitats puntuals de veu cantada per a la síntesis de narració de contes amb una qualitat raonable. La incorporació d’expressivitat s’investiga també en la simulació numèrica 3D de vocals basada en FEM mitjançant modificacions de les senyals d’excitació glotal utilitzant una aproximació font-filtre de producció de veu. Aquestes senyals es generen utilitzant un model Liljencrants-Fant (LF) controlat amb el paràmetre de forma del pols Rd, que permet explorar el continu de fonació lax-tens a més del rang de freqüències fonamentals, F0, de la veu parlada. S’analitza la contribució de la font glotal als modes d’alt ordre en la síntesis FEM de les vocals cardinals [a], [i] i [u] mitjançant la comparació dels valors d’energia d’alta freqüència (HFE) obtinguts amb geometries realistes i simplificades del tracte vocal. Les simulacions indiquen que els modes d’alt ordre es preveuen perceptivament rellevants d’acord amb valors de referència de la literatura, particularment per a fonacions tenses i/o F0s altes. En canvi, per a vocals amb una fonació laxa i/o F0s baixes els nivells d’HFE poden resultar inaudibles, especialment si no hi ha soroll d’aspiració en la font glotal. Després d’aquest estudi preliminar, s’han analitzat les característiques d’excitació de vocals alegres i agressives d’un corpus paral·lel de veu en castellà amb l’objectiu d’incorporar aquests estils expressius de veu tensa en la simulació numèrica de veu. Per a tal efecte, s’ha usat el vocoder GlottDNN per analitzar variacions d’F0 i pendent espectral relacionades amb l’excitació glotal en vocals [a]. Aquestes variacions es mapegen mitjançant la comparació amb vocals sintètiques en valors d’F0 i Rd per simular vocals que s’assemblin als estils alegre i agressiu. Els resultats mostren que és necessari incrementar l’F0 i disminuir l’Rd respecte la veu neutra, amb variacions majors per a alegre que per agressiu, especialment per a vocals accentuades. Els resultats aconseguits en les investigacions realitzades validen la possibilitat d’afegir expressivitat a la síntesi basada en corpus US-TTS i a la simulació numèrica de veu basada en FEM. Tanmateix, encara hi ha marge de millora. Per exemple, l’estratègia aplicada a la producció numèrica de veu es podria millorar estudiant i desenvolupant mètodes de filtratge invers així com incorporant modificacions del tracte vocal, mentre que el framework US-TTS&S es podria beneficiar dels avenços en tècniques de transformació de veu incloent transformacions de la qualitat de veu, aprofitant l’experiència adquirida en la simulació numèrica de vocals expressives.El habla es una de las formas de comunicación más naturales y directas entre seres humanos, ya que codifica un mensaje y también claves paralingüísticas sobre el estado emocional del locutor, el tono o su intención, convirtiéndose así en fundamental en la consecución de una interacción humano-máquina (HCI) más natural. En este contexto, la generación de habla expresiva para el canal de salida de HCI es un elemento clave en el desarrollo de tecnologías asistenciales o asistentes personales entre otras aplicaciones. El habla sintética puede ser generada a partir de habla gravada utilizando métodos basados en corpus como la selección de unidades (US), que pueden conseguir resultados de alta calidad, pero de expresividad restringida a la propia del corpus. A fin de mejorar la calidad de la salida de la síntesis, la tendencia actual es construir bases de datos de voz cada vez más grandes, siguiendo especialmente la aproximación de síntesis llamada End-to-End basada en técnicas de aprendizaje profundo. Sin embargo, gravar corpus ad-hoc para cada estilo expresivo deseado puede ser extremadamente costoso o incluso inviable si el locutor no es capaz de realizar adecuadamente los estilos requeridos para una aplicación dada (ej: canto en el dominio de la narración de cuentos). Alternativamente, nuevos métodos basados en la física de la producción de voz se han desarrollado en la última década gracias al incremento en la potencia computacional. Por ejemplo, vocales o diptongos pueden ser obtenidos utilizando el método de elementos finitos (FEM) para simular la propagación de ondas acústicas a través de una geometría 3D realista del tracto vocal obtenida a partir de resonancias magnéticas (MRI). Sin embargo, dado que los principales esfuerzos en estos métodos de producción numérica de voz se han focalizado en la mejora del modelado del proceso de generación de voz, hasta ahora se ha prestado poca atención a su expresividad. Además, la colección de datos para estas simulaciones es muy costosa, además de requerir un largo postproceso manual como el necesario para extraer geometrías 3D del tracto vocal a partir de MRI. El objetivo de la tesis es añadir expresividad en un sistema que genera voz neutra, sin tener que adquirir datos expresivos del locutor original. Per un lado, se añaden capacidades expresivas a un sistema de conversión de texto a habla basado en selección de unidades (US-TTS) dotado de un corpus de voz neutra, para abordar necesidades específicas y concretas en el ámbito de la narración de cuentos, como son la voz cantada o situaciones de suspense. Para ello, la voz se parametriza utilizando un modelo harmónico y se transforma al estilo expresivo deseado de acuerdo con un sistema experto. Se presenta una primera aproximación, centrada en la síntesis de suspense creciente para la narración de cuentos, y se demuestra su viabilidad en cuanto a naturalidad y calidad de narración de cuentos. También se añaden capacidades de canto al sistema US-TTS mediante la integración de módulos de transformación de habla a voz cantada en el pipeline del TTS, y la incorporación de un módulo de generación de prosodia expresiva que permite al módulo de US seleccionar unidades más cercanas a la prosodia cantada obtenida a partir de la partitura de entrada. Esto resulta en un framework de síntesis de conversión de texto a habla y voz cantada basado en selección de unidades (US-TTS&S) que puede generar voz hablada y cantada a partir del mismo pequeño corpus de voz neutra (~2.6h). De acuerdo con los resultados objetivos, la estrategia de US guiada por la partitura permite reducir los factores de modificación de pitch requeridos para producir voz cantada a partir de las unidades de voz hablada seleccionadas, pero en cambio tiene una efectividad limitada con los factores de modificación de duraciones debido a la corta duración de las vocales habladas neutras. Los resultados de las pruebas perceptivas muestran que, a pesar de obtener una naturalidad obviamente inferior a la ofrecida por un sintetizador profesional de voz cantada, el framework puede abordar necesidades puntuales de voz cantada para la síntesis de narración de cuentos con una calidad razonable. La incorporación de expresividad se investiga también en la simulación numérica 3D de vocales basada en FEM mediante modificaciones en las señales de excitación glotal utilizando una aproximación fuente-filtro de producción de voz. Estas señales se generan utilizando un modelo Liljencrants-Fant (LF) controlado con el parámetro de forma del pulso Rd, que permite explorar el continuo de fonación laxo-tenso además del rango de frecuencias fundamentales, F0, de la voz hablada. Se analiza la contribución de la fuente glotal a los modos de alto orden en la síntesis FEM de las vocales cardinales [a], [i] y [u] mediante la comparación de los valores de energía de alta frecuencia (HFE) obtenidos con geometrías realistas y simplificadas del tracto vocal. Las simulaciones indican que los modos de alto orden se prevén perceptivamente relevantes de acuerdo con valores de referencia de la literatura, particularmente para fonaciones tensas y/o F0s altas. En cambio, para vocales con una fonación laxa y/o F0s bajas los niveles de HFE pueden resultar inaudibles, especialmente si no hay ruido de aspiración en la fuente glotal. Después de este estudio preliminar, se han analizado las características de excitación de vocales alegres y agresivas de un corpus paralelo de voz en castellano con el objetivo de incorporar estos estilos expresivos de voz tensa en la simulación numérica de voz. Para ello, se ha usado el vocoder GlottDNN para analizar variaciones de F0 y pendiente espectral relacionadas con la excitación glotal en vocales [a]. Estas variaciones se mapean mediante la comparación con vocales sintéticas en valores de F0 y Rd para simular vocales que se asemejen a los estilos alegre y agresivo. Los resultados muestran que es necesario incrementar la F0 y disminuir la Rd respecto la voz neutra, con variaciones mayores para alegre que para agresivo, especialmente para vocales acentuadas. Los resultados conseguidos en las investigaciones realizadas validan la posibilidad de añadir expresividad a la síntesis basada en corpus US-TTS y a la simulación numérica de voz basada en FEM. Sin embargo, hay margen de mejora. Por ejemplo, la estrategia aplicada a la producción numérica de voz se podría mejorar estudiando y desarrollando métodos de filtrado inverso, así como incorporando modificaciones del tracto vocal, mientras que el framework US-TTS&S desarrollado se podría beneficiar de los avances en técnicas de transformación de voz incluyendo transformaciones de la calidad de la voz, aprovechando la experiencia adquirida en la simulación numérica de vocales expresivas.Speech is one of the most natural and direct forms of communication between human beings, as it codifies both a message and paralinguistic cues about the emotional state of the speaker, its mood, or its intention, thus becoming instrumental in pursuing a more natural Human Computer Interaction (HCI). In this context, the generation of expressive speech for the HCI output channel is a key element in the development of assistive technologies or personal assistants among other applications. Synthetic speech can be generated from recorded speech using corpus-based methods such as Unit-Selection (US), which can achieve high quality results but whose expressiveness is restricted to that available in the speech corpus. In order to improve the quality of the synthesis output, the current trend is to build ever larger speech databases, especially following the so-called End-to-End synthesis approach based on deep learning techniques. However, recording ad-hoc corpora for each and every desired expressive style can be extremely costly, or even unfeasible if the speaker is unable to properly perform the styles required for a given application (e.g., singing in the storytelling domain). Alternatively, new methods based on the physics of voice production have been developed in the last decade thanks to the increase in computing power. For instance, vowels or diphthongs can be obtained using the Finite Element Method (FEM) to simulate the propagation of acoustic waves through a 3D realistic vocal tract geometry obtained from Magnetic Resonance Imaging (MRI). However, since the main efforts in these numerical voice production methods have been focused on improving the modelling of the voice generation process, little attention has been paid to its expressiveness up to now. Furthermore, the collection of data for such simulations is very costly, besides requiring manual time-consuming postprocessing like that needed to extract 3D vocal tract geometries from MRI. The aim of the thesis is to add expressiveness into a system that generates neutral voice, without having to acquire expressive data from the original speaker. One the one hand, expressive capabilities are added to a Unit-Selection Text-to-Speech (US-TTS) system fed with a neutral speech corpus, to address specific and timely needs in the storytelling domain, such as for singing or in suspenseful situations. To this end, speech is parameterised using a harmonic-based model and subsequently transformed to the target expressive style according to an expert system. A first approach dealing with the synthesis of storytelling increasing suspense shows the viability of the proposal in terms of naturalness and storytelling quality. Singing capabilities are also added to the US-TTS system through the integration of Speech-to-Singing (STS) transformation modules into the TTS pipeline, and by incorporating an expressive prosody generation module that allows the US to select units closer to the target singing prosody obtained from the input score. This results in a Unit Selection based Text-to-Speech-and-Singing (US-TTS&S) synthesis framework that can generate both speech and singing from the same neutral speech small corpus (~2.6 h). According to the objective results, the score-driven US strategy can reduce the pitch scaling factors required to produce singing from the selected spoken units, but its effectiveness is limited regarding the time-scale requirements due to the short duration of the spoken vowels. Results from the perceptual tests show that although the obtained naturalness is obviously far from that given by a professional singing synthesiser, the framework can address eventual singing needs for synthetic storytelling with a reasonable quality. The incorporation of expressiveness is also investigated in the 3D FEM-based numerical simulation of vowels through modifications of the glottal flow signals following a source-filter approach of voice production. These signals are generated using a Liljencrants-Fant (LF) model controlled with the glottal shape parameter Rd, which allows exploring the tense-lax continuum of phonation besides the spoken vocal range of fundamental frequency values, F0. The contribution of the glottal source to higher order modes in the FEM synthesis of cardinal vowels [a], [i] and [u] is analysed through the comparison of the High Frequency Energy (HFE) values obtained with realistic and simplified 3D geometries of the vocal tract. The simulations indicate that higher order modes are expected to be perceptually relevant according to reference values stated in the literature, particularly for tense phonations and/or high F0s. Conversely, vowels with a lax phonation and/or low F0s can result in inaudible HFE levels, especially if aspiration noise is not present in the glottal source. After this preliminary study, the excitation characteristics of happy and aggressive vowels from a Spanish parallel speech corpus are analysed with the aim of incorporating this tense voice expressive styles into the numerical production of voice. To that effect, the GlottDNN vocoder is used to analyse F0 and spectral tilt variations associated with the glottal excitation on vowels [a]. These variations are mapped through the comparison with synthetic vowels into F0 and Rd values to simulate vowels resembling happy and aggressive styles. Results show that it is necessary to increase F0 and decrease Rd with respect to neutral speech, with larger variations for happy than aggressive style, especially for the stressed [a] vowels. The results achieved in the conducted investigations validate the possibility of adding expressiveness to both corpus-based US-TTS synthesis and FEM-based numerical simulation of voice. Nevertheless, there is still room for improvement. For instance, the strategy applied to the numerical voice production could be improved by studying and developing inverse filtering approaches as well as incorporating modifications of the vocal tract, whereas the developed US-TTS&S framework could benefit from advances in voice transformation techniques including voice quality modifications, taking advantage of the experience gained in the numerical simulation of expressive vowels

Tesis Doctorals en Xarxa

Diphthong Synthesis using the Three-Dimensional Dynamic Digital Waveguide Mesh

Author: Gully Amelia J
Publication venue: University of York
Publication date: 01/09/2017
Field of study

The human voice is a complex and nuanced instrument, and despite many years of research, no system is yet capable of producing natural-sounding synthetic speech. This affects intelligibility for some groups of listeners, in applications such as automated announcements and screen readers. Furthermore, those who require a computer to speak - due to surgery or a degenerative disease - are limited to unnatural-sounding voices that lack expressive control and may not match the user's gender, age or accent. It is evident that natural, personalised and controllable synthetic speech systems are required. A three-dimensional digital waveguide model of the vocal tract, based on magnetic resonance imaging data, is proposed here in order to address these issues. The model uses a heterogeneous digital waveguide mesh method to represent the vocal tract airway and surrounding tissues, facilitating dynamic movement and hence speech output. The accuracy of the method is validated by comparison with audio recordings of natural speech, and perceptual tests are performed which confirm that the proposed model sounds significantly more natural than simpler digital waveguide mesh vocal tract models. Control of such a model is also considered, and a proof-of-concept study is presented using a deep neural network to control the parameters of a two-dimensional vocal tract model, resulting in intelligible speech output and paving the way for extension of the control system to the proposed three-dimensional vocal tract model. Future improvements to the system are also discussed in detail. This project considers both the naturalness and control issues associated with synthetic speech and therefore represents a significant step towards improved synthetic speech for use across society

White Rose E-theses Online

Numerical simulation of aeroacoustics using the variational multiscale method : application to the problem of human phonation

Author: Pont Ribas Arnau
Publication venue: Universitat Politècnica de Catalunya
Publication date: 01/01/2018
Field of study

The solution of the human phonation problem applying computational mechanics is covered by several research branches, such as Computational Fluid Dynamics (CFD), biomechanics or acoustics, among others. In the present thesis, the problem is approached from the Computational Aeroacoustics (CAA) point of view and the first main objective consists in developing numerical methods of general application that can take part in the solution of any scenario related to human phonation with a reasonable cost. In this sense, only the compressible Navier-Stokes equations can describe all flow and acoustic scales without any modeling, which is known as Direct Numerical Simulation (DNS), but its computational cost is usually unaffordable. Even in the case of a Large Eddy Simulation (LES), where the small scales are modeled, the cost can still be a handicap due to the complexity of the problem. This drawback gets worse in the low Mach regime due to the large disparity between flow velocity and sound speed, which leads to an ill-conditioning of the system of equations, specially for conservative schemes. At this point, it makes sense to move towards the incompressible flow approximation, bearing in mind the low velocities expected in human phonation problems. Incompressible flows do not yield any acoustics, for which a second problem containing the propagation of the sound sources needs to be modeled and solved. These are the so called hybrid methods, which allow a better conditioning of the problem by segregating flow and acoustic scales. Lighthill's analogy has been taken as starting point for the present work, but its restriction to free-field scenarios has motivated the extension of the method to arbitrary geometries and non-uniform flows. The first development in this direction consists in a splitting of Lighthill's analogy into a quadrupolar and dipolar component, which does not change the original problem but allows assessing the contribution of solid boundaries to the generation of sound. The second step consists in the development of a stabilized Finite Element (FEM) formulation for the Acoustic Perturbation Equations (APE) which account for non-uniform flows and perform a complete filtering of the acoustic scales. The final step assumes the compressible approach but omitting the energy equation and thus considering both flow and acoustic propagation as isentropic. In this case the solver is unified and hence a method for applying compatible boundary conditions for flow and acoustics has been developed. Moreover, the whole numerical framework has been extended to dynamic phonation cases, which require using an Arbitrary Lagrangian Eulerian (ALE) reference. Also, a novel remeshing strategy with conservative interpolation between meshes is presented. In the last chapter a challenging case in human phonation has been chosen for testing the developed computational framework: the fricative phoneme /s/. Unlike vowels, which are voiced sounds defined by a few characteristic frequencies, fricatives cannot be simulated as the propagation of a known analytic solution (glottal pulse) because the sound sources correspond to a wide range of turbulent scales. Therefore, a CFD calculation is mandatory in order to capture all relevant eddies behind the generation of sound. This problem is solved with an LES together with the Variational Multiscale (VMS) stabilization method as turbulence model, which is supplemented with several acoustic formulations when using incompressible flow. The analysis of the results focuses on the numerical representation of turbulence and the acoustic signal at the far-field, which has been compared to experimental recordings. Finally, the role of the upper incisors in the generation of the fricative sound has been evaluated. All simulations have been run with the parallel multiphysics FEM code FEMUSS, based on FORTRAN Object-Oriented-Programming land the OpenMPI parallel library.La solució del problema de la veu humana des de la mecànica computacional és objecte d'estudi per part de diverses disciplines, com per exemple la Dinàmica de Fluids Computacional (CFD), la biomecànica o l'acústica. En la present tesi s'encara el problema des de l'Aeroacústica Computacional (CAA) i el primer objectiu consisteix en desenvolupar mètodes numèrics d'aplicació general que puguin ser part de la solució, amb un cost computacional raonable, de qualsevol escenari relacionat amb la fonació humana. En aquest sentit, només les equacions de flux compressible de Navier-Stokes aconsegueixen descriure totes les escales alhora, tant les dinàmiques com les acústiques, sense recórrer a cap modelització, conegut com a Simulació Numèrica Directa (DNS), però el seu cost computacional és normalment inassumible. Fins i tot en el cas d'una Large Eddy Simulation (LES), on les escales petites són modelades, el cost pot resultar excessiu a causa de la complexitat del problema. Aquest fet encara és més accentuat en el règim de baix nombre de Mach donada la gran disparitat entre la velocitat del fluid i la del so i el conseqüent mal condicionament del sistema d'equacions, sobretot en esquemes conservatius. Per tant, tenint en compte les baixes velocitats de l'aire al tracte vocal, té sentit recórrer a l'aproximació de flux incompressible. Els fluids incompressibles no inclouen la part acústica, de manera que cal calcular un segon problema que descrigui la propagació de les fonts de so. Aquests són els anomenats mètodes híbrids, que permeten un millor condicionament del problema gràcies a la segregació de les escales acústiques de les dinàmiques. S'ha pres l'analogia de Lighthill com a punt de partida, però la seva restricció a casos en camp obert ha motivat l'extensió del mètode cap a geometries arbitràries i fluxos no uniformes. El primer desenvolupament en aquesta direcció consisteix en la divisió de l'analogia de Lighthill en una component quadrupolar i una altra de dipolar, fet que no altera el problema original però que permet analitzar la contribució de cossos sòlids en la generació de so. El segon pas consisteix en el desenvolupament d'una formulació estabilitzada en elements finits (FEM) de les Acoustic Perturbation Equations (APE), que incorporen la propagació en fluxos no uniformes i que realitzen un filtrat complet de les escales acústiques. El pas final assumeix la compressibilitat del fluid però omet l'equació d'energia, i per tant considera la dinàmica i l'acústica fenòmens isentròpics. En aquest cas el solver és unificat i per tant s'ha desenvolupat un mètode per imposar condicions de contorn compatibles entre ambdues escales del fluid. Finalment, les formulacions numèriques han estat adaptades a casos de fonació dinàmica mitjançant una referència Arbitrària Lagrangiana Euleriana (ALE). A més, es presenta una estratègia de remallat amb interpolació conservativa entre malles. En l'últim capítol es presenta un cas de fonació humana que suposa un repte per la seva complexitat i que ha servit per validar les formulacions numèriques presentades: la fricativa sorda /s/. A diferència de les vocals, que són sons sonors definits per unes poques freqüències característiques, les fricatives no poden ser simulades com la propagació d'una funció analítica coneguda (pols glotal) perquè les fonts de so corresponen a un rang ampli d'escales turbulents. Per tant és necessària una simulació CFD per tal de capturar-les. El problema se soluciona amb un model de turbulència LES amb el mètode d'estabilització Variational Multiscale. L'anàlisi se centra en la representació numèrica de la turbulència i en el senyal acústic al camp llunyà, tot comparant-lo amb dades experimentals. Finalment, s'avalua la contribució dels incisius superiors en la generació del so fricatiu sord /s/. Totes les simulacions han estat realitzades amb el codi FEM multi-físic en paral·lel FEMUSS, basat en programació orientada a objectes en FORTRAN i en OpenMPI

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Tesis Doctorals en Xarxa

Adaptive mesh simulations of compressible flows using stabilized formulations

Author: Bayona Roa Camilo Andrés
Publication venue: Universitat Politècnica de Catalunya
Publication date: 01/01/2017
Field of study

This thesis investigates numerical methods that approximate the solution of compressible flow equations. The first part of the thesis is committed to studying the Variational Multi-Scale (VMS) finite element approximation of several compressible flow equations. In particular, the one-dimensional Burgers equation in the Fourier space, and the compressible Navier-Stokes equations written in both conservative and primitive variables are considered. The approximations made for the VMS formulation are extensively researched; the design of the matrix of stabilization parameters, the definition of the space where the subscales live, the inclusion of the temporal derivatives of the subscales, and the non-linear tracking of the subscales are formulated. Also, the addition of local artificial diffusion in the form of shock capturing techniques is included. The accuracy of the formulations is studied for several regimes of the compressible flow, from aeroacoustic flows at low Mach numbers to supersonic shocks. The second part of the thesis is devoted to make the solution of the smallest fluctuating scales of the compressible flow affordable. To this end, a novel algorithm for

h-

refinement of computational physics meshes in a distributed parallel setting, together with the solution of some refinement test cases in supercomputers are presented. The definition of an explicit a-posteriori error estimator that can be used in the adaptive mesh refinement simulations of compressible flows is also developed; the proposed methodology employs the variational subscales as a local error estimate that drives the mesh refinement. The numerical methods proposed in this thesis are capable to describe the high-frequency fluctuations of compressible flows, especially, the ones corresponding to complex aeroacoustic applications. Precisely, the direct simulation of the fricative [s] sound inside a realistic geometry of the human vocal tract is achieved at the end of the thesis.Esta tesis investiga métodos numéricos que aproximan la solución de las ecuaciones de flujo compresible. La primera parte de la tesis está dedicada al estudio de la aproximación numérica del flujo compresible por medio del método multiescala variacional (VMS) en elementos finitos. En particular, se consideran la ecuación de Burgers unidimensional descrita en el espacio de Fourier y las ecuaciones de Navier-Stokes de flujo compresible escritas en variables conservativas y primitivas. Las aproximaciones hechas para plantear la formulación VMS son ampliamente investigadas; el diseño de la matriz de parámetros de estabilización, la definición del espacio donde viven las subescalas, la inclusión de las derivadas temporales de las subescalas y el seguimiento no lineal de las subescalas son particularidades de la formulación que se analizan para cada una de las ecuaciones consideradas. Además, se incluye la adición de difusión artificial local en forma de técnicas de captura de choque. La precisión de las formulaciones se estudia para varios regímenes del flujo compresible, desde flujos aeroacústicos a bajos números de Mach hasta choques supersónicos. La segunda parte de la tesis está dedicada a hacer asequible la solución de las escalas fluctuantes más pequeñas del flujo compresible. Con este fin, se presenta un algoritmo novedoso para el refinamiento

h

de las mallas de física computacional usadas en computación distribuida en paralelo. Además, se demuestra la solución en superordenadores de algunos casos de prueba del refinamiento de mallas. También se desarrolla la definición de un estimador de error explícito a posteriori que se puede usar en las simulaciones adaptativas de refinamiento de malla de flujos compresibles; la metodología propuesta emplea las subescalas variacionales como una estimación de error local que induce el refinamiento de la malla. Los métodos numéricos propuestos en esta tesis son capaces de describir las fluctuaciones de alta frecuencia de los flujos compresibles, especialmente los correspondientes a aplicaciones aeroacústicas complejas. Precisamente, la simulación directa del sonido consonántico fricativo [s] dentro de una geometría realista del tracto vocal humano se demuestra al final de la tesis

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Tesis Doctorals en Xarxa