thesis

Binaural reproduction for Directional Audio Coding

Abstract

Ihminen kuulee äänen suunnan kolmessa ulottuvuudessa, mutta äänestä voi havaita myös muita tilaan liittyviä ominaisuuksia, kuten tilantuntu. Jotta tilaääni tulee toistetuksi oikein, äänilähteiden suunta sekä tilantuntu tulee toistaa realistisesti. Directional Audio Coding (DirAC) on eräs äskettäin esitetty menetelmä tilaäänen toistamiseen. Tällä hetkellä se on toteutettu kaiutinkuunteluun. Tässä diplomityössä tutkitaan, voitaisiinko DirAC-tekniikkaa käyttää kuulokekuuntelussa. DirAC-analyysissä äänen suunta ja diffuusisuus lasketaan käyttämällä B-formaattisignaaleja. Analyysi ja synteesi suoritetaan taajuuskaistoittain, jotka vastaavat kuulon kriittisiä kaistoja. DirAC-synteesissä ääni jaetaan ei-diffuusiin ja diffuusiin osaan. Ei-diffuusi ääni toistetaan amplitudipanoroinnilla. Kuuloketoistossa käytettiin virtuaalisia kaiuttimia, joiden avulla ääni sijoitetaan haluttuun suuntaan käyttämällä vector base amplitude panning -tekniikkaa (VBAP). Virtuaaliset kaiuttimet toteutettiin käyttämällä head related transfer function -tekniikkaa (HRTF). Diffuusin äänen tarkoituksena on luoda havainto äänestä, joka ympäröi kuulijan eikä sen suuntaa voi havaita. Tämä toteutettiin toistamalla eri tavalla dekorreloituja signaaleja muutamilla virtuaalisilla kaiuttimilla. Virtuaalisten kaiuttimien suunta valittiin siten, että niitä oli joka puolella kuuntelijaa. DirAC:in kuulokeversiota testattiin epäformaalisti. Havaittiin, että tilantuntu välittyy hyvin ja äänen suunta toistuu luonnollisesti. Suurin ongelma tässä tekniikassa on se, että äänilähteiden ei aina havaita olevan pään ulkopuolella, varsinkin edessä olevilla lähteillä. Työn osana toteutettiin myös HRTF-mittausjärjestelmä ja DirAC-tekniikkaan pohjautuva päänseurantajärjestelmä. HRTF-mittausjärjestelmällä mitattuja vasteita käytettiin virtuaalisten kaiuttimien luonnissa. Päänseurannan avulla voidaan binauraalisessa toistossa pitää äänilähteet paikallaan, vaikka kuuntelija liikuttaisi päätään.We can hear the directions of sound sources in three dimensions, but also we perceive other spatial attributes such as the auditory sense of space. In order to reproduce spatial sound correctly, the directions of sound sources must be reproduced accurately and also the perception of space must be reproduced realistically. One recently proposed method for spatial sound reproduction is Directional Audio Coding (DirAC). It is currently implemented for loudspeaker reproduction. In this thesis it is investigated if DirAC could be implemented for headphone listening. In DirAC analysis the direction and the diffuseness of sound are computed using B-format signals. The analysis and the synthesis are performed separately for each critical band of hearing. In DirAC synthesis sound is divided into nondiffuse and diffuse parts. The nondiffuse part is reproduced with amplitude panning. In headphone listening this was implemented by using virtual loudspeakers. Sound was positioned to the analyzed direction using vector base amplitude panning (VBAP). The virtual loudspeakers were created using head-related transfer functions (HRTF). The aim of the diffuse sound is to produce perception of surrounding sound lacking prominent direction. This was done by reproducing differently decorrelated versions of the signal with a few virtual loudspeakers. The directions of the virtual loudspeakers were chosen so that they covered the whole sphere around the listener. In informal testing of the headphone version of DirAC, it was found that the auditory sense of space is reproduced well, and the directions of sound sources are perceived naturally. The main problem with this technique is that especially frontal sound sources are not properly externalized. As a part of this work, a HRTF measurement system and a DirAC-based head tracking system were designed and constructed. HRTFs measured with the measurement system were used to create virtual loudspeakers. With head tracking in binaural reproduction, auditory objects can be positioned to a fixed direction even though a listener moves his/her head

    Similar works