115 research outputs found

    Spatial Acoustic Vector Based Sound Field Reproduction

    Get PDF
    Spatial sound field reproduction aims to recreate an immersive sound field over a spatial region. The existing sound pressure based approaches to spatial sound field reproduction focus on the accurate approximation of original sound pressure over space, which ignores the perceptual accuracy of the reproduced sound field. The acoustic vectors of particle velocity and sound intensity appear to be closely linked with human perception of sound localization in literature. Therefore, in this thesis, we explore the spatial distributions of the acoustic vectors, and seek to develop algorithms to perceptually reproduce the original sound field over a continuous spatial region based on the vectors. A theory of spatial acoustic vectors is first developed, where the spatial distributions of particle velocity and sound intensity are derived from sound pressure. To extract the desired sound pressure from a mixed sound field environment, a 3D sound field separation technique is also formulated. Based on this theory, a series of reproduction techniques are proposed to improve the perceptual performance. The outcomes resulting from this theory are: (i) derivation of a particle velocity assisted 3D sound field reproduction technique which allows for non-uniform loudspeaker geometry with a limited number of loudspeakers, (ii) design of particle velocity based mixed-source sound field translation technique for binaural reproduction that can provide sound field translation with good perceptual experience over a large space, (iii) derivation of an intensity matching technique that can reproduce the desired sound field in a spherical region by controlling the sound intensity on the surface of the region, and (iv) two intensity based multizone sound field reproduction algorithms that can reproduce the desired sound field over multiple spatial zones. Finally, these techniques are evaluated by comparing to the conventional approaches through numerical simulations and real-world experiments

    Modification of multichannel audio for non-standard loudspeaker configurations

    Get PDF
    Tämä diplomityö käsittelee monikanavaäänen analyysi- ja hajotelmamenetelmiä. Työn tavoitteena on pystyä muokkaamaan monikanavaäänityksiä uusille kaiutinkokoonpanoille siten, että äänen tilaominaisuudet säilyvät. Teoriataustana työssä ovat ihmiskuulon tilahavainnointiominaisuudet, äänisignaaleihin perustuvat samankaltaisuusmitat sekä suunta-arviot ja informaatioteknologian lähde-erottelumenetelmät. Työ käy läpi kirjallisuudesta löytyviä monikanavaäänen muokkausmenetelmiä. Diplomityön kokeellisen osuuden aloittaa DVD-levyjen analyysi, jolla pyrittiin saamaan tietoa levyjen äänituotannossa käytettävistä menetelmistä myöhempää äänimuunnostekniikoiden kehittämistä varten. Koe osoitti, että kolmen etukanavasignaalin ja kahden takakanavasignaalin välillä on vain harvoin yhteisiä äänikomponentteja. Kompaktien kaiutinkokoonpanojen ominaisuuksia tutkittiin kahdessa kuuntelukokeessa. Ensimmäinen koe tarkasteli eroja eri kolmikanavaisten kaiutinasettelujen välillä. Tavoitteena näissä toistosysteemeissä oli hyödyntää ääniaaltojen heijastuksia huoneen seinistä. Jälkimmäinen kuuntelukoe sovelsi kolmea tunnettua äänimuunnosmenetelmää kolmikanavaiseen kompaktiin kaiutinkokoonpanoon, jonka toistosta saatavaa tilahavaintoa pyrittiin laajentamaan. Kahden metodeista havaittiin parantavan tutkittuja tilaominaisuuksia.In this thesis, analysis and decomposition methods for multichannel audio are studied. The objective of the work is to transform multichannel recordings to new reproduction systems so that the spatial properties of the sound are preserved. Spatial hearing of the human auditory system, signal-based similarity and localization measures, and information-technological source separation methods are described as background theory. Then, different multichannel audio transform methods are reviewed. The experimental part of the work starts with an analysis of DVD recordings to gain helpful information about the production methods of such recordings for further development of audio transform methods. The test reveals that the three frontal channels do not usually share common sound sources with the two rear channels. The properties of compact loudspeaker systems are investigated in two listening tests. The first test studies the differences between three-channel loudspeaker layouts, which exploit the reflections of sound waves from room boundaries. The latter one of the tests applies three transform methods known from the literature to widen the spatial dimensions of a three-channel compact loudspeaker system in comparison to a reference stereo system. These methods are a stereo signal transform method based on signal powers and interchannel cross-correlations, a primaryambient signal decomposition based on principal component analysis (PCA), and directional audio coding (DirAC). The methods were ranked in this descending order of preference by the test subjects

    Optimization-based reproduction of diffuse audio objects

    Get PDF
    The creation of a diffuse sound event from a single audio signal is an important signal processing task, for instance in spatial audio reproduction or audio coding. Current algorithms based on decorrelation filters or frequency-dependent panning typically cause artifacts due to transients or time-domain aliasing. In this paper, we propose an optimization-based approach to diffusion that creates a set of filters to approximate a desired distribution of frequency-dependent propagation directions to create the perception of a diffuse sound field with a multi-channel audio system. Thus, the diffusion can be optimally adapted to a specific reproduction scenario. In addition, the transient response can be purposefully improved by imposing constraints on the time-domain filter coefficients

    Spatial sound reproduction with frequency band processing of B-format audio signals

    Get PDF
    Lisääntynyt tietämys tilakuulon toimintaperiaatteista on mahdollistanut lukuisien tilaäänentoistoteknologioiden synnyn. Näihin lukeutuvat muiden muassa monikanavaäänen pakkaus, kanavakokoonpanon muunnokset sekä tilaäänen yleinen kanavariippumaton esitystapa. Directional Audio Coding (DirAC) on teknologia, jolla pyritään analysoimaan ja vastaanottopäässä syntetisoimaan havainnon kannalta oleelliset äänikentän ominaisuudet. Ihmisen tilakuulo toimii niinsanottujen vihjeiden avulla. Näitä ovat muiden muassa korviin saapuvien äänisignaalien keskinäiset erot sekä moniaistiset vihjeet kuten näköaistista saatava informaatio. DirAC:n tavoitteena on mitata äänitystilassa ja uudelleentuottaa kuuntelutilassa ne äänikentän ominaisuudet, jotka vaikuttavat kuuloaistiin liittyvien vihjeiden syntyyn. Yhdestä pisteestä mitattavasta hiukkasnopeudesta sekä äänenpaineesta voidaan laskea äänikentän hetkellinen intensiteetti ja energia taajuuskaistoittain. Näistä voidaan puolestaan selvittää äänen tulosuunta sekä diffuusisuus eli hajaantuneisuus. DirAC:n perusoletus on, että ihmisen suuntakuulon vihjeet muodostuvat näiden ominaisuuksien perusteella, äänen taajuus- ja aikarakenteen lisäksi. Toisin sanoen oletus on, että mikäli nämä ominaisuudet onnistutaan uudelleentuottamaan, kuulijan tulisi kokea kuulokokemus, joka vastaisi täysin sitä kuulokokemusta, joka olisi syntynyt alkuperäisessä mittaustilassakin. Reaaliaikainen lineaarivaiheiseen suodinpankkiin perustuva DirAC-ohjelmisto toteutettiin tutkimuksen yhteydessä. Kuuntelukokeet osoittivat, että riittävällä määrällä kaiuttimia sekä ideaalisella mikrofonilla DirAC:n kyky uudelleentuottaa tilaääntä oli erinomainen. 5.0-kotiteatterikokoonpanoa sekä Soundfield ST350 -mikrofonia käytettäessä laatu oli hyvä. Lisätutkimukset osoittivat, että ST350-mikrofonin toimivuus suunta-analyysissä heikkenee voimakkaasti taajuuksilla, jotka ylittävät 1,5-3 kHz.The increase of knowledge in the field of spatial hearing has given birth to various spatial audio reproduction technologies. These include efficient perceptual coding of multi-channel audio, channel conversion technologies and universal audio formats with no restrictions to any specific loudspeaker setup. Directional Audio Coding (DirAC) extends the scope of universal audio reproduction to real sound environments by utilizing existing microphones for analysis and arbitrary loudspeaker setups for synthesis of the perceptually relevant properties of the sound field. The human spatial hearing functions on the basis of multitude of cues. These cues range from the differences of the sound reaching both ears to the multimodal cues such as the visual cues. The goal of DirAC is to measure and synthesize those sound field properties by the influence of which the auditory cues arise, leaving only the multimodality out of scope. The particle velocity and the sound pressure in a single measurement point enable the calculation of the sound field intensity and the energy in frequency bands. From these, the direction of arrival and the sound field diffuseness can be formulated. The fundamental assumption of DirAC is that the human auditory cues arise by the influence of these sound field properties along with the monaural spectral and temporal properties. Therefore a successful re-synthesis of these properties is assumed to bring a spatial hearing experience identical to that of the original measurement space. A real-time linear phase filterbank version of DirAC was implemented. The reproduction quality of DirAC was shown to be excellent in formal listening tests if the number of loudspeakers is adequate and the microphone is ideal. The reproduction quality with standard 5.0 setup and Soundfield ST350 microphone was good. Additional experiments showed that the directional properties of the ST350 microphone collapse at frequencies above 1,5-3 kHz

    Ambisonics

    Get PDF
    This open access book provides a concise explanation of the fundamentals and background of the surround sound recording and playback technology Ambisonics. It equips readers with the psychoacoustical, signal processing, acoustical, and mathematical knowledge needed to understand the inner workings of modern processing utilities, special equipment for recording, manipulation, and reproduction in the higher-order Ambisonic format. The book comes with various practical examples based on free software tools and open scientific data for reproducible research. The book’s introductory section offers a perspective on Ambisonics spanning from the origins of coincident recordings in the 1930s to the Ambisonic concepts of the 1970s, as well as classical ways of applying Ambisonics in first-order coincident sound scene recording and reproduction that have been practiced since the 1980s. As, from time to time, the underlying mathematics become quite involved, but should be comprehensive without sacrificing readability, the book includes an extensive mathematical appendix. The book offers readers a deeper understanding of Ambisonic technologies, and will especially benefit scientists, audio-system and audio-recording engineers. In the advanced sections of the book, fundamentals and modern techniques as higher-order Ambisonic decoding, 3D audio effects, and higher-order recording are explained. Those techniques are shown to be suitable to supply audience areas ranging from studio-sized to hundreds of listeners, or headphone-based playback, regardless whether it is live, interactive, or studio-produced 3D audio material

    Spatial sound and sound localization on a horizontal surface for use with interactive surface (tabletop) computers

    Get PDF
    Tabletop computers (also known as surface computers, smart tables, and interactive surface computers) have been growing in popularity for the last decade and are poised to make in-roads into the consumer market, opening up a new market for the games industry. However, before tabletop computers become widely accepted, there are open problems that must be addressed with respect to audio interaction including: "What loudspeaker constellations are appropriate for tabletop computers?" "How does our perception of spatial sound change with these different loudspeaker configurations?" and "What panning methods should be used to maximally use the spatial localization abilities of the user(s)?" Using a custom-built tabletop computer setup, the work presented in this thesis investigated these three questions/problems via a series of experiments. The results of these experiments indicated that accurately localizing a virtual sound source on a horizontal surface is a difficult and error-prone task, for all of the methods that were used

    Cybernetic principles and sonic ecosystems

    Get PDF

    Implementing a modular architecture for virtual-world Directional Audio Coding

    Get PDF
    Kasvanut tieto ihmisen kuulon toiminnasta ja entistä tehokkaammat tietokoneet ovat mahdollistaneet uusien tilaäänimenetelmien kehityksen. Yksi tällainen tilaaäänimenetelmä on Directional Audio Coding (DirAC), joka mahdollistaa yhdestä paikasta tehdyn tilaääninauhoituksen uudelleenluomisen erilaisilla kaiutinjärjestelmillä. DirAC:ia on kehitetty edelleen ja siitä on olemassa muun muassa versiot kuulokekuunteluun ja videon ja siihen liittyvän kolmiulotteisen äänen projisointiin jollekin pinnalle. Eri versioista on olemassa erillisiä demoja joilla niitä voidaan esitellä, mutta yhtenäinen järjestelmä helpottaisi demojen esittämistä. Näiden lisäksi Dirac:ista on myös virtuaali- maailmojen luomiseen sopivaksi muunneltu versio, jonka toiminnalisuudet muistuttavat pelikäyttöön soveltuvaa audiomoottoria. Tälle järjestelmälle on vastikään esitelty uusi arkkitehtuuri, joka parantaa järjestelmän toimintaa muutamissa ääritapauksissa. Tästä järjestelmästä tarvitaan uusi toteutus, jolla sen ominaisuuksia pystytään esittelemään. Tämä uusi arkkitehtuuri mahdollistaa myös muiden versioiden yhdistämisen yhtenäiseen järjestelmään, mikä helpottaa demojen esittelemistä, kuten aikaisemmin mainittiin. Tässä työssä luotiin toimiva versio esitellystä uudesta järjestelmäarkkitehtuurista. Järjestelmä on reaaliaikainen ja se käyttää Fourier-muunnokseen perustuvia menetelmiä aika- ja taajuustasojen välisiin muunnoksiin. Järjestemällä on mahdollista luoda laajoja lähteitä mono-signaaleista ja toistaa kolmiulotteisia äänitteitä erilaisillä kaiutinjärjestelmillä. Lisäksi toistoon voidaan käyttää myös kuulokkeita. Toteutuksessa luotiin helppokäyttöinen käyttöliittymä, jonka avulla käyttäjä voi luoda ja hallita erilaisia äänimaisemia, jotka koostuvat aiemmin mainituista lähdetyypeistä.In the past few years, the increased knowledge of the human hearing and the increase in the computing power of computers has allowed creation of new three-dimensional audio coding methods, such as Directional Audio Coding (DirAC). It allows recreation of a spatial recording performed in a single location. The processing is done by analyzing the intensity and energy of different signals in frequency domain, estimating a few parameters from them and synthesizing the sound based on these. The directional audio coding has been further developed and different extensions to it have been created. These allow, for example, playback with headphones and projection of a video with respective three-dimensional sound. Demonstrations for these extensions exists as separate applications and a single application to combine is needed to make the demonstration use more effective. In addition to these extensions, a virtual-world version of the directional audio coding has been developed. This provides functionalities that could be implemented to a game audio engine. To further enhance the performance of the virtual-world DirAC a new architecture has been proposed. A new implementation of the system is needed to prove that the new architecture works. The architecture also allows the creation of the other extensions within it so the old demonstrations can be unified in this system. In this thesis a fully functional version of the new architecture was created. The system runs in real-time and it uses short-time Fourier transform based approach to transform the signal to the frequency domain and back. The system is capable of panning mono sources with varying sizes and shapes and rendering three-dimensional recordings with different loudspeaker setups. In addition to these rendering through headphones was made possible. The implementation has an easy-to-use user interface that gives the user possibility to create and control different soundscapes
    • …
    corecore