13 research outputs found
BeitrÀge zu breitbandigen Freisprechsystemen und ihrer Evaluation
This work deals with the advancement of wideband hands-free systems (HFSâs) for mono- and stereophonic cases of application. Furthermore, innovative contributions to the corr. field of quality evaluation are made. The proposed HFS approaches are based on frequency-domain adaptive filtering for system identification, making use of Kalman theory and state-space modeling. Functional enhancement modules are developed in this work, which improve one or more of key quality aspects, aiming at not to harm others. In so doing, these modules can be combined in a flexible way, dependent on the needs at hand. The enhanced monophonic HFS is evaluated according to automotive ITU-T recommendations, to prove its customized efficacy. Furthermore, a novel methodology and techn. framework are introduced in this work to improve the prototyping and evaluation process of automotive HF and in-car-communication (ICC) systems. The monophonic HFS in several configurations hereby acts as device under test (DUT) and is thoroughly investigated, which will show the DUTâs satisfying performance, as well as the advantages of the proposed development process. As current methods for the evaluation of HFSâs in dynamic conditions oftentimes still lack flexibility, reproducibility, and accuracy, this work introduces âCar in a Boxâ (CiaB) as a novel, improved system for this demanding task. It is able to enhance the development process by performing high-resolution system identification of dynamic electro-acoustical systems. The extracted dyn. impulse response trajectories are then applicable to arbitrary input signals in a synthesis operation. A realistic dynamic automotive auralization of a car cabin interior is available for HFS evaluation. It is shown that this system improves evaluation flexibility at guaranteed reproducibility. In addition, the accuracy of evaluation methods can be increased by having access to exact, realistic imp. resp. trajectories acting as a so-called âground truthâ reference. If CiaB is included into an automotive evaluation setup, there is no need for an acoustical car interior prototype to be present at this stage of development. Hency, CiaB may ease the HFS development process. Dynamic acoustic replicas may be provided including an arbitrary number of acoustic car cabin interiors for multiple developers simultaneously. With CiaB, speech enh. system developers therefore have an evaluation environment at hand, which can adequately replace the real environment.Diese Arbeit beschĂ€ftigt sich mit der Weiterentwicklung breitbandiger Freisprechsysteme fĂŒr mono-/stereophone AnwendungsfĂ€lle und liefert innovative BeitrĂ€ge zu deren QualitĂ€tsmessung. Die vorgestellten Verfahren basieren auf im Frequenzbereich adaptierenden Algorithmen zur Systemidentifikation gemÀà Kalman-Theorie in einer Zustandsraumdarstellung. Es werden funktionale Erweiterungsmodule dahingehend entwickelt, dass mindestens eine QualitĂ€tsanforderung verbessert wird, ohne andere eklatant zu verletzen. Diese nach Anforderung flexibel kombinierbaren algorithmischen Erweiterungen werden gemÀà Empfehlungen der ITU-T (Rec. P.1110/P.1130) in vorwiegend automotiven Testszenarien getestet und somit deren zielgerichtete Wirksamkeit bestĂ€tigt. Es wird eine Methodensammlung und ein technisches System zur verbesserten Prototypentwicklung/Evaluation von automotiven Freisprech- und Innenraumkommunikationssystemen vorgestellt und beispielhaft mit dem monophonen Freisprechsystem in diversen Ausbaustufen zur Anwendung gebracht. Daraus entstehende Vorteile im Entwicklungs- und Testprozess von Sprachverbesserungssystem werden dargelegt und messtechnisch verifiziert. Bestehende Messverfahren zum Verhalten von Freisprechsystemen in zeitvarianten Umgebungen zeigten bisher oft nur ein unzureichendes MaĂ an FlexibilitĂ€t, Reproduzierbarkeit und Genauigkeit. Daher wird hier das âCar in a Boxâ-Verfahren (CiaB) entwickelt und vorgestellt, mit dem zeitvariante elektro-akustische Systeme technisch identifiziert werden können. So gewonnene dynamische Impulsantworten können im Labor in einer Syntheseoperation auf beliebige Eingangsignale angewandt werden, um realistische Testsignale unter dyn. Bedingungen zu erzeugen. Bei diesem Vorgehen wird ein hohes MaĂ an FlexibilitĂ€t bei garantierter Reproduzierbarkeit erlangt. Es wird gezeigt, dass die Genauigkeit von darauf basierenden Evaluationsverfahren zudem gesteigert werden kann, da mit dem Vorliegen von exakten, realen Impulsantworten zu jedem Zeitpunkt der Messung eine sogenannte âground truthâ als Referenz zur VerfĂŒgung steht. Bei der Einbindung von CiaB in einen Messaufbau fĂŒr automotive Freisprechsysteme ist es bedeutsam, dass zu diesem Zeitpunkt das eigentliche Fahrzeug nicht mehr benötigt wird. Es wird gezeigt, dass eine dyn. Fahrzeugakustikumgebung, wie sie im Entwicklungsprozess von automotiven Sprachverbesserungsalgorithmen benötigt wird, in beliebiger Anzahl vollstĂ€ndig und mind. gleichwertig durch CiaB ersetzt werden kann
Physics-based models for the acoustic representation of space in virtual environments
In questo lavoro sono state affrontate alcune questioni inserite nel tema pi\uf9 generale della rappresentazione di scene e ambienti virtuali in contesti d\u2019interazione uomo-macchina, nei quali la modalit\ue0 acustica costituisca parte integrante o prevalente dell\u2019informazione complessiva trasmessa dalla macchina all\u2019utilizzatore attraverso un\u2019interfaccia personale multimodale oppure monomodale acustica. Pi\uf9 precisamente \ue8 stato preso in esame il problema di come presentare il messaggio audio, in modo tale che lo stesso messaggio fornisca all\u2019utilizzatore un\u2019informazione quanto pi\uf9 precisa e utilizzabile relativamente al contesto rappresentato. Il fine di tutto ci\uf2 \ue8 riuscire a integrare all\u2019interno di uno scenario virtuale almeno parte dell\u2019informazione acustica che lo stesso utilizzatore, in un contesto stavolta reale, normalmente utilizza per trarre esperienza dal mondo circostante nel suo complesso. Ci\uf2 \ue8 importante soprattutto quando il focus dell\u2019attenzione, che tipicamente impegna il canale visivo quasi completamente, \ue8 volto a un compito specifico.This work deals with the simulation of virtual acoustic spaces using physics-based models. The acoustic space is what we perceive about space using our auditory system. The physical nature of the models means that they will present spatial attributes (such as, for example, shape and size) as a salient feature of their structure, in a way that space will be directly represented and manipulated by means of them
Ambisonics
This open access book provides a concise explanation of the fundamentals and background of the surround sound recording and playback technology Ambisonics. It equips readers with the psychoacoustical, signal processing, acoustical, and mathematical knowledge needed to understand the inner workings of modern processing utilities, special equipment for recording, manipulation, and reproduction in the higher-order Ambisonic format. The book comes with various practical examples based on free software tools and open scientific data for reproducible research. The bookâs introductory section offers a perspective on Ambisonics spanning from the origins of coincident recordings in the 1930s to the Ambisonic concepts of the 1970s, as well as classical ways of applying Ambisonics in first-order coincident sound scene recording and reproduction that have been practiced since the 1980s. As, from time to time, the underlying mathematics become quite involved, but should be comprehensive without sacrificing readability, the book includes an extensive mathematical appendix. The book offers readers a deeper understanding of Ambisonic technologies, and will especially benefit scientists, audio-system and audio-recording engineers. In the advanced sections of the book, fundamentals and modern techniques as higher-order Ambisonic decoding, 3D audio effects, and higher-order recording are explained. Those techniques are shown to be suitable to supply audience areas ranging from studio-sized to hundreds of listeners, or headphone-based playback, regardless whether it is live, interactive, or studio-produced 3D audio material
Neural architecture for echo suppression during sound source localization based on spiking neural cell models
Zusammenfassung
Diese Arbeit untersucht die biologischen Ursachen des psycho-akustischen
PrÀzedenz Effektes, der Menschen in die Lage versetzt, akustische Echos wÀhrend
der Lokalisation von Schallquellen zu unterdrĂŒcken. Sie enthĂ€lt ein Modell zur
Echo-UnterdrĂŒckung wĂ€hrend der Schallquellenlokalisation, welches in technischen
Systemen zur Mensch-Maschine Interaktion eingesetzt werden kann.
Die Grundlagen dieses Modells wurden aus eigenen elektrophysiologischen
Experimenten an der Mongolischen WĂŒstenrennmaus gewonnen. Die dabei erstmalig an
der WĂŒstenrennmaus erzielten Ergebnisse, zeigen ein besonderes Verhalten
spezifischer Zellen im Dorsalen Kern des Lateral Lemniscus, einer dedizierten
Region des auditorischen Hirnstammes. Die dort sichtbare Langzeithemmung scheint
die Grundlage fĂŒr die EchounterdrĂŒckung in höheren auditorischen Zentren zu
sein. Das entwickelte Model war in der Lage dieses Verhalten nachzubilden, und
legt die Vermutung nahe, dass eine starke und zeitlich prÀzise Hyperpolarisation
der zugrundeliegende physiologische Mechanismus dieses Verhaltens ist.
Die entwickelte Neuronale Modellarchitektur modelliert das Innenohr und fĂŒnf
wesentliche Kerne des auditorischen Hirnstammes in ihrer Verbindungsstruktur und
internen Dynamik. Sie stellt einen neuen Typus neuronaler Modellierung dar, der
als Spike-Interaktionsmodell (SIM) bezeichnet wird. SIM nutzen die prÀzise
rĂ€umlich-zeitliche Interaktion einzelner Aktionspotentiale (Spikes) fĂŒr die
Kodierung und Verarbeitung neuronaler Informationen. Die Basis dafĂŒr bilden
Integrate-and-Fire Neuronenmodelle sowie Hebb'sche Synapsen, welche um speziell
entwickelte dynamische Kernfunktionen erweitert wurden. Das Modell ist in der
Lage, Zeitdifferenzen von 10 mykrosekunden zu detektieren und basiert auf den
Prinzipien der zeitlichen und rÀumlichen Koinzidenz sowie der prÀzisen lokalen
Inhibition.
Es besteht ausschlieĂlich aus Elementen einer eigens entwickelten Neuronalen
Basisbibliothek (NBL) die speziell fĂŒr die Modellierung verschiedenster Spike-
Interaktionsmodelle entworfen wurde. Diese Bibliothek erweitert die kommerziell
verfĂŒgbare dynamische Simulationsumgebung von MATLAB/SIMULINK um verschiedene
Modelle von Neuronen und Synapsen, welche die intrinsischen dynamischen
Eigenschaften von Nervenzellen nachbilden. Die Nutzung dieser Bibliothek
versetzt sowohl den Ingenieur als auch den Biologen in die Lage, eigene,
biologisch plausible, Modelle der neuronalen Informationsverarbeitung ohne
detaillierte Programmierkenntnisse zu entwickeln. Die grafische OberflÀche
ermöglicht strukturelle sowie parametrische Modifikationen und ist in der Lage,
den Zeitverlauf mikroskopischer Zellpotentiale aber auch makroskopischer
Spikemuster wÀhrend und nach der Simulation darzustellen.
Zwei grundlegende Elemente der Neuronalen Basisbibliothek wurden zur
Implementierung als spezielle analog-digitale Schaltungen vorbereitet.
Erste Silizium Implementierungen durch das Team des DFG Graduiertenkollegs GRK
164 konnten die Möglichkeit einer vollparallelen on line Verarbeitung von
Schallsignalen nachweisen. Durch Zuhilfenahme des im GRK entwickelten
automatisierten Layout Generators wird es möglich, spezielle Prozessoren zur
Anwendung biologischer Verarbeitungsprinzipien in technischen Systemen zu
entwickeln. Diese Prozessoren unterscheiden sich grundlegend von den klassischen
von Neumann Prozessoren indem sie rÀumlich und zeitlich verteilte Spikemuster,
anstatt sequentieller binÀrer Werte zur InformationsreprÀsentation nutzen. Sie
erweitern das digitale Kodierungsprinzip durch die Dimensionen des Raumes (2
dimensionale Nachbarschaft) der Zeit (Frequenz, Phase und Amplitude) sowie der
zeitlichen Dynamik analoger PotentialverlÀufe.
Diese Dissertation besteht aus sieben Kapiteln, welche den verschiedenen
Bereichen der Computational Neuroscience gewidmet sind.
Kapitel 1 beschreibt die Motivation dieser Arbeit welche aus der Absicht rĂŒhren,
biologische Prinzipien der Schallverarbeitung zu erforschen und fĂŒr technische
Systeme wÀhrend der Interaktion mit dem Menschen nutzbar zu machen. ZusÀtzlich
werden fĂŒnf GrĂŒnde fĂŒr die Nutzung von Spike-Interaktionsmodellen angefĂŒhrt
sowie deren neuartiger Charakter beschrieben.
Kapitel 2 fĂŒhrt die biologischen Prinzipien der Schallquellenlokalisation und
den psychoakustischen PrÀzedenz Effekt ein. Aktuelle Hypothesen zur Entstehung
dieses Effektes werden anhand ausgewÀhlter experimenteller Ergebnisse
verschiedener Forschungsgruppen diskutiert.
Kapitel 3 beschreibt die entwickelte Neuronale Basisbibliothek und fĂŒhrt die
einzelnen neuronalen Simulationselemente ein. Es erklÀrt die zugrundeliegenden
mathematischen Funktionen der dynamischen Komponenten und beschreibt deren
generelle Einsetzbarkeit zur dynamischen Simulation spikebasierter Neuronaler
Netzwerke.
Kapitel 4 enthÀlt ein speziell entworfenes Modell des auditorischen Hirnstammes
beginnend mit den Filterkaskaden zur Simulation des Innenohres, sich fortsetzend
ĂŒber mehr als 200 Zellen und 400 Synapsen in 5 auditorischen Kernen bis zum
Richtungssensor im Bereich des auditorischen Mittelhirns. Es stellt die
verwendeten Strukturen und Parameter vor und enthÀlt grundlegende Hinweise zur
Nutzung der Simulationsumgebung.
Kapitel 5 besteht aus drei Abschnitten, wobei der erste Abschnitt die
Experimentalbedingungen und Ergebnisse der eigens durchgefĂŒhrten Tierversuche
beschreibt. Der zweite Abschnitt stellt die Ergebnisse von 104 Modellversuchen
zur Simulationen psycho-akustischer Effekte dar, welche u.a. die FĂ€higkeit des
Modells zur Nachbildung des PrĂ€zedenz Effektes testen. SchlieĂlich beschreibt
der letzte Abschnitt die Ergebnisse der 54 unter realen Umweltbedingungen
durchgefĂŒhrten Experimente. Dabei kamen Signale zur Anwendung, welche in
normalen sowie besonders stark verhallten RĂ€umen aufgezeichnet wurden.
Kapitel 6 vergleicht diese Ergebnisse mit anderen biologisch motivierten und
technischen Verfahren zur EchounterdrĂŒckung und Schallquellenlokalisation und
fĂŒhrt den aktuellen Status der Hardwareimplementierung ein.
Kapitel 7 enthĂ€lt schlieĂlich eine kurze Zusammenfassung und einen Ausblick auf
weitere Forschungsobjekte und geplante AktivitÀten.
Diese Arbeit möchte zur Entwicklung der Computational Neuroscience beitragen,
indem sie versucht, in einem speziellen Anwendungsfeld die LĂŒcke zwischen
biologischen Erkenntnissen, rechentechnischen Modellen und Hardware Engineering
zu schlieĂen. Sie empfiehlt ein neues rĂ€umlich-zeitliches Paradigma der
dynamischen Informationsverarbeitung zur ErschlieĂung biologischer Prinzipien
der Informationsverarbeitung fĂŒr technische Anwendungen.This thesis investigates the biological background of the psycho-acoustical precedence effect, enabling humans to suppress echoes during the localization of sound sources. It provides a technically feasible and biologically plausible model for sound source localization under echoic conditions, ready to be used by technical systems during man-machine interactions.
The model is based upon own electro-physiological experiments in the mongolian gerbil. The first time in gerbils obtained results reveal a special behavior of specific cells of the dorsal nucleus of the lateral lemniscus (DNLL) - a distinct region in the auditory brainstem. The explored persistent inhibition effect of these cells seems to account for the base of echo suppression at higher auditory centers. The developed model proved capable to duplicate this behavior and suggests, that a strong and timely precise hyperpolarization is the basic mechanism behind this cell behavior. The developed neural architecture models the inner ear as well as five major nuclei of the auditory brainstem in their connectivity and intrinsic dynamics. It represents a new type of neural modeling described as Spike Interaction Models (SIM). SIM use the precise spatio-temporal interaction of single spike events for coding and processing of neural information. Their basic elements are Integrate-and-Fire Neurons and Hebbian synapses, which have been extended by specially designed dynamic transfer functions. The model is capable to detect time differences as small as 10 mircrosecondes and employs the principles of coincidence detection and precise local inhibition for auditory processing. It consists exclusively of elements of a specifically designed Neural Base Library (NBL), which has been developed for multi purpose modeling of Spike Interaction Models. This library extends the commercially available dynamic simulation environment of MATLAB/SIMULINK by different models of neurons and synapses simulating the intrinsic dynamic properties of neural cells. The usage of this library enables engineers as well as biologists to design their own, biologically plausible models of neural information processing without the need for detailed programming skills. Its graphical interface provides access to structural as well as parametric changes and is capable to display the time course of microscopic cell parameters as well as macroscopic firing pattern during simulations and thereafter. Two basic elements of the Neural Base Library have been prepared for implementation by specialized mixed analog-digital circuitry. First silicon implementations were realized by the team of the DFG Graduiertenkolleg GRK 164 and proved the possibility of fully parallel on line processing of sounds. By using the automated layout processor under development in the Graduiertenkolleg, it will be possible to design specific processors in order to apply theprinciples of distributed biological information processing to technical systems. These processors differ from classical von Neumann processors by the use of spatio temporal spike pattern instead of sequential binary values. They will extend the digital coding principle by the dimensions of space (spatial neighborhood), time (frequency, phase and amplitude) as well as the dynamics of analog potentials and introduce a new type of information processing.
This thesis consists of seven chapters, dedicated to the different areas of computational neuroscience.
Chapter 1: provides the motivation of this study arising from the attempt to investigate the biological principles of sound processing and make them available to technical systems interacting with humans under real world conditions. Furthermore, five reasons to use spike interaction models are given and their novel characteristics are discussed.
Chapter 2: introduces the biological principles of sound source localization and the precedence effect. Current hypothesis on echo suppression and the underlying principles of the precedence effect are discussed by reference to a small selection of physiological and psycho-acoustical experiments.
Chapter 3: describes the developed neural base library and introduces each of the designed neural simulation elements. It also explains the developed mathematical functions of the dynamic compartments and describes their general usage for dynamic simulation of spiking neural networks.
Chapter 4: introduces the developed specific model of the auditory brainstem, starting from the filtering cascade in the inner ear via more than 200 cells and 400 synapses in five auditory regions up to the directional sensor at the level of the auditory midbrain. It displays the employed parameter sets and contains basic hints for the set up and configuration of the simulation environment.
Chapter 5: consists of three sections, whereas the first one describes the set up and results of the own electro-physiological experiments. The second describes the results of 104 model simulations, performed to test the
models ability to duplicate psycho-acoustical effects like the precedence effect. Finally, the last section of this chapter contains the results of 54 real world experiments using natural sound signals, recorded under normal as well as highly reverberating conditions.
Chapter 6: compares the achieved results to other biologically motivated and technical models for echo suppression and sound source localization and introduces the current status of silicon implementation.
Chapter 7: finally provides a short summary and an outlook toward future research subjects and areas of investigation.
This thesis aims to contribute to the field of computational neuroscience by bridging the gap between biological
investigation, computational modeling and silicon engineering in a specific field of application. It suggests a new spatio-temporal paradigm of information processing in order to access the capabilities of biological systems for technical applications
A room acoustics measurement system using non-invasive microphone arrays
This thesis summarises research into adaptive room correction for small rooms and pre-recorded material, for example music of films. A measurement system to predict the sound at a remote location within a room, without a microphone at that location was investigated. This would allow the sound within a room to be adaptively manipulated to ensure that all listeners received optimum sound, therefore increasing their enjoyment. The solution presented used small microphone arrays, mounted on the room's walls. A unique geometry and processing system was designed, incorporating three processing stages, temporal, spatial and spectral. The temporal processing identifies individual reflection arrival times from the recorded data. Spatial processing estimates the angles of arrival of the reflections so that the three-dimensional coordinates of the reflections' origin can be calculated. The spectral processing then estimates the frequency response of the reflection. These estimates allow a mathematical model of the room to be calculated, based on the acoustic measurements made in the actual room. The model can then be used to predict the sound at different locations within the room. A simulated model of a room was produced to allow fast development of algorithms. Measurements in real rooms were then conducted and analysed to verify the theoretical models developed and to aid further development of the system. Results from these measurements and simulations, for each processing stage are presented
Audio for Virtual, Augmented and Mixed Realities: Proceedings of ICSA 2019 ; 5th International Conference on Spatial Audio ; September 26th to 28th, 2019, Ilmenau, Germany
The ICSA 2019 focuses on a multidisciplinary bringing together of developers, scientists, users, and content creators of and for spatial audio systems and services. A special focus is on audio for so-called virtual, augmented, and mixed realities.
The fields of ICSA 2019 are: - Development and scientific investigation of technical systems and services for spatial audio recording, processing and reproduction / - Creation of content for reproduction via spatial audio systems and services / - Use and application of spatial audio systems and content presentation services / - Media impact of content and spatial audio systems and services from the point of view of media science. The ICSA 2019 is organized by VDT and TU Ilmenau with support of Fraunhofer Institute for Digital Media Technology IDMT