38 research outputs found
A robust sequential hypothesis testing method for brake squeal localisation
This contribution deals with the in situ detection and localisation of brake squeal in an automobile. As brake squeal is emitted from regions known a priori, i.e., near the wheels, the localisation is treated as a hypothesis testing problem. Distributed microphone arrays, situated under the automobile, are used to capture the directional properties of the sound field generated by a squealing brake. The spatial characteristics of the sampled sound field is then used to formulate the hypothesis tests. However, in contrast to standard hypothesis testing approaches of this kind, the propagation environment is complex and time-varying. Coupled with inaccuracies in the knowledge of the sensor and source positions as well as sensor gain mismatches, modelling the sound field is difficult and standard approaches fail in this case. A previously proposed approach implicitly tried to account for such incomplete system knowledge and was based on ad hoc likelihood formulations. The current paper builds upon this approach and proposes a second approach, based on more solid theoretical foundations, that can systematically account for the model uncertainties. Results from tests in a real setting show that the proposed approach is more consistent than the prior state-of-the-art. In both approaches, the tasks of detection and localisation are decoupled for complexity reasons. The localisation (hypothesis testing) is subject to a prior detection of brake squeal and identification of the squeal frequencies. The approaches used for the detection and identification of squeal frequencies are also presented. The paper, further, briefly addresses some practical issues related to array design and placement. (C) 2019 Author(s)
Flexible Multi-Microphone Acquisition and Processing of Spatial Sound Using Parametric Sound Field Representations
Diese Arbeit behandelt die flexible und effiziente Aufnahme und Verarbeitung von räumlichen Schall mit mehreren Mikrofonen. Die Mikrofone werden verwendet um den Schall von mehreren, zeitgleich aktiven, Quellen aufzunehmen, welcher dann auf der Anwendungsseite in Abhängigkeit der gewünschten Anwendung verarbeitet wird. Typische Anwendungen, welche hierbei realisiert werden können, sind die Extraktion von Schallquellen, die natürliche Reproduktion von räumlichen Schall, oder Anwendungen zur Sprachverbesserung. Unter einer flexiblen Aufnahme und Verarbeitung wird verstanden, dass der Schall mit fast beliebigen Mikrofonanordnungen aufgenommen werden kann, ohne dass die Möglichkeiten auf der Anwendungsseite eingeschränkt werden. Das bedeutet, dass verschiedene Anwendungen unabhängig von der verwendeten Mikrofonkonfiguration realisiert und angepasst werden können. Ein entsprechendes Beispiel ist die räumliche Reproduktion von Schall, bei der der Schall so wiedergegeben wird, dass der Hörer oder die Hörerin den selben Klangeindruck wie auf der Aufnahmeseite wahrnimmt. Bei dieser Anwendung ist es wichtig, dass der Schall mit beliebigen Lautsprecherkonfigurationen reproduziert werden kann, unabhängig davon mit welcher Mikrofonanordnung der Schall aufgenommen wurde. Ein weiteres Beispiel ist die Schall-Extraktion, bei der der Schall von gewünschten Richtungen extrahiert und von ungewünschten Richtungen unterdrückt werden soll. Bei dieser Anwendung ist es erwünscht, dass der Benutzer auf der Anwendungsseite beliebig und in Echtzeit definieren kann, wie und von welcher Richtung der Schall extrahiert werden soll. Unter einer effizienten Aufnahme und Verarbeitung wird verstanden, dass nur eine geringe Anzahl von Audiosignalen, im Vergleich zur Mikrofonanzahl, zur Anwendungsseite übertragen werden muss. Auch mit dieser geringen Anzahl von Audiosignalen soll es möglich sein, die verschiedene Anwendungen mit der erwähnten Flexibilität zu realisieren. Effiziente Aufnahme und Verarbeitung meint auch, dass die Anwendungsseite den Hauptanteil der Rechenlast trägt. Dies ermöglicht den Einsatz von batteriebetriebenen Geräten mit geringer Rechenleistung auf der Anwendungsseite. Alternativ, wenn die Rechenleistung auf der Aufnahmeseite beschränkt ist, dann können die Mikrofonsignale unverarbeitet zur Anwendungsseite übertragen werden, was allerdings eine höhere Bandbreite zur Datenübertragung benötigt. Um die flexible und effiziente Aufnahme und Verarbeitung von räumlichen Schall zu realisieren wird eine parametrische Beschreibung von räumlichen Schall verwendet. Dabei wird angenommen, dass das Schallfeld für jede Zeit und Frequenz in eine Summe aus wenigen Direktschallkomponenten und einer Diffusschallkomponente zerlegt werden kann. Hiebei modellieren die Direktschallkomponenten den Direktschall der Quellen, wohingegen die Diffusschallkomponente den Nachhall der Aufnahmeumgebung abbildet. Im Gegensatz zu bereits existierenden Verfahren wird angenommen, dass mehrere Direktschallkomponenten pro Zeit und Frequenz den Direktschall bilden. Dies hilft Modellverletzungen zu reduzieren, welche sich negative auf die bisherigen Verfahren auswirken. Die Direktschallkomponenten und die Diffusschallkomponente bilden zusammen mit der parametrischen Seiteninformation, welche aus den Ausbreitungsrichtungen des Direktschalls besteht, eine kompakte Beschreibung des räumlichen Schalls. Diese Schallfeldbeschreibung kann effizient übertragen und flexibel verwendet werden, um die verschiedenen, eingangs erwähnten, Anwendungen zu realisieren. Die Extraktion des Direktschalls und des Diffusschalls bildet einen Hauptschwerpunkt der Arbeit. Die Direktschallkomponenten werden mit Einkanal- oder Mehrkanal-Filtern extrahiert. Diese Filter werden mit instantanen Informationen über das zugrundeliegende Schallfeldmodell, beispielsweise die instantanen Schallrichtung oder das instantane Leistungsverhältnis von Diffusschall und Rauschen, berechnet. Das Berücksichtigen dieser Informationen ermöglicht es Filter zu realisieren, welche die gewünschte Raumantwort besitzen und unverzüglich auf Änderungen in der akustischen Umgebung reagieren. Dies stellt eine entscheidende Eigenschaft für Anwendungen dar, in denen mehrere Schallquellen zeitgleich in Umgebungen mit Nachhall aktiv sind. Zur Extraktion des Diffusschalls sind bisher nur wenige Ansätze verfügbar. Aus diesem Grund werden verschiedene, optimale Einkanal- und Mehrkanal-Filter entwickelt, welche eine akkurate Extraktion des Diffusschalls ermöglichen. Das Berechnen der verschiedenen Filter erfordert es, dass bestimmte Parameter des zugrundeliegenden Schallfeldmodells bestimmt werden. Dabei handelt es sich beispielsweise um die Anzahl der aktiven Quellen, die Ausbreitungsrichtungen des Schalls, oder die Leistungsdichten des Direktschalls und Diffussschalls. Die Schätzung dieser Parameter stellt einen zweiten wichtigen Teil dieser Arbeit dar. Die vorgestellten Schätzverfahren bieten eine hohe Genauigkeit und lassen sich effizient in das betrachtete parametrische Verfahren einbinden. Der letzte Abschnitt der Arbeit behandelt verschiedene Anwendungen, welche mittels der parametrischen Schallfeldbeschreibung realisiert werden können. Bei den vorgestellten Anwendungen handelt es sich um die Extraktion gewünschter Schallquellen, die natürliche Schallwiedergabe, und den sogenannten akustischen Zoom. Dieser Abschnitt der Arbeit beinhaltet zudem eine ausführliche Evaluierung der vorgestellten Schätzverfahren und Filter, auch basierend auf Hörtests. Die experimentellen Ergebnisse zeigen, dass mit den vorgeschlagenen Schätzverfahren und Filtern vorhandene Ansätze mit ähnlicher Flexibilität und Effizienz verbessert werden können. Dies ermöglicht es, eine Vielzahl von Anwendungen für neuartige Geräte zu entwickeln, beispielsweise für moderne Mobiltelefone, Tabletcomputer oder Fernsehgeräte, welche zukünftig mit mehreren Mikrofonen bestückt und mittels Netzwerkübertragung untereinander verbunden sind
Signal-to-reverberant ratio estimation based on the complex spatial coherence between omnidirectional microphones
The signal-to-reverberant ratio (SRR) is an important parameter in several applications such as speech enhancement, dereverberation, and parametric spatial audio coding. In this contribution, an SRR estimator is derived from the direction-of-arrival dependent complex spatial coherence function computed via two omnidirectional microphones. It is shown that by employing a computationally inexpensive DOA estimator, the proposed SRR estimator outperforms existing approaches
A method to analyze the spatial response of informed spatial filters
Informed spatial filters (ISF) aim to capture multiple sound sources with a desired spatial response while attenuating the undesired signals. The desired spatial response is an arbitrary function, based on which directional gains at each time-frequency instant are computed. In this work, we propose a method to analyze the obtained spatial response at the output of the ISF and the influence of direction-of-arrival (DOA) estimation errors. The proposed method considers two simultaneously active sound sources, where one source is kept static at a reference position while the other source is moved across the DOA space by placing it at discrete DOA points. For each position of the moving source, we compute the average directional array gain. Through analysis with simulated speech signals, we show that with perfect knowledge of the source DOAs the obtained spatial response matches the desired one, and also demonstrate the adverse effects of DOA estimation errors
Envelope-Based Spatial Parameter Estimation in Directional Audio Coding
Directional Audio Coding provides an efficient description of spatial sound in terms of few audio downmix signals and parametric side information, namely the direction-of-arrival (DOA) and diffuseness of the sound. This representation allows an accurate reproduction of the recorded spatial sound with almost arbitrary loudspeaker setups. The DOA information can be efficiently estimated with linear microphone arrays by considering the phase information between the sensors. Due to the microphone spacing, the DOA estimates are corrupted by spatial aliasing at higher frequencies affecting the sound reproduction quality. In this paper we propose to consider the signal envelope for estimating the DOA at higher frequencies to avoid the spatial aliasing problem. Experimental results show that the presented approach has great potential in improving the estimation accuracy and rendering quality
Evaluation and Comparison of Late Reverberation Power Spectral Density Estimators
Reduction of late reverberation can be achieved using spatio-spectral filters, such as the multichannel Wiener filter. To compute this filter, an estimate of the late reverberation power spectral density (PSD) is required. In recent years, a multitude of late reverberation PSD estimators have been proposed. In this paper, these estimators are categorized into several classes, their relations and differences are discussed, and a comprehensive experimental comparison is provided. To compare their performance, simulations in controlled as well as practical scenarios are conducted. It is shown that a common weakness of spatial coherence-based estimators is their performance in high direct-to-diffuse ratio conditions. To mitigate this problem, a correction method is proposed and evaluated. It is shown that the proposed correction method can decrease the speech distortion without significantly affecting the reverberation reduction
Acoustic measurement system for 3D loudspeaker set-ups
For any reproducible listening set-up it is crucial to verify whether the reproduction system is operating properly. This is a tedious and cumbersome task, as state-of-the-art listening rooms are equipped with intricate signal processing chains and a higher number of loudspeakers arranged at very specific positions. Building an automatic test-system with an adequate accuracy and reliability represents a rather challenging engineering problem. This contribution presents a multi-loudspeaker test-system, which accomplishes this task, realized by carefully combining existing measurement techniques. The thorough validation of the developed test-system indicates an accuracy in determining the position of ±3°, the distance of ±4 cm, and the magnitude response of ±1 dB, for each loudspeaker in the listening room with a total measurement time of less than 10 s per loudspeaker
Dual radius spherical cardioid microphone arrays for binaural auralization
The direction dependent analysis of impulse response measurements using spherical microphone arrays can deliver a universal basis for binaural auralization. A new method using dual radius open sphere arrays is proposed to overcome limitations in practical realizations of such arrays. Different methods to combine the two radii have been analyzed and will be presented. A plane wave decomposition in conjunction with a high resolution HRTF database is used to generate a binaural auralization, wherein the different designs are simulated under ideal and real conditions. The results have been evaluated in a quality grading experiment. It is shown that the dual radius cardioids design is an effective method to enhance the perceived quality in comparison to conventional spherical array designs
A spatial filtering approach for directional audio coding
In hands-free telephony, spatial filtering techniques are employed to enhance intelligibility of speech. More precisely, these techniques aim at reducing the reverberation of the desired speech signal and attenuating interferences. Additionally, it is well-known that the spatially separate reproduction of desired and interfering sources enhance intelligibility of speech. For the latter task, Directional Audio Coding (DirAC) has proven to be an efficient method to capture and reproduce spatial sound. In this contribution, we propose a spatial filtering processing block, which works in the parameter domain of DirAC. Simulation results show that compared to a standard beamformer the novel technique offers significantly higher interference attenuation, while introducing comparably low distortion of the desired signal. Additional subjective tests of speech intelligibility confirm the instrumentally obtained results