7 research outputs found

    雑音特性の変動を伴う多様な環境で実用可能な音声強調

    Get PDF
    筑波大学 (University of Tsukuba)201

    Projection-based demixing of spatial audio

    Get PDF
    International audienceWe propose a method to unmix multichannel audio signals into their different constitutive spatial objects. To achievethis, we characterize an audio object through both a spatial and a spectro-temporal modelling. The particularity of the spatialmodel we pick is that it neither assumes an object has only one underlying source point, nor does it attempt to model the complexroom acoustics. Instead, it focuses on a listener perspective, and takes each object as the superposition of many contributionswith different incoming directions and inter-channel delays. Our spectro-temporal probabilistic model is based on the recentlyproposed α-harmonisable processes, which are adequate for signals with large dynamics, such as audio. Then, the mainoriginality of this work is to provide a new way to estimate and exploit inter-channel dependences of an object for the purposeof demixing. In the Gaussian α = 2 case, previous research focused on covariance structures. This approach is no longervalid for α < 2 where covariances are not defined. Instead, we show how simple linear combinations of the mixture channelscan be used to learn the model parameters, and the method we propose consists in pooling the estimates based on manyprojections to correctly account for the original multichannel audio. Intuitively, each such downmix of the mixture provides anew perspective where some objects are cancelled or enhanced. Finally, we also explain how to recover the different spatial audioobjects when all parameters have been computed. Performance of the method is illustrated on the separation of stereophonic musicsignals. Index Terms—source separation, probabilistic models, non-negative matrix factorization, musical source separatio

    Binary Sparse Coding of Convolutive Mixtures for Sound Localization and Separation via Spatialization

    Get PDF
    We propose a sparse coding approach to address the problem of source-sensor localization and speech reconstruction. This approach relies on designing a dictionary of spatialized signals by projecting the microphone array recordings into the array manifolds characterized for different locations in a reverberant enclosure using the image model. Sparse representation over this dictionary enables identifying the subspace of the actual recordings and its correspondence to the source and sensor locations. The speech signal is reconstructed by inverse filtering the acoustic channels associated to the array manifolds. We provide rigorous analysis on the optimality of speech reconstruction by elucidating the links between inverse filtering and source separation followed by deconvolution. This procedure is evaluated for localization, reconstruction and recognition of simultaneous speech sources using real data recordings. The results demonstrate the effectiveness of the proposed approach and compare favorably against beamforming and independent component analysis techniques

    Spatial dissection of a soundfield using spherical harmonic decomposition

    Get PDF
    A real-world soundfield is often contributed by multiple desired and undesired sound sources. The performance of many acoustic systems such as automatic speech recognition, audio surveillance, and teleconference relies on its ability to extract the desired sound components in such a mixed environment. The existing solutions to the above problem are constrained by various fundamental limitations and require to enforce different priors depending on the acoustic condition such as reverberation and spatial distribution of sound sources. With the growing emphasis and integration of audio applications in diverse technologies such as smart home and virtual reality appliances, it is imperative to advance the source separation technology in order to overcome the limitations of the traditional approaches. To that end, we exploit the harmonic decomposition model to dissect a mixed soundfield into its underlying desired and undesired components based on source and signal characteristics. By analysing the spatial projection of a soundfield, we achieve multiple outcomes such as (i) soundfield separation with respect to distinct source regions, (ii) source separation in a mixed soundfield using modal coherence model, and (iii) direction of arrival (DOA) estimation of multiple overlapping sound sources through pattern recognition of the modal coherence of a soundfield. We first employ an array of higher order microphones for soundfield separation in order to reduce hardware requirement and implementation complexity. Subsequently, we develop novel mathematical models for modal coherence of noisy and reverberant soundfields that facilitate convenient ways for estimating DOA and power spectral densities leading to robust source separation algorithms. The modal domain approach to the soundfield/source separation allows us to circumvent several practical limitations of the existing techniques and enhance the performance and robustness of the system. The proposed methods are presented with several practical applications and performance evaluations using simulated and real-life dataset

    深層学習に基づく音源情報推定のための確率論的目的関数の研究

    Get PDF
     本研究は,マイクロホンで観測した音響信号から,源信号や音源の種類や状態などの音に関係する情報である「音源情報」を推定する研究である.音源情報推定の題材として,源信号と雑音が重畳した観測信号から源信号を推定する「音源強調」と,観測信号に含まれる環境音の種類や状態を推定して周囲の危険を予測/察知する「異常音検知」に焦点を当てる.音源の種類や状態などの潜在的な音源情報を考慮しながら音源強調ができれば,大歓声に包まれたサッカースタジアムで,特定の選手の声やボールのキック音を推定でき,まるでサッカースタジアムに潜り込んだようなコンテンツ視聴の方法をユーザに提供可能になる.観測信号に含まれる環境音の種類や状態を推定する異常音検知が実現すれば,機器の動作音から,その機器の動作が正常か異常か(状態)を推定できるようになり,製造/保守業務の効率化ができる. 音源情報を推定するための手法として,統計的機械学習に基づくアプローチが研究されており,近年では深層学習を音源情報推定に適用することで,その推定精度が大きく向上している.深層学習に基づく音源情報推定では,ニューラルネットワークを観測信号から所望の音源情報への非線形写像関数として用いる.そしてニューラルネットワークを音源情報の推定精度を評価する「目的関数」の値を最大化/最小化するように求める.多くの深層学習において目的関数には,二乗誤差関数や交差エントロピー関数などの決定論的な目的関数が用いられる. 音源情報推定において目的関数の設計とは,所望の音源情報の性質や推定精度を定義することと等価である.音源情報の中は,決定論的な目的関数では音源情報の性質や推定精度を定義できないものや,もしくは定義することが妥当ではないものも存在する.例えば,人間の主観的な音質評価を最大化する源信号や,異常音(ラベルデータ)が収集できない音源の状態の推定のための目的関数には,決定論的な目的関数は採用できない.この問題を解決するためには,ネットワークの構造だけでなく,ニューラルネットワークの学習に用いる目的関数を高度化しなくてはならない. 本研究では,決定論的な関数で目的関数を設計できない音源情報を推定するために,深層学習に基づく音源情報推定のための目的関数の研究を行う.所望の音源情報の性質や推定精度を,推定したい音源情報の特性や解きたい問題に応じて入出力値がとるべき値の確率分布や集合として定義し,ニューラルネットワークの入出力が満たすべき統計的な性質を目的関数として記述するという着想からこの問題に取り組む. 3 章では,スポーツの競技音など,ラベルデータが十分に存在しない源信号を強調するための手法を提案する.少量の学習データでニューラルネットワークを学習するためには,事前に設計/選択した音響特徴量を観測信号から抽出し,小規模なニューラルネットワークで音源強調を行う必要がある.3 章では,所望の音源を強調するための適切な音響特徴量を,相互情報量最大化に基づき選択する方法を検討した.この際,特徴量候補の次元数が大きい音響特徴量選択に相互情報量を正確に計算する "カーネル次元圧縮法" を適用することを考え,スパース正則化法に基づく微分可能な目的関数を導出し,大量な音響特徴量候補から適切な音響特徴量を勾配法により選択できる音響特徴量選択法を提案した.定量評価試験では,従来の音響特徴量選択法と比べSDR が向上することを示し,また主観評価試験では,提案法を用いて音響特徴量を選択することで従来法と比べ源信号の明瞭性が向上することを示した.この成果により,これまで推定が困難とされていた,学習データが十分に得られないような源信号や,これまで源信号の推定対象とされてこず,適切な音響特徴量が未知な源信号も推定できるようになった. 4 章では,音源強調の出力音の主観品質を向上させるために,ラベルデータを一意に定めることができず,二乗誤差などの目的関数で推定精度を定義することが妥当でない源信号を強調するための手法を提案する.従来の深層学習に基づく音源強調では,源信号の振幅スペクトルなどをラベルデータとし,ニューラルネットワークの出力とラベルデータの二乗誤差を最小化するように学習をしてきた.このため,出力音に歪が生じて主観品質が低下するという問題があった.そこで4 章では,ラベルデータを用意する代わりに主観評価値と相関の高い音質評価値(聴感評点)を最大化するようための目的関数を提案した.定量評価試験では,提案する目的関数を利用することで,聴感評点を最大化するようにニューラルネットワークを学習できることを確認した.また主観評価試験では,提案法は従来の二乗誤差最小化に基づく目的関数を利用した音源強調よりも高い主観品質で音源強調できることを示した.この成果により,これまで音源強調の学習に利用できなかった聴感評点や人間の評価などの,より\高次" な評価尺度を目的関数として利用できるようになり,ニューラルネットワークを用いた音源強調の応用範囲を広げることができる. 5 章では,モーターの異常回転音やベアリングのぶつかり音などの普段発生しない音(異常音)を検知し,機器動作の状態が正常か異常かを判定することで機器の故障を検知する「異常音検知」の実現を目指す.この問題の難しさは,機器の故障頻度がきわめて低いため,機器の異常動作音(ラベルデータ)が収集できず,一般的な識別のためのニューラルネットワークの目的関数である交差エントロピーが利用できない点にある.そこで5 章では,正常音が従う確率分布と統計的に差異がある音を異常音と定義することで異常音検知を仮説検定とみなし,異常音検知器を最適化するための目的関数として,仮説検定の最適化基準であるネイマン・ピアソンの補題から"ネイマン・ピアソン指標" を導出した.定量評価試験では,従来法と比べ調和平均が向上したことから,提案法が従来法よりも安定して異常音検知できることを示した.また実環境実験では3D プリンタや送風ポンプの突発的な異常音や,ベアリングの傷などに起因する持続的な異常音を検知できることを示した.この成果により,異常音データの集まらない状態識別問題を安定的に解くことが可能になり,銃声検知や未知話者検出などのセキュリティのための音源情報推定技術など,負例データの収集が困難な様々な音源情報推定へと応用ができる.電気通信大学201

    Abstracts on Radio Direction Finding (1899 - 1995)

    Get PDF
    The files on this record represent the various databases that originally composed the CD-ROM issue of "Abstracts on Radio Direction Finding" database, which is now part of the Dudley Knox Library's Abstracts and Selected Full Text Documents on Radio Direction Finding (1899 - 1995) Collection. (See Calhoun record https://calhoun.nps.edu/handle/10945/57364 for further information on this collection and the bibliography). Due to issues of technological obsolescence preventing current and future audiences from accessing the bibliography, DKL exported and converted into the three files on this record the various databases contained in the CD-ROM. The contents of these files are: 1) RDFA_CompleteBibliography_xls.zip [RDFA_CompleteBibliography.xls: Metadata for the complete bibliography, in Excel 97-2003 Workbook format; RDFA_Glossary.xls: Glossary of terms, in Excel 97-2003 Workbookformat; RDFA_Biographies.xls: Biographies of leading figures, in Excel 97-2003 Workbook format]; 2) RDFA_CompleteBibliography_csv.zip [RDFA_CompleteBibliography.TXT: Metadata for the complete bibliography, in CSV format; RDFA_Glossary.TXT: Glossary of terms, in CSV format; RDFA_Biographies.TXT: Biographies of leading figures, in CSV format]; 3) RDFA_CompleteBibliography.pdf: A human readable display of the bibliographic data, as a means of double-checking any possible deviations due to conversion
    corecore