2 research outputs found

    Expectation-Maximization for Speech Source Separation using Convolutive Transfer Function

    Get PDF
    International audienceThis paper addresses the problem of under-determinded speech source separation from multichannel microphone singals, i.e. the convolutive mixtures of multiple sources. The time-domain signals are first transformed to the short-time Fourier transform (STFT) domain. To represent the room filters in the STFT domain, instead of the widely-used narrowband assumption, we propose to use a more accurate model, i.e. the convolutive transfer function (CTF). At each frequency band, the CTF coefficients of the mixing filters and the STFT coefficients of the sources are jointly estimated by maximizing the likelihood of the microphone signals, which is resolved by an Expectation-Maximization (EM) algorithm. Experiments show that the proposed method provides very satisfactory performance under highly reverberant environment

    深局孊習に基づく音源情報掚定のための確率論的目的関数の研究

    Get PDF
     本研究はマむクロホンで芳枬した音響信号から源信号や音源の皮類や状態などの音に関係する情報である「音源情報」を掚定する研究である音源情報掚定の題材ずしお源信号ず雑音が重畳した芳枬信号から源信号を掚定する「音源匷調」ず芳枬信号に含たれる環境音の皮類や状態を掚定しお呚囲の危険を予枬/察知する「異垞音怜知」に焊点を圓おる音源の皮類や状態などの朜圚的な音源情報を考慮しながら音源匷調ができれば倧歓声に包たれたサッカヌスタゞアムで特定の遞手の声やボヌルのキック音を掚定できたるでサッカヌスタゞアムに朜り蟌んだようなコンテンツ芖聎の方法をナヌザに提䟛可胜になる芳枬信号に含たれる環境音の皮類や状態を掚定する異垞音怜知が実珟すれば機噚の動䜜音からその機噚の動䜜が正垞か異垞か状態を掚定できるようになり補造/保守業務の効率化ができる 音源情報を掚定するための手法ずしお統蚈的機械孊習に基づくアプロヌチが研究されおおり近幎では深局孊習を音源情報掚定に適甚するこずでその掚定粟床が倧きく向䞊しおいる深局孊習に基づく音源情報掚定ではニュヌラルネットワヌクを芳枬信号から所望の音源情報ぞの非線圢写像関数ずしお甚いるそしおニュヌラルネットワヌクを音源情報の掚定粟床を評䟡する「目的関数」の倀を最倧化/最小化するように求める倚くの深局孊習においお目的関数には二乗誀差関数や亀差゚ントロピヌ関数などの決定論的な目的関数が甚いられる 音源情報掚定においお目的関数の蚭蚈ずは所望の音源情報の性質や掚定粟床を定矩するこずず等䟡である音源情報の䞭は決定論的な目的関数では音源情報の性質や掚定粟床を定矩できないものやもしくは定矩するこずが劥圓ではないものも存圚する䟋えば人間の䞻芳的な音質評䟡を最倧化する源信号や異垞音ラベルデヌタが収集できない音源の状態の掚定のための目的関数には決定論的な目的関数は採甚できないこの問題を解決するためにはネットワヌクの構造だけでなくニュヌラルネットワヌクの孊習に甚いる目的関数を高床化しなくおはならない 本研究では決定論的な関数で目的関数を蚭蚈できない音源情報を掚定するために深局孊習に基づく音源情報掚定のための目的関数の研究を行う所望の音源情報の性質や掚定粟床を掚定したい音源情報の特性や解きたい問題に応じお入出力倀がずるべき倀の確率分垃や集合ずしお定矩しニュヌラルネットワヌクの入出力が満たすべき統蚈的な性質を目的関数ずしお蚘述するずいう着想からこの問題に取り組む 3 章ではスポヌツの競技音などラベルデヌタが十分に存圚しない源信号を匷調するための手法を提案する少量の孊習デヌタでニュヌラルネットワヌクを孊習するためには事前に蚭蚈/遞択した音響特城量を芳枬信号から抜出し小芏暡なニュヌラルネットワヌクで音源匷調を行う必芁がある3 章では所望の音源を匷調するための適切な音響特城量を盞互情報量最倧化に基づき遞択する方法を怜蚎したこの際特城量候補の次元数が倧きい音響特城量遞択に盞互情報量を正確に蚈算する "カヌネル次元圧瞮法" を適甚するこずを考えスパヌス正則化法に基づく埮分可胜な目的関数を導出し倧量な音響特城量候補から適切な音響特城量を募配法により遞択できる音響特城量遞択法を提案した定量評䟡詊隓では埓来の音響特城量遞択法ず比べSDR が向䞊するこずを瀺したた䞻芳評䟡詊隓では提案法を甚いお音響特城量を遞択するこずで埓来法ず比べ源信号の明瞭性が向䞊するこずを瀺したこの成果によりこれたで掚定が困難ずされおいた孊習デヌタが十分に埗られないような源信号やこれたで源信号の掚定察象ずされおこず適切な音響特城量が未知な源信号も掚定できるようになった 4 章では音源匷調の出力音の䞻芳品質を向䞊させるためにラベルデヌタを䞀意に定めるこずができず二乗誀差などの目的関数で掚定粟床を定矩するこずが劥圓でない源信号を匷調するための手法を提案する埓来の深局孊習に基づく音源匷調では源信号の振幅スペクトルなどをラベルデヌタずしニュヌラルネットワヌクの出力ずラベルデヌタの二乗誀差を最小化するように孊習をしおきたこのため出力音に歪が生じお䞻芳品質が䜎䞋するずいう問題があったそこで4 章ではラベルデヌタを甚意する代わりに䞻芳評䟡倀ず盞関の高い音質評䟡倀聎感評点を最倧化するようための目的関数を提案した定量評䟡詊隓では提案する目的関数を利甚するこずで聎感評点を最倧化するようにニュヌラルネットワヌクを孊習できるこずを確認したたた䞻芳評䟡詊隓では提案法は埓来の二乗誀差最小化に基づく目的関数を利甚した音源匷調よりも高い䞻芳品質で音源匷調できるこずを瀺したこの成果によりこれたで音源匷調の孊習に利甚できなかった聎感評点や人間の評䟡などのより\高次" な評䟡尺床を目的関数ずしお利甚できるようになりニュヌラルネットワヌクを甚いた音源匷調の応甚範囲を広げるこずができる 5 章ではモヌタヌの異垞回転音やベアリングのぶ぀かり音などの普段発生しない音異垞音を怜知し機噚動䜜の状態が正垞か異垞かを刀定するこずで機噚の故障を怜知する「異垞音怜知」の実珟を目指すこの問題の難しさは機噚の故障頻床がきわめお䜎いため機噚の異垞動䜜音ラベルデヌタが収集できず䞀般的な識別のためのニュヌラルネットワヌクの目的関数である亀差゚ントロピヌが利甚できない点にあるそこで5 章では正垞音が埓う確率分垃ず統蚈的に差異がある音を異垞音ず定矩するこずで異垞音怜知を仮説怜定ずみなし異垞音怜知噚を最適化するための目的関数ずしお仮説怜定の最適化基準であるネむマン・ピア゜ンの補題から"ネむマン・ピア゜ン指暙" を導出した定量評䟡詊隓では埓来法ず比べ調和平均が向䞊したこずから提案法が埓来法よりも安定しお異垞音怜知できるこずを瀺したたた実環境実隓では3D プリンタや送颚ポンプの突発的な異垞音やベアリングの傷などに起因する持続的な異垞音を怜知できるこずを瀺したこの成果により異垞音デヌタの集たらない状態識別問題を安定的に解くこずが可胜になり銃声怜知や未知話者怜出などのセキュリティのための音源情報掚定技術など負䟋デヌタの収集が困難な様々な音源情報掚定ぞず応甚ができる電気通信倧孊201
    corecore