Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware
  Sound Separation

Deng, Shijian; Su, Yiyang; Tian, Yapeng; Vosoughi, Ali; Xu, Chenliang

Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation

Authors: Shijian Deng
Yiyang Su
Yapeng Tian
Ali Vosoughi
Chenliang Xu
Publication date: 18 October 2023
Publisher

Abstract

The audio-visual sound separation field assumes visible sources in videos, but this excludes invisible sounds beyond the camera's view. Current methods struggle with such sounds lacking visible cues. This paper introduces a novel "Audio-Visual Scene-Aware Separation" (AVSA-Sep) framework. It includes a semantic parser for visible and invisible sounds and a separator for scene-informed separation. AVSA-Sep successfully separates both sound types, with joint training and cross-modal alignment enhancing effectiveness.Comment: Accepted at ICCV 2023 - AV4D, 4 figures, 3 table

Similar works

Full text

Available Versions

arXiv.org e-Print Archive

oai:arXiv.org:2310.11713

Last time updated on 06/01/2024