169 research outputs found

    Learning Speech Separation Using Spatial Cues

    Get PDF
    Tahle práce pojednává o~možnosti použití prostorových informací pro odhadnutí masek pro cíle, které je uvedeno v~článku \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. Tahle myšlenka umožňuje použití neumělých náhrávek směsice signálů pro trénování systémů separace řečníků, které používají neuronové sítě. V~práci jsou zmíněny dvě trénovací metotody a to permutačně invariantní trénování a dále pak metoda deep clustering. Tyto metody jsou použity pro experimenty s~trénováním neuronových sítí s~použítím masek cílů, které jsou odhadnuty pomocí prostorové informace. Výsledkem práce je porovnání výsledků těchto experimentů s~výsledky výše zmíněného článku. Tohle porovnání ukázalo, že použití odhadnutých masek za pomoci prostorových informací, může vést ke kvalitnímu natrénování systému separace řečníků.This thesis discusses the idea of using spatial cues in speech separation for estimating target masks, that is stated in article \textit{Bootstrapping single-channel source separation via unsupervised spatial clustering on stereo mixtures}. This idea may make it possible to use real-world mixtures for the training of speech separation systems, which use neural networks. In the thesis two training methods, permutation invariant training and deep clustering method are mentioned and used for experiments with training neural networks using target masks estimated by spatial cues. The result of the work is a comparison of the results of these experiments with the results of the above-mentioned article. This comparison showed that the use of estimated masks with the help of spatial information can lead to a quality training of the speaker separation system.
    corecore