Creating a database of audio recordings with artificial noise in an anechoic chamber

Abstract

V této bakalářské práci se zabývám tvorbou databáze zvukových nahrávek a následným vytvoření databáze nahrávek hlasu, které byly nahrány v bezodrazové komoře. Databáze byla vytvořena tak, aby mohla být použita pro učení neuronové sítě s cílem oddělit řeč od hluku pozadí. Z tohoto důvodu jsou součástí databáze i záznamy hluků, které slouží pro umělé zašumění nahrávek hlasu. Dataset zahrnuje nahrávky 18 řečníků ve věku od 16 do 76 let. Polovina řečníků byli muži, polovina ženy. Dataset obsahuje 405 nahrávek hlasu o průměrné délce 46,7 vteřin a celkové délce 315 minut. Kombinací každé nahrávky hlasu s každou nahrávkou šumu ve třech úrovních odstupu signálu od šumu vzniklo 7290 uměle zašumených nahrávek hlasu.This bachelor thesis deals with theory of creating the database of sound records and subsequent creating the database of speech records in the anechoic chamber. Database was created as training dataset for learning process of the artificial neural network, which will be able to separate the speech from background noise. Therefore as the part of the database there are also the recordings of various types of noise that will be used as background noise for the voice recordings. The dataset contains records taken from 18 speakers aged from 16 to 76 years. Half of the speakers were men, half women. Database contains 405 records of speach of average length 46,7 secons and total length 315 minutes. By combining each speech record with each noise record at three levels of signal-to-noise ratio was created 7290 mixed records.

    Similar works