2 research outputs found

    An Automatic Commercial Search Application for TV Broadcasting Using Audio Fingerprinting

    Get PDF
    Nowadays, TV advertising is an important part of our daily life. However, it is usually hard for organizations that produce and pay for the advertisements to confirm whether their commercials are broadcasted as required in time and frequency. Consequently, a multimedia file search problem arises and it has drawn more and more attention in the past decade. In this thesis, we propose an automatic commercial search scheme using audio fingerprinting and implement it in a PC-based application. Our commercial search algorithm is composed of two parts: one for audio feature extraction and another for database search. For the first part, although the video stream of TV broadcast contains a great deal of intuitive information, we decide to ignore it because it takes much more storage and computations to process. For the audio stream, we have to extract proper audio features which can represent its characteristics and store them in a database for identification. We choose the Normalized Spectral Subband Centroids (NSSCs) as our audio fingerprints and preprocess the known commercials to build the database. For the second part, we apply a three-step process to search for any matches as the user requests, which comprises candidate search, decision-making and time verification. This process is performed for every N1 (N1=15 in our application) frames if the search result is negative. Once a match is confirmed, we skip the frames left in the commercial and use the frame after it to start a new process. Our experiment results are satisfactory based on the commercial and TV program data in our database. Moreover, it shows that our PC-based application is robust against degradation during real broadcast and recording

    Enhancing the effectiveness of automatic speech recognition

    Get PDF
    V práci jsou identifikovány příčiny nedostatečné spolehlivosti současných systémů pro automatické rozpoznávání řeči při jejich nasazení v náročných podmínkách. U jednotlivých rušivých vlivů je popsán jejich dopad na úspěšnost rozpoznávání a je podán výčet známých postupů pro identifikaci těchto vlivů analýzou rozpoznávaného signálu. Je též uveden přehled obvyklých metod používaných k omezení dopadu rušivých vlivů na funkci rozpoznávače řeči. Vlastní přínos tkví v navržení nových postupů pro vytváření akustických modelů zašuměné řeči a modelů nestacionárního šumu, díky kterým je možné dosáhnout vysoké úspěšnosti rozpoznávání v náročných akustických podmínkách. Účinnost navržených opatření byla otestována na rozpoznávači izolovaných slov s využitím nahrávky reálného akustického pozadí operačního sálu pořízené na Uniklinikum Marburg v Německu při několikahodinové neurochirurgické operaci. Tato práce jako první přináší popis dopadu změn v hlasovém úsilí mluvčích na spolehlivost rozpoznávání řeči v celém rozsahu, tj. od šepotu až po křik. Je navržena koncepce rozpoznávače řeči, který je imunní vůči změnám v hlasovém úsilí mluvčích. Pro účely zkoumání změn v hlasovém úsilí byla v rámci řešení práce sestavena nová řečová databáze BUT-VE1.This work identifies the causes for unsatisfactory reliability of contemporary systems for automatic speech recognition when deployed in demanding conditions. The impact of the individual sources of performance degradation is documented and a list of known methods for their identification from the recognized signal is given. An overview of the usual methods to suppress the impact of the disruptive influences on the performance of speech recognition is provided. The essential contribution of the work is the formulation of new approaches to constructing acoustical models of noisy speech and nonstationary noise allowing high recognition performance in challenging conditions. The viability of the proposed methods is verified on an isolated-word speech recognizer utilizing several-hour-long recording of the real operating room background acoustical noise recorded at the Uniklinikum Marburg in Germany. This work is the first to identify the impact of changes in speaker’s vocal effort on the reliability of automatic speech recognition in the full vocal effort range (i.e. whispering through shouting). A new concept of a speech recognizer immune to the changes in vocal effort is proposed. For the purposes of research on changes in vocal effort, a new speech database, BUT-VE1, was created.
    corecore