7 research outputs found

    Generative and discriminative classifiers in the tasks of text-independent speaker recognition and diarization

    No full text
    katedra: ITE; rozsah: 194 s. (i-xxii, 1-160, I-VIII)Tato disertační práce se zabývá problematikou textově nezávislého rozpoznávání mluvčích. V úvodní části jsou ve stručnosti vysvětleny základní pojmy a úlohy rozpoznávání mluvčích, je stručně popsán současný stav problematiky, představena motivace pro využití informace o identitě mluvčích v systémech vyvíjených Laboratoří počítačového zpracování řeči na Technické univerzitě v Liberci (TUL) a na základě toho stanoveny cíle práce. Samostatná kapitola je věnována metodám používaným pro vyhodnocování úspěšnosti rozpoznávání, včetně metod pro takzvané aplikačně nezávislé vyhodnocení, a metodám pro kalibraci a fúzi systémů. V následující kapitole jsou postupně představeny metody založené na generativních modelech, od standardních metod využívajících modely reprezentované směsí Gaussovských rozložení, po moderní metody založené na různých formách faktorové analýzy. V kapitole věnované metodám založeným na diskriminativním principu je pozornost soustředěna na metody založené na podpůrných vektorech a speciální jádrové funkce navržené pro úlohu rozpoznávání mluvčích. Na příkladu aplikace rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů jsou diskutovány některé rozdílné charakteristiky dat standardních evaluačních databází a reálných aplikací. Následně jsou předloženy výsledky experimentálního vyhodnocení několika systémů, založených na generativním i diskriminativním přístupu, na vytvořené evaluační databázi českých televizních a rozhlasových pořadů. Jazykové omezení umožňuje využití systémů vyvinutých na TUL pro získání automatického přepisu nahrávek a jeho použití při rozpoznávání mluvčích. Následující kapitola shrnuje popis vývoje systémů pro účast TUL v evaluaci systémů pro rozpoznávání mluvčích pořádané americkým Úřadem pro standardy a technologii (NIST) v roce 2010. Jedním z hlavních přínosů práce je pak návrh několika přístupů pro shlukování mluvčích v rámci úlohy diarizace audiozáznamů, včetně návrhu dvoufázového schématu shlukování s využitím těchto přístupů. Ty vycházejí z principů metod navržených pro rozpoznávání mluvčích a jsou založeny na faktorové analýze. Experimentální vyhodnocení prezentovaných přístupů je provedeno na základě databáze televizních a rozhlasových zpravodajských pořadů vytvořené s využitím dat korpusu COST278.This contribution proposes an efficient method for the detection of relevant changes in continuous stream of sound. The detected change-points can then serve for the segmentation of long audio recordings into shorter and more or less homogenous sections. First, we discuss the task of a single change-point detection using the Bayes decision theory. We show that it leads to a quite simple and computationally efficient solution based on the Bayesian Information Criterion. Next, we extend this approach to formulate the algorithm for the detection of multiple change-points. Finally, the proposed algorithm is applied for the segmentation of broadcast news audio-streams into parts belonging to different speakers or different acoustic conditions. Such segmentation is necessary as the first step in the automatic speech-to-text transcription of TV or radio news

    Speaker recognition in records of broadcast programmes

    No full text
    katedra: KES; přílohy: 1 CD ROM; rozsah: 56 s.Diplomová práce se zabývá návrhem systému rozpoznávání mluvčích. Po stručném úvodu do problematiky rozpoznávání mluvčích a přehledu současného stavu je vysvětlena souvislost hlasových charakteristik a použitých melovských kepstrálních příznaků (MFCC). Práce se dále soustřeďuje na přístupy k reprezentaci modelů mluvčích v textově nezávislých systémech, vektorovou kvantizaci (VQ) a zejména směsi Gaussovských rozložení (GMM). Hlavní motivací práce je vytvoření modulu rozpoznávání mluvčích integrovatelného do systému kompletního automatického přepisu televizních a rozhlasových pořadů a tomu odpovídá formulace požadavků a návrh řešení. Byla provedena řada experimentů zabývajících se mimo jiné různými způsoby vyhodnocení identifikace a verifikace mluvčích, porovnáním vlivu různých metod estimace parametrů modelů, nebo významem detekce hlasových framů. Na jejich základě se podařilo nalézt vhodnou kombinaci metod a jejich nastavení. Při poměrně vysokém počtu 306 referenčních řečníků se podařilo dosáhnout úspěšnosti rozpoznávání více než 81 %.The diploma thesis deals with design of speaker recognition system. After brief introducing to the field of speaker recognition and a summarization of the current state, the relationship between voice characteristics and mel cepstral coefficients (MFCC), used in proposed system, is explained. An attention of this thesis is then concentrated on approaches used to speaker modeling in text-independent systems, vector quantization (VQ) and particularly Gaussian mixture models (GMM). Main aim is to built a speaker recognition module integrable to the system for fully automated transcription of broadcast programmes, which impacts the demands and the proposed solution. Performed experiments compare different approaches to evaluation of speaker identification and verification, different methods for estimation of model parameters or signification of voice frame detection. Accordingly to the acquired results, the appropriate combination of methods and their configuration was chosen. Using quite large population of 306 reference speakers, the recognition rate exceeded the level of 81 %

    Search for speaker identity in historical oral archives

    No full text
    corecore