Search CORE

1 research outputs found

PITCH DETECTOR IN SPEECH PROCESSING ABSTRACT

Author: Dalibor Pernica
Master Degree Programme
Petr Motlíček
Supervised Dr
Publication venue
Publication date
Field of study

The paper presents a novel method for detection of pitch in speech processing. The work focuses on a time domain algorithm for segmenting voiced speech that uses similarity of adjacent segments. The experimental results while testing this detector are presented and compared to OGIvox speech database. 1 ÚVOD Základním tónem rozumíme základní kmitočet (pitch) na kterém kmitají hlasivky. Spolu s formantovými frekvencemi patˇrí mezi základní fonetické charakteristiky ˇrečového signálu. Využívá se zejména v syntetizátorech a kodérech ˇreči. Existují dvě skupiny metod pracující v časové nebo ve frekvenční oblasti. V časové oblasti se využívá podobnosti ˇrečových úsek ˚ u a ve frekven ční napˇr. vlastností lichých harmonických. Dále bude věnována pozornost detektoru pracujícím v časové oblasti. 2 SEGMENTACE V ČASOVÉ OBLASTI Cílem segmentace je rozdělení ˇrečového signálu na takové části, z nichž délka každé části pˇrímo odpovídá periodě základního tónu ve zkoumaném úseku. Mějme znělý ˇrečový signál a v něm dva sousedící segmenty U1 a U2 začínající v místě, kde signál protíná časovou osu pˇri vzestupu ze záporných hodnot do kladných. Nejjednodušším zp ˚ usobem, jak ohodnotit podobnost segment ˚ u, je ur čit energii rozdílového signálu mezi odpovídajícími si vzorky podle (1). d(U1,U2) = min(n1,n2) n=1 (x1[n] − x2[n]) 2, (1) kde Ui = (xi[1],xi[2],...,xi[ni]) pro i = 1,2 jsou segmenty signálu a ni pro i = 1,2 jsou délky segment ˚ u. Nyní hledáme takovou posloupnost dělících bod ˚ u pro kterou je sou čet dílčích vzdáleností mezi sousedícími segmenty minimální, pˇričemž posloupnost musí začínat (končit) ve vzdálenosti dmin od začátku (konce) signálu a dále největší možná délka segment ˚ u je dmax. Hodnoty udává (2). dmin = Fs, dmax

CiteSeerX