15 research outputs found
Percepcijska utemeljenost kepstranih mjera udaljenosti za primjene u obradi govora
Currently, one of the most widely used distance measures in speech and speaker recognition is the Euclidean distance between mel frequency cepstral coefļ¬cients (MFCC). MFCCs are based on ļ¬lter bank algorithm whose ļ¬lters are equally spaced on a perceptually motivated mel frequency scale. The value of mel cepstral vector, as well as the properties of the corresponding cepstral distance, are determined by several parameters used in mel cepstral analysis. The aim of this work is to examine compatibility of MFCC measure with human perception for different values of parameters in the analysis. By analysing mel ļ¬lter bank parameters it is found that ļ¬lter bank with 24 bands, 220 mels bandwidth and band overlap coefļ¬cient equal and higher than one gives optimal spectral distortion (SD) distance measures. For this kind of mel ļ¬lter bank, the difference between vowels can be recognised for full-length mel cepstral SD RMS measure higher than 0.4 - 0.5 dB. Further on, we will show that usage of truncated mel cepstral vector (12 coefļ¬cients) is justiļ¬ed for speech recognition, but may be arguable for speaker recognition. We also analysed the impact of aliasing in cepstral domain on cepstral distortion measures. The results showed high correlation of SD distances calculated from aperiodic and periodic mel cepstrum, leading to the conclusion that the impact of aliasing is generally minor. There are rare exceptions where aliasing is present, and these were also analysed.Jedna od danas najÄeÅ”Äe koriÅ”tenih mjera u automatskom prepoznavanju govora i govornika je mjera euklidske udaljenosti MFCC vektora. Algoritam za izraÄunavanje mel frekvencijskih kepstralnih koeļ¬cijenata zasniva se na ļ¬ltarskom slogu kod kojeg su pojasi ekvidistantno rasporeÄeni na percepcijski motiviranoj mel skali. Na vrijednost mel kepstralnog vektora, a samim time i na svojstva kepstralne mjere udaljenosti glasova, utjeÄe veÄi broj parametara sustava za kepstralnu analizu. Tema ovog rada je ispitati usklaÄenost MFCC mjere sa stvarnim percepcijskim razlikama za razliÄite vrijednosti parametara analize. Analizom parametara mel ļ¬ltarskog sloga utvrdili smo da ļ¬ltar sa 24 pojasa, Å”irine 220 mel-a i faktorom preklapanja ļ¬ltra veÄim ili jednakim jedan, daje optimalne SD mjere koje se najbolje slažu s percepcijom. Za takav mel ļ¬ltarski slog granica Äujnosti razlike izmeÄu glasova je 0.4-0.5 dB, mjereno SD RMS razlikom potpunih mel kepstralnih vektora. TakoÄer, pokazat Äemo da je koriÅ”tenje mel kepstralnog vektora odrezanog na konaÄnu dužinu (12 koeļ¬cijenata) opravdano za prepoznavanje govora, ali da bi moglo biti upitno u primjenama prepoznavanja govornika. Analizirali smo i utjecaj preklapanja spektara u kepstralnoj domeni na mjere udaljenosti glasova. UtvrÄena je izrazita koreliranost SD razlika izraÄunatih iz aperiodskog i periodiÄkog mel kepstra iz Äega zakljuÄujemo da je utjecaj preklapanja spektara generalno zanemariv. Postoje rijetke iznimke kod kojih je utjecaj preklapanja spektara prisutan, te su one posebno analizirane
Razvoj akustiÄkog modela hrvatskog jezika pomoÄu alata HTK
Paper presents development of the acoustic model for Croatian language for automatic speech recognition (ASR). Continuous speech recognition is performed by means of the Hidden Markov Models (HMM) implemented in the HMM Toolkit (HTK). In order to adjust the HTK to the native language a novel algorithm for Croatian language transcription (CLT) has been developed. It is based on phonetic assimilation rules that are applied within uttered words. Phonetic questions for state tying of different triphone models have also been developed. The automated system for training and evaluation of acoustic models has been developed and integrated with the new graphical user interface (GUI). Targeted applications of this ASR system are stress inoculation training (SIT) and virtual reality exposure therapy (VRET). Adaptability of the model to a closed set of speakers is important for such applications and this paper investigates the applicability of the HTK tool for typical scenarios. Robustness of the tool to a new language was tested in matched conditions by a parallel training of an English model that was used as a baseline. Ten native Croatian speakers participated in experiments. Encouraging results were achieved and reported with the developed model for Croatian language.Rad opisuje razvoj akustiÄkog modela hrvatskog jezika za potrebe sustava za automatsko prepoznavanje govora. Prepoznavanje prirodnog spojenog izgovora ostvaruje se koriÅ”tenjem skrivenih Markovljevih modela (HMM) u okviru alata HTK. U svrhu prilagodbe ovog alata na hrvatski jezik razvijen je novi algoritam za automatsku fonetsku transkripciju hrvatskih rijeÄi. Zasniva se na naÄelu fonetske asimilacije unutar izgovorenih rijeÄi. Razvijen je i skup fonetskih pitanja koji se koristi za klasifikaciju prilikom udruživanja trifonskih modela sliÄnih glasova. Razvijena je automatizirana aplikacija za gradnju i evaluaciju akustiÄkih modela, integrirana s novo razvijenim grafiÄkim suÄeljem. Primjene ovog sustava za prepoznavanje su trening s doziranim izlaganjem stresu (SIT) i terapija izlaganjem primjenom virtualne stvarnosti (VRET). Prilagodljivost akustiÄkog modela na zatvoren skup govornika vrlo je važna za takve primjene, pa se u radu istražuje primjenjivost alata HTK u tipiÄnim scenarijima. Robusnost alata na promjenu jezika istražuje se uparenim treniranjem i evaluacijom ekvivalentnog modela engleskog jezika u jednakim uvjetima. U eksperimentima je sudjelovalo deset izvornih hrvatskih govornika. Ostvareni rezultati za hrvatski jezik prikazani u radu pokazuju zadovoljavajuÄa svojstva razvijenog akustiÄkog modela hrvatskog jezika
Gaussian Mixture Model-based Quantization of Line Spectral Frequencies for Adaptive Multirate Speech Codec
In this paper, we investigate the use of a Gaussian MixtureModel (GMM)-based quantizer for quantization of the Line Spectral Frequencies (LSFs) in the Adaptive Multi-Rate (AMR) speech codec. We estimate the parametric GMM model of the probability density function (pdf) for the prediction error (residual) of mean-removed LSF parameters that are used in the AMR codec for speech spectral envelope representation. The studied GMM-based quantizer is based on transform coding using Karhunen-Loeve transform (KLT) and transform domain scalar quantizers (SQ) individually designed for each Gaussian mixture. We have investigated the applicability of such a quantization scheme in the existing AMR codec by solely replacing the AMR LSF quantization algorithm segment. The main novelty in this paper lies in applying and adapting the entropy constrained (EC) coding for fixed-rate scalar quantization of transformed residuals thereby allowing for better adaptation to the local statistics of the source. We study and evaluate the compression efficiency, computational complexity and memory requirements of the proposed algorithm. Experimental results show that the GMM-based EC quantizer provides better rate/distortion performance than the quantization schemes used in the referent AMR codec by saving up to 7.32 bits/frame at much lower rate-independent computational complexity and memory requirements
Intelligent Exploration of Sound Spaces Using Decision Trees and Evolutionary Approach
(Abstract to follow
Smjernice za verifikaciju alokacije ECTS bodova
PriruÄnik je izraÄen u sklopu projekta āPrimjena Hrvatskog kvalifikacijskog okvira za sveuÄiliÅ”ne studijske programe u podruÄju elektrotehnike ā HKO-ELEā. U ovom dokumentu opisane su izraÄene Smjernice za verifikaciju alokacije ECTS bodova, a njihova primjena je ilustrirana na primjeru uvoÄenja dva nova sveuÄiliÅ”na preddiplomska studijska programa: Elektrotehnika i informacijska tehnologija i RaÄunarstvo koji su dio novih preddiplomskih i diplomskih studijskih programa FER-3. Ti se studijski programi uvode poÄevÅ”i od ak. god. 2018./2019. za preddiplomsku razinu, odnosno od ak. god. 2021./2022. za diplomsku razinu, dakle upravo za vrijeme trajanja projekta HKO-ELE. Izrada i tiskanje ovih smjernica, te izrada pripadajuÄeg programskog rjeÅ”enja koje Äe takoÄer biti prikazano u ovoj publikaciji financirani su iz ovog projekta u sklopu navedene aktivnosti āUnapreÄivanje postupka osiguranja kvalitete visokog obrazovanjaā
Smjernice za verifikaciju alokacije ECTS bodova
PriruÄnik je izraÄen u sklopu projekta āPrimjena Hrvatskog kvalifikacijskog okvira za sveuÄiliÅ”ne studijske programe u podruÄju elektrotehnike ā HKO-ELEā. U ovom dokumentu opisane su izraÄene Smjernice za verifikaciju alokacije ECTS bodova, a njihova primjena je ilustrirana na primjeru uvoÄenja dva nova sveuÄiliÅ”na preddiplomska studijska programa: Elektrotehnika i informacijska tehnologija i RaÄunarstvo koji su dio novih preddiplomskih i diplomskih studijskih programa FER-3. Ti se studijski programi uvode poÄevÅ”i od ak. god. 2018./2019. za preddiplomsku razinu, odnosno od ak. god. 2021./2022. za diplomsku razinu, dakle upravo za vrijeme trajanja projekta HKO-ELE. Izrada i tiskanje ovih smjernica, te izrada pripadajuÄeg programskog rjeÅ”enja koje Äe takoÄer biti prikazano u ovoj publikaciji financirani su iz ovog projekta u sklopu navedene aktivnosti āUnapreÄivanje postupka osiguranja kvalitete visokog obrazovanjaā
25 godina Hrvatskog vojnog uÄiliÅ”ta "Dr. Franjo TuÄman"
Hrvatsko vojno uÄiliÅ”te "Dr. Franjo TuÄman" obilježilo je svoju 25. obljetnicu održavanjem Okrugloga stola "HVU - od Domovinskog rata do sveuÄiliÅ”ne zajednice". Skup je raspravom razliÄitih sudionika omoguÄio sveobuhvatan prikaz uloge i znaÄaja vojne izobrazbe od njezinih zaÄetaka, trenutnog stanja te daljnje transformacije kao samostalnog sveuÄiliÅ”ta ili dijela sveuÄiliÅ”ne zajednice. Publikacija "25 godina Hrvatskog vojnog uÄiliÅ”ta Dr. Franjo TuÄman" zbornik je radova tema i izlaganja pripremljenih za Okrugli stol na HVU-u održan 11. svibnja 2016. godine