Search CORE

15 research outputs found

Percepcijska utemeljenost kepstranih mjera udaljenosti za primjene u obradi govora

Author: Antonio Vasilijević
Davor Petrinović
Publication venue: KoREMA - Croatian Society for Communications, Computing, Electronics, Measurement and Control
Publication date: 01/01/2011
Field of study

Currently, one of the most widely used distance measures in speech and speaker recognition is the Euclidean distance between mel frequency cepstral coefﬁcients (MFCC). MFCCs are based on ﬁlter bank algorithm whose ﬁlters are equally spaced on a perceptually motivated mel frequency scale. The value of mel cepstral vector, as well as the properties of the corresponding cepstral distance, are determined by several parameters used in mel cepstral analysis. The aim of this work is to examine compatibility of MFCC measure with human perception for different values of parameters in the analysis. By analysing mel ﬁlter bank parameters it is found that ﬁlter bank with 24 bands, 220 mels bandwidth and band overlap coefﬁcient equal and higher than one gives optimal spectral distortion (SD) distance measures. For this kind of mel ﬁlter bank, the difference between vowels can be recognised for full-length mel cepstral SD RMS measure higher than 0.4 - 0.5 dB. Further on, we will show that usage of truncated mel cepstral vector (12 coefﬁcients) is justiﬁed for speech recognition, but may be arguable for speaker recognition. We also analysed the impact of aliasing in cepstral domain on cepstral distortion measures. The results showed high correlation of SD distances calculated from aperiodic and periodic mel cepstrum, leading to the conclusion that the impact of aliasing is generally minor. There are rare exceptions where aliasing is present, and these were also analysed.Jedna od danas najčešće korištenih mjera u automatskom prepoznavanju govora i govornika je mjera euklidske udaljenosti MFCC vektora. Algoritam za izračunavanje mel frekvencijskih kepstralnih koeﬁcijenata zasniva se na ﬁltarskom slogu kod kojeg su pojasi ekvidistantno raspoređeni na percepcijski motiviranoj mel skali. Na vrijednost mel kepstralnog vektora, a samim time i na svojstva kepstralne mjere udaljenosti glasova, utječe veći broj parametara sustava za kepstralnu analizu. Tema ovog rada je ispitati usklađenost MFCC mjere sa stvarnim percepcijskim razlikama za različite vrijednosti parametara analize. Analizom parametara mel ﬁltarskog sloga utvrdili smo da ﬁltar sa 24 pojasa, širine 220 mel-a i faktorom preklapanja ﬁltra većim ili jednakim jedan, daje optimalne SD mjere koje se najbolje slažu s percepcijom. Za takav mel ﬁltarski slog granica čujnosti razlike između glasova je 0.4-0.5 dB, mjereno SD RMS razlikom potpunih mel kepstralnih vektora. Također, pokazat ćemo da je korištenje mel kepstralnog vektora odrezanog na konačnu dužinu (12 koeﬁcijenata) opravdano za prepoznavanje govora, ali da bi moglo biti upitno u primjenama prepoznavanja govornika. Analizirali smo i utjecaj preklapanja spektara u kepstralnoj domeni na mjere udaljenosti glasova. Utvrđena je izrazita koreliranost SD razlika izračunatih iz aperiodskog i periodičkog mel kepstra iz čega zaključujemo da je utjecaj preklapanja spektara generalno zanemariv. Postoje rijetke iznimke kod kojih je utjecaj preklapanja spektara prisutan, te su one posebno analizirane

HRČAK - Portal of Croatian Scientific and Professional Journals

Hrčak - Portal of scientific journals of Croatia

Razvoj akustičkog modela hrvatskog jezika pomoću alata HTK

Author: Branimir Dropuljić
Davor Petrinović
Publication venue: KoREMA - Croatian Society for Communications, Computing, Electronics, Measurement and Control
Publication date: 01/01/2010
Field of study

Paper presents development of the acoustic model for Croatian language for automatic speech recognition (ASR). Continuous speech recognition is performed by means of the Hidden Markov Models (HMM) implemented in the HMM Toolkit (HTK). In order to adjust the HTK to the native language a novel algorithm for Croatian language transcription (CLT) has been developed. It is based on phonetic assimilation rules that are applied within uttered words. Phonetic questions for state tying of different triphone models have also been developed. The automated system for training and evaluation of acoustic models has been developed and integrated with the new graphical user interface (GUI). Targeted applications of this ASR system are stress inoculation training (SIT) and virtual reality exposure therapy (VRET). Adaptability of the model to a closed set of speakers is important for such applications and this paper investigates the applicability of the HTK tool for typical scenarios. Robustness of the tool to a new language was tested in matched conditions by a parallel training of an English model that was used as a baseline. Ten native Croatian speakers participated in experiments. Encouraging results were achieved and reported with the developed model for Croatian language.Rad opisuje razvoj akustičkog modela hrvatskog jezika za potrebe sustava za automatsko prepoznavanje govora. Prepoznavanje prirodnog spojenog izgovora ostvaruje se korištenjem skrivenih Markovljevih modela (HMM) u okviru alata HTK. U svrhu prilagodbe ovog alata na hrvatski jezik razvijen je novi algoritam za automatsku fonetsku transkripciju hrvatskih riječi. Zasniva se na načelu fonetske asimilacije unutar izgovorenih riječi. Razvijen je i skup fonetskih pitanja koji se koristi za klasifikaciju prilikom udruživanja trifonskih modela sličnih glasova. Razvijena je automatizirana aplikacija za gradnju i evaluaciju akustičkih modela, integrirana s novo razvijenim grafičkim sučeljem. Primjene ovog sustava za prepoznavanje su trening s doziranim izlaganjem stresu (SIT) i terapija izlaganjem primjenom virtualne stvarnosti (VRET). Prilagodljivost akustičkog modela na zatvoren skup govornika vrlo je važna za takve primjene, pa se u radu istražuje primjenjivost alata HTK u tipičnim scenarijima. Robusnost alata na promjenu jezika istražuje se uparenim treniranjem i evaluacijom ekvivalentnog modela engleskog jezika u jednakim uvjetima. U eksperimentima je sudjelovalo deset izvornih hrvatskih govornika. Ostvareni rezultati za hrvatski jezik prikazani u radu pokazuju zadovoljavajuća svojstva razvijenog akustičkog modela hrvatskog jezika

HRČAK - Portal of Croatian Scientific and Professional Journals

Hrčak - Portal of scientific journals of Croatia

Gaussian Mixture Model-based Quantization of Line Spectral Frequencies for Adaptive Multirate Speech Codec

Author: Davor Petrinović
Tihomir Tadić
Publication venue: 'University of Zagreb - University Computing Centre'
Publication date: 01/01/2011
Field of study

In this paper, we investigate the use of a Gaussian MixtureModel (GMM)-based quantizer for quantization of the Line Spectral Frequencies (LSFs) in the Adaptive Multi-Rate (AMR) speech codec. We estimate the parametric GMM model of the probability density function (pdf) for the prediction error (residual) of mean-removed LSF parameters that are used in the AMR codec for speech spectral envelope representation. The studied GMM-based quantizer is based on transform coding using Karhunen-Loeve transform (KLT) and transform domain scalar quantizers (SQ) individually designed for each Gaussian mixture. We have investigated the applicability of such a quantization scheme in the existing AMR codec by solely replacing the AMR LSF quantization algorithm segment. The main novelty in this paper lies in applying and adapting the entropy constrained (EC) coding for fixed-rate scalar quantization of transformed residuals thereby allowing for better adaptation to the local statistics of the source. We study and evaluate the compression efficiency, computational complexity and memory requirements of the proposed algorithm. Experimental results show that the GMM-based EC quantizer provides better rate/distortion performance than the quantization schemes used in the referent AMR codec by saving up to 7.32 bits/frame at much lower rate-independent computational complexity and memory requirements

Crossref

HRČAK - Portal of Croatian Scientific and Professional Journals

Hrčak - Portal of scientific journals of Croatia

Elektronika u riječi i slici - Trendovi u primjeni digitalne elektronike

Author: Davor Petrinović
Mirko Klaić urednik
Publication venue: KoREMA - Croatian Society for Communications, Computing, Electronics, Measurement and Control
Publication date: 01/01/2002
Field of study

HRČAK - Portal of Croatian Scientific and Professional Journals

Hrčak - Portal of scientific journals of Croatia

Elektronika u riječi i slici - Digitalna elektronika

Author: Davor Petrinović
Mirko Klaić urednik
Publication venue: KoREMA - Croatian Society for Communications, Computing, Electronics, Measurement and Control
Publication date: 01/01/2002
Field of study

HRČAK - Portal of Croatian Scientific and Professional Journals

Hrčak - Portal of scientific journals of Croatia

Intelligent Exploration of Sound Spaces Using Decision Trees and Evolutionary Approach

Author: Davor Petrinović
Gordan Kreković
Publication venue
Publication date
Field of study

(Abstract to follow

ZENODO

University of Michigan Library Digital Collections

Smjernice za verifikaciju alokacije ECTS bodova

Author: Aglić-Aljinović Andrea
Petrinović Davor
Publication venue: Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva
Publication date: 15/02/2022
Field of study

Priručnik je izrađen u sklopu projekta “Primjena Hrvatskog kvalifikacijskog okvira za sveučilišne studijske programe u području elektrotehnike – HKO-ELE”. U ovom dokumentu opisane su izrađene Smjernice za verifikaciju alokacije ECTS bodova, a njihova primjena je ilustrirana na primjeru uvođenja dva nova sveučilišna preddiplomska studijska programa: Elektrotehnika i informacijska tehnologija i Računarstvo koji su dio novih preddiplomskih i diplomskih studijskih programa FER-3. Ti se studijski programi uvode počevši od ak. god. 2018./2019. za preddiplomsku razinu, odnosno od ak. god. 2021./2022. za diplomsku razinu, dakle upravo za vrijeme trajanja projekta HKO-ELE. Izrada i tiskanje ovih smjernica, te izrada pripadajućeg programskog rješenja koje će također biti prikazano u ovoj publikaciji financirani su iz ovog projekta u sklopu navedene aktivnosti „Unapređivanje postupka osiguranja kvalitete visokog obrazovanja“

University of Zagreb Repository

FER Repository

Smjernice za verifikaciju alokacije ECTS bodova

Author: Aglić-Aljinović Andrea
Petrinović Davor
Publication venue: Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva
Publication date: 15/02/2022
Field of study

University of Zagreb Repository

25 godina Hrvatskog vojnog učilišta "Dr. Franjo Tuđman"

Author: Barić Slavko
Filjak Suzana
Jakopčić Mirko
Karlović Goran
Klarić Neven
Knežević Sandi
Kuhar Miroslav
Lozančić Marinko
Lucić Josip
Mandić Ivica
Matika Dario
Nazor Ante
Petrinović Davor
Platužić Andrija
Pranjić Stipe
Prpić Đurić Irena
Tuta Jadranko
Tuđman Miroslav
Čolić Miro
Živanović Željko
Žunec Ozren
Publication venue: Ministarstvo obrane Republike Hrvatske, Oružane snage RH, Hrvatsko vojno učilište "Dr. Franjo Tuđman"
Publication date: 01/01/2016
Field of study

Hrvatsko vojno učilište "Dr. Franjo Tuđman" obilježilo je svoju 25. obljetnicu održavanjem Okrugloga stola "HVU - od Domovinskog rata do sveučilišne zajednice". Skup je raspravom različitih sudionika omogućio sveobuhvatan prikaz uloge i značaja vojne izobrazbe od njezinih začetaka, trenutnog stanja te daljnje transformacije kao samostalnog sveučilišta ili dijela sveučilišne zajednice. Publikacija "25 godina Hrvatskog vojnog učilišta Dr. Franjo Tuđman" zbornik je radova tema i izlaganja pripremljenih za Okrugli stol na HVU-u održan 11. svibnja 2016. godine

University of Zagreb Repository

Repository of Croatian Defence Academy "Dr. Franjo Tuđman"

An algorithm for controlling arbitrary sound synthesizers using adjectives

Author: Antonio Pošćić
Chinen M.
Clement R.
Darke G.
Davor Petrinović
Disley A.C.
Friberg A.
Fujinaga I.
Gordan Kreković
Holland J.
Jehan T.
Kiseliova T.
Klir G.J.
Kosko B.
Kreković G.
Krimphoff J.
Krumhansl C.L.
Le Groux S.
Lokki T.
Macret M.
Miličević M.
Mintz D.
Miranda E.R.
Monti G.
Moravec O.
Neher T.
Orio N.
Peeters G.
Plomp R.
Plomp R.
Pošćić A.
Stepanek J.
Todoroff T.
Usa S.
von Bismarck G.
von Helmholtz H.L.F.
Weyde T.
Wishart T.
Wun S.
Yee-King M.J.
Yee-King M.J.
Young J.
Zacharakis A.
Publication venue: 'Informa UK Limited'
Publication date
Field of study

Crossref