Search CORE

2 research outputs found

Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa

Author: Matero M. (Matti)
Nykänen M. (Markus)
Ojala K. (Karri)
Publication venue: University of Oulu
Publication date: 06/06/2016
Field of study

Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttamista kertoimiksi ja lopulta varsinaista tunnistusprosessia. Pääpaino on vektorikvantisoinnilla ja Gaussin sekoitemallilla, muita menetelmiä käydään läpi lyhyemmin. Puhujantunnistusta ja varmennusta testattiin sekä vektorikvantisoinnilla että Gaussin sekoitemallilla erilaisilla kertoimilla ja koodivektoreiden/sekoitekomponenttien määrillä. Kertoimina käytettiin MFCC ja siitä johdettuja delta sekä deltadeltakertoimia. Lisäksi testattiin, miten kertoimien normalisointi, koulutusdatan määrä ja hiljaisten hetkien poisto lausahduksista vaikuttaa päätöksentekoon. Vektorikvantisoinnissa tutkittiin myös koodivektorien painotuksen vaikutusta. Testeissä havaittiin, että vektorikvantisoinnilla päästään painotuksen avulla varsin lähelle Gaussin sekoitemallin tuloksia noin puolta lyhyemmässä ajassa. Koodivektorien määrä lisäämällä päästiin tunnistuksessa käytännössä samoihin tuloksiin kuin Gaussin sekoitemallilla, mutta tällöin suoritusaika oli pidempi kuin Gaussin sekoitemallilla. Varmennustesteissä GMM oli lähes poikkeuksetta parempi kuin VQ. Universaalin taustamallin ja deltakertoimien käytön havaittiin parantavan varmennuksen tarkkuutta. Lisäksi hiljaisten hetkien poistaminen lausahduksista todettiin johtavan tarkempiin tuloksiin.This thesis does an overview on speaker recognition, and then some methods are tested in practice. First some background on speaker recognition and the features of voice are overviewed, and afterwards different parts of a speech recognition system are reviewed, such as preprocessing the sound, calculating coefficients and finally the actual recognition process. The main focus is on vector quantization and Gaussian mixture model, some other popular methods are explained more shortly. Speaker recognition and verification were tested using vector quantization and a Gaussian mixture model with several different coefficients and code vector and mixture component quantities. MFCC as well as MFCC derived delta and deltadelta coefficients were used in the tests. The effect of the quantity of training data, coefficient normalization and speech sample silence removal were tested. Code vector weighting was also tested with vector quantization. The test results showed that vector quantization with weighting can almost reach the accuracy of Gaussian mixture model, while taking about half of the time to process. Adding more code vectors resulted in even closer results compared to Gaussian mixture model, but then VQ would be slower than GMM. In speaker verification, GMM was almost invariably better than VQ. Universal background model and delta coefficients were found to improve the results in speaker verification. Additionally, speech sample silence removal was found to lead to more accurate results

University of Oulu Repository - Jultika

Effect of wet spinning parameters on the properties of novel cellulosic fibres

Author: AC Wilkes
AM Hindeleh
AM Hindeleh
Danuta Ciechańska
H Brumberger
H Struszczyk
H-P Fink
J Goodisman
Jaroslaw Janicki
Kristina Elg Christoffersson
L Rahkamo
M Matero
M Rabiej
Marianna Vehviläinen
Matti Siika-Aho
Monika Rom
O Ellefsen
P Bernfeld
Pertti Nousiainen
RL Mitchell
Stina Grönqvist
Taina Kamppuri
WE Morton
Publication venue: 'Springer Science and Business Media LLC'
Publication date
Field of study

Crossref