'Afyon Kocatepe Universitesi Fen Ve Muhendislik Bilimleri Dergisi'
Doi
Abstract
Bu çalışmada toplamda doksan iki adet sesli komuttan oluşan bir yalıtık sözcüklü Türkçe konuşma
tanıma sistemi tasarlanmış ve gerçekleştirilmiştir. Sistem, destek vektör makinesi (SVM) tabanlı olup,
eğitimde kullanılan veri kümesi kaydedilen konuşmaların yapay olarak çeşitlendirilip artırılmasıyla elde
edilmiştir. Farklı yapay veri oranlarının tanıma başarımı üzerindeki etkisi incelenmiştir. Akustik öznitelik
olarak, mel frekansı kepstral katsayıları (MFCC) kullanılmıştır. Ayrıca, ses aktivitesi tespitinin ve MFCC
katsayılarının tanıma başarımına etkileri de irdelenmiştir. Sonuçta doksan iki yalıtık komut için ortalama
%92.6’lık doğrulukla çalışan bir konuşma tanıma sistemi geliştirilmiştir.In this study, an isolated-word Turkish speech recognition system comprising of ninety-two voiced
commands has been designed and implemented. The system is support vector machine (SVM) based
and the data set used in training has been obtained by augmenting the original recordings artificially.
The effect of different augmented data amounts on recognition performance has been examined. As
acoustic features, mel frequency cepstral coefficients (MFCC) were used. Moreover, the effects of voice
activity detection and MFCCs on recognition performance have also been investigated. In the end,
92.6% recognition accuracy on average has been obtained for ninety-two isolated commands