Точність систем автоматичного розпізнавання мовлення, навчених на зашумленому мовленні

Abstract

In this paper two techniques of automatic speech recognition system training on noised speechare compared with technique of training on clean speech. The comparing has been made by means ofspeech recognition accuracy measure, with usage of fourteen kinds of noise. These were noises of householdappliances and computers, street and transport, teaching rooms and lobbies. The superiority degree ofnoised speech training techniques over the competitive technique has been assessed. It is shown thattraining on noised speech allows reaching the 95% recognition accuracy for minimal signal-to-noise ratio10 dB, whereas training on clean speech allows reaching the same recognition accuracy for minimalsignal-to-noise ratio 20 dBСопоставлены методы обучения системы автоматического распознавания на зашумленной речи и метод обучения на чистой речи. Сравнение выполнено для четырнадцати видов шумов, с использованием такой меры как точность распознавания. Использованы шумы бытовой техники т компьютеров, шумы улицы и уличного транспорта, шумы учебных помещений и вестибюлей. Получены оценки степени превосходства методов обучения на зашумленной речи над конкурентным методом. Показано, что при обучении на зашумленной речи можно достичь точности распознавания 95% для отношений сигнал-шум, не менее 10 дБ, тогда как при обучениина чистой речи такой же точности можно достичь для отношений сигнал-шум не менее 20 дБВиконано порівняння двох методів навчання системи автоматичного розпізнавання мовлення на зашумленому мовленні із методом навчання на чистому мовленні. Порівняння виконано для чотирнадцяти видів шумів із використанням такої міри, як точність розпізнавання. Використано шуми побутової техніки та комп’ютерів, вуличні шуми та шуми транспорту, шуми в навчальних приміщеннях та вестибюлях. Одержано оцінки ступеню переваги методів навчання на зашумленому мовленні над конкурентним методом. Показано, що при навчанні назашумленому мовленні точності розпізнавання 95% можна досягнути при відношеннях сигнал-шум, не меншихза 10 дБ, тоді як при навчанні на чистому мовленні можна досягнути такої ж точності при відношенні сигнал-шум, не менших за 20 д

    Similar works