research

Речевые корпусы как средства создания и хранения образцовых речевых сигналов

Abstract

Мовленнєві корпуси є важливою складовою частиною інструментарію сучасних дослідників у таких галузях, як корекція мовних сигналів, розроблення та тестування елементів телекомунікаційних систем і систем автоматичного розпізнавання мови. У статті виконано пошук елементів технології порівняно швидкої побудови звукової частини корпусів зашумленого українського мовлення. З цією метою розглянуто характеристики найбільш вживаних сучасних корпусів зашумленого мовлення, що дало можливість сформулювати принципи розроблення таких корпусів. Правильність сформульованих принципів показано на прикладі доволі відомого сучасного програмного інструментарію FaNT, який дає змогу швидко формувати мовленнєві корпуси із потрібними властивостями. Розроблено рекомендації з побудови аналогічного програмного інструментарію в середовищі Matlab. Такий інструментарій у подальшому дасть можливість не тільки одержати спільними зусиллями кращий варіант корпусу зашумленого українського мовлення, але й порівнювати між собою алгоритми придушення завад та алгоритми автоматичного розпізнавання мови, запропоновані різними розробниками.Speech corpora are an important constituent of modern investigators’ toolkit in such areas as speech correction, designing and testing elements of telecommunication systems and systems of automatic speech recognition. In this paper, we search for elements of construction technology of the sound part of noisy Ukrainian speech corpora. To this end, we consider characteristics of the most widely used modern noisy speech corpora which allow formulating principles of such corpora design. The regularity of formulated principles is shown by an example of known modern program toolkit FaNT which permits constructing quickly speech corpora with required properties. The guidelines on constructing similar program toolkit in Matlab environment are developed. Such toolkit will allow not only to work out by joint efforts the best version of a Ukrainian noisy speech corpus, but to compare algorithms of noise reduction and algorithms of automatic speech recognition elaborated by various scientists with one another in the future.Речевые корпусы являются важной составной частью инструментария современных исследователей в таких областях, как коррекция речевых сигналов, разработка и тестирование элементов телекоммуникационных систем и систем автоматического распознавания речи. В статье произведен поиск элементов технологии сравнительно быстрого построения звуковой части корпусов зашумленной украинской речи. С этой целью рассмотрены характеристики наиболее востребованных современных корпусов зашумленной речи, что позволило сформулировать принципы разработки таких корпусов. Правильность сформулированных принципов показана на примере весьма известного современного программного инструментария FaNT, позволяющего быстро формировать речевые корпусы с нужными свойствами. Разработаны рекомендации по построению аналогичного программного инструментария в среде Matlab. Такой инструментарий в дальнейшем позволит не только получить общими усилиями лучший вариант корпуса зашумленной украинской речи, но и сравнивать между собой алгоритмы подавления помех и алгоритмы автоматического распознавания речи, предложенные различными разработчиками

    Similar works