    Фанетычная мінімізацыя корпуса тэкстаў на беларускай мове для навучання сістэмы сінтэзу маўлення

    The most modern speech synthesis systems are based on the corpus-based method. The corpus-based method, unlike previously popular compilation method, uses natural speech database that does not consist of separate specially selected elements of compilation, but represents the corpus of phonograms of natural speech. Large amounts of text and corresponding audio information, which represents a significant challenge for so-called under-resourced languages, which include Belarusian, are required to achieve high-quality synthesized speech in this approach. In this case, a common approach is to use phonetic minimization, special selection of texts, when the amount of text corpus is maximally reduced, but at the same time phonetic fullness is preserved. The article discusses the information about the nature and the functioning the corpus-based method of sound signal generation in speech synthesis systems, provides a detailed overview of the approaches to the formation of text and speech corpuses, required for speech generation by the corpus-based method. The second half of the work is devoted to the description of the elaborated algorithm of the text corpus phonetic minimization in Belarusian language, as well as technical and linguistic resources used to implement it. A description of the developed software prototype as well as a description of the series of experiments on phonetic minimization are given to demonstrate the efficiency of the algorithm.Большасць сучасных сістэм сінтэзу маўлення базіруюць сваю працу на корпусным метадзе. Корпусны метад, у адрозненні ад папулярнага раней кампіляцыйнага, выкарыстоўвае базу дадзеных натуральнага маўлення, якая складаецца не з асобных спецыяльна выбраных элементаў кампіляцыі, а ўяўляе сабой корпус фанаграм натуральнага маўлення. Для дасягнення высокай якасці сінтэзаванага маўлення пры такім падыходзе патрабуюцца вялікія аб’ѐмы тэкставай і адпаведнай гукавой інфармацыі, што з’яўляецца істотнай праблемай для так званых нерэсурсных моў, да якіх адносіцца і беларуская. У такім выпадку, як правіла, прымяняецца фанетычная мінімізацыя – адмысловы адбор тэкстаў, у выніку якога аб’ѐм тэкставага корпуса максімальна змяншаецца, але пры гэтым захоўваецца фанетычная паўната. У артыкуле разглядаюцца звесткі пра сутнасць і спосаб працы корпуснага метаду генерацыі гукавога сігналу ў сістэмах сінтэзу маўлення, прыводзіцца падрабязны агляд падыходаў да фарміравання тэкставых і маўленчых карпусоў, неабходных для генерацыі маўлення корпусным метадам. Другая палова працы прысвечана апісанню распрацаванага алгарытму фанетычнай мінімізацыі корпуса тэкстаў на беларускай мове, а таксама тэхнічных і лінгвістычных рэсурсаў, выкарыстаных для яго рэалізацыі. Прыводзяцца апісанні распрацаванага праграмнага прататыпа і шэрагу праведзеных аўтарам эксперыментаў па фанетычнай мінімізацыі

    Unified Approach to Development of ASR Systems for East Slavic Languages

