Latviešu valodas modelēšana automātiskai runas atpazīšanai

Abstract

Pēdējo gadu laikā runas atpazīšanas tehnoloģiju panākumi tādām valodām kā angļu valoda ir izraisījuši satraukumu un jaunu interesi. Šie panākumi ir mudinājuši daudzus izstrādātājus pievērsties runas tehnoloģijām savai dzimtajai valodai. Tomēr lielākā daļa pētījumu ir koncentrēti ap “lielajām” valodām, bet tādas valodas kā latviešu nav aptvertas. Šīs doktora disertācijas mērķis ir atrast efektīvas un optimālas metodes vispiemērotāko modeļu un sistēmu radīšanai latviešu valodas vispārīgai runas atpazīšanai. Darbā analizēti gan teorētiskie, gan praktiskie aspekti: akustisko un valodu modeļu izpēte, sistēmu pielāgošana īpašiem uzdevumiem, automātiska datu vākšana, apgrieztā teksta normalizācija (interpunkcijas atjaunošana) un praktisku sistēmu izstrāde. Uz vispārīgas jomas novērtēšanas kopas darbā izstrādāta sistēma sasniedz kļūdas īpatsvaru 10,1%, un ievērojami pārsniedz Google (36,2 –50,6%) un Speechmatics (25,2%) risinājumus latviešu valodai.In recent years, the success of speech technologies like speech recognition and speech synthesis for languages like English has prompted a new excitement about spoken interfaces and an interest in further research of these technologies. However, most of the research and development are concentrated around “big” languages and languages like Latvian are not covered. The aim of this doctoral thesis is to research methods and models for automatic speech recognition for Latvian language. Both theoretical and practical aspects are covered, including a research on acoustic and language models, system adaptation for specific tasks, automatic data collection and augmentation, inverse text normalization (punctuation restoration) and practical system development. On a general domain evaluation set the developed system achieves a word error rate of 10.1% and significantly outperforms Google (error rate of 36.2-50.6%) and Speechmatics (error rate of 25.2%) solutions for Latvia

    Similar works