Search CORE

9 research outputs found

Magyar nyelv nagyszótáras beszédfelismerési feladatok adatelégtelenségi problémáinak csökkentése nyelvimodell-interpoláció alkalmazásával

Author: Mihajlik Péter
Tarján Balázs
Publication venue
Publication date: 01/01/2010
Field of study

A lineáris interpolációt elterjedten alkalmazzák in-domain és out-ofdomain nyelvi modellek egyesítésére folyamatos, nagyszótáras gépi beszédfelismerési feladatokon. Nyelvünk gazdag morfológiája azonban szükségessé teszi, hogy morfémaalapon is megvizsgáljuk a módszer hatékonyságát, és öszszevessük az interpolációs és a tanítókorpuszok sima egyesítésével kapható eredményeket. Cikkünkben bemutatunk egy új megközelítést morfémaalapú nyelvi modellek interpolációjára, mellyel 3gram modellek esetén sikerült megjavítani a korpuszegyesítéses módszer eredményét. A nyelvimodellkomplexitást 4gramra növelve azonban az interpolációval nyerhet elny elt- nik, így megítélésünk szerint a morfémaalapú interpolációra vonatkozóan további vizsgálatok szükségesek. Kísérleteink során sikerült 12% alá csökkenteni a szóhibaarányt a tesztelési célokra használt hangoskönyvrészleten, mely legjobb tudomásunk szerint az eddigi legalacsonyabb eredmény magyar nyelv, nagyszótáras feladaton

University of Szeged

Speech recognition experiments with audiobooks

Author: Tóth László
Publication venue
Publication date: 01/01/2010
Field of study

Under real-life conditions several factors may be present that make the automatic recognition of speech difficult. The most obvious examples are background noise, peculiarities of the speaker's voice, sloppy articulation and strong emotional load. These all pose difficult problems for robust speech recognition, but it is not exactly clear how much each contributes to the difficulty of the task. In this paper we examine the abilities of our best recognition technologies under near-ideal conditions. The optimal conditions will be simulated by working with the sound material of an audiobook, in which most of the disturbing factors mentioned above are absent. Firstly pure phone recognition experiments will be performed, where neural net-based technologies will also be tried as well as the conventional Hidden Markov Models. Then we move on to large vocabulary recognition, where morphbased language models are applied to improve the performance of the standard word-based technology. The tests clearly justify our assertion that audiobooks pose a much easier recognition task than real-life databases. In both types of tasks we report the lowest error rates we have achieved so far in Hungarian continuous speech recognition

University of Szeged

Magyar nyelvű, élő közéleti- és hírműsorok gépi feliratozása

Author: Bordás Csaba
Fegyó Tibor
Mihajlik Péter
Szaszák György
Tarján Balázs
Tobler Zoltán
Varga Ádám
Publication venue
Publication date: 01/01/2016
Field of study

Cikkünkben egy valós idejű, kis erőforrás-igényű gépi beszéd-szöveg átalakító rendszert mutatunk be, melyet elsősorban televíziós közéleti társalgási beszéd feliratozására fejlesztettünk ki. Megoldásunkat összevetjük a tématerületen legelterjedtebben használt nyílt forráskódú keretrendszer, a Kaldi dekóderével is. Ezen felül különböző adatbázis-méretek mellett és újrabeszélés alkalmazásával is végzünk felismerési kísérleteket. Kísérleti rendszerünkkel, mely egy több mint 70 millió szót tartalmazó szövegkorpuszon és egy közel 500 órás beszédadatbázison lett tanítva sikerült az eddig publikált legalacsonyabb szóhibaarányt elérnünk magyar nyelvű, televíziós híradók és közéleti társalgási beszéd témakörén

University of Szeged

Lexikai modellezés a közlés tervezettségének függvényében magyar nyelvű beszédfelismerésnél

Author: Fegyó Tibor
Mihajlik Péter
Tarján Balázs
Publication venue
Publication date: 01/01/2014
Field of study

A morfémákban gazdag nyelvek nagyszótáras, gépi beszédfelismerésénél gyakran használnak szónál kisebb elemekre, ún. morfokra épülő nyelvi modelleket. Ezek alkalmazása azonban többletmunkát, magasabb rendszerkomplexitást igényel, ugyanakkor a javulás mértéke változó. Cikkünkben a morfalapú nyelvi modellezéssel elérhető hibacsökkenés előrejelzésére teszünk kísérletet. Ehhez először azonosítjuk a hibacsökkenést befolyásoló tényezőket, majd kísérleti úton megvizsgáljuk pontos hatásukat. Eredményeink alapján elmondható, hogy a morfalapú modellek alkalmazása kisméretű tanítószövegek, illetve korlátozott szótárméret mellett járhat jelentős előnnyel. Előnyös még a kevésbé spontán, tervezettebb beszédet tartalmazó adatbázisok esetén, míg a jel-zaj viszony romlása csökkenti a hibacsökkenés mértékét, csakúgy, mint az abszolút hibát. Az utolsó fejezetben bemutatunk egy mérőszámot, mely erős összefüggést mutat a kísérleti adatbázisainkon mérhető morfalapú hibacsökkenéssel. Ez a mérőszám nem csak a feladat tervezettségét, hanem a tanítószöveg mennyiségét is figyelembe veszi

University of Szeged

Аналитический обзор систем распознавания русской речи с большим словарем

Author: Карпов Алексей Анатольевич
Кипяткова Ирина Сергеевна
Publication venue: СПб ФИЦ РАН
Publication date: 01/03/2010
Field of study

The usage of large vocabulary is necessary for the inflective language dictation task, because in these languages there are lots of word-forms that comprise a word paradigm. In the paper, a survey of existing speech recognition systems that use large and extra-large vocabulary is presented, methods and models applying in these systems are described, data about recognition accuracy are given.Использование большого словаря необходимо для задачи стенографирования флективных языков, поскольку эти языки характеризуются наличием множества словоформ, образующих парадигму слова. В статье представлен обзор существующих систем распознавания речи, использующих большой и сверхбольшой словари, описаны методы и модели, применяемые в этих системах, приведены данные об их точности распознавания

Информатика и автоматизация