research

Magyar nyelvű kötött, közép szótáras, folyamatos beszédfelismerő rendszer megvalósítási megoldásainak kutatása = Research on the construction of continuous speech recognizer for a Hungarian middle sized vocabulary

Abstract

A 3 év alatt a tervnek megfelelően az alábbi feladatokat végeztük el: 1. Létrehoztunk egy általános, olvasott szövegű, magyar nyelvű beszédadatbázist, amely irodai környezetben használható beszédfelismerők akusztikai-fonetikai modelljeinek személyfüggetlen betanítására alkalmas. 2. Kifejlesztettünk egy középszótáras, statisztikai alapokra épülő folyamatos beszédfelismerő fejlesztői rendszert, amely lehetőséget ad különböző, kötött témájú, folyamatos beszédfelismerési feladat végrehajtására. 3. Kísérleteket végeztünk a beszédfelismerő fejlesztői rendszerrel az akusztikai-fonetikai modellek optimalizálására, továbbá a nyelvi modellépítés valamint az akusztikai, nyelvi adaptáció területén. Új megoldásokat vezettünk be az akusztikai-fonetikai modellépítésben, és bevezettük a bigram morphéma modelleket amelyeket összehasonlítottunk a hagyományos szóalak bigram modellekkel. 4. Létrehoztunk egy kórházi leletezésre alkalmas folyamatos, személyfüggetlen, 1000-20000 szavas beszédfelismerő rendszert, konkrétan a gasztroszkópia és a hasi ultrahang vizsgálat területén. 5. A létrehozott renszert valós körülmények között teszteltük, a SOTE 2. számú Belklinikáján. Az orvosok tapasztalatait mind a két tématerületen a részletes leírásban adjuk meg. | 1. A Hungarian read speech database was constructed in office circumstances. This database gives possibility for training and testing acoustic-phonetic models of speaker independent continuous speech recognizers. 2. A development tool for constructing continuous speech recognizers has been created under Windows XP. The tool is able to construct middle-sized continuous speech recognizer with a vocabulary of 1000-20000 words. New solutions have been developed for the acoustical preprocessing, for the statistical model building of phonemes and in syntactic level. 3. Research was done with the speech recognition development tool, for the optimalization of the acoustic phonetic models and for the linguistic models too. Hungarian is a strongly agglutinative language, in which the number of the word forms is very high. This is the reason, why two forms of bigram language model were constructed: One is the traditional word-form based, and the other is the morpheme-based model in which the vocabulary is much smaller. 4. We have developed a continuous speech recognizer for preparing medical reports, actually gastroscopy and abdominal ultrasonography records. 5. The speech recognizer was tested at the Medical Semmelweis University of Budapest. Opinion of doctors at the Endoscopy and Radiology Laboratories are attached to the detailed description of the project

    Similar works