15 research outputs found
Magyar nyelvű kötött, közĂ©p szĂłtáras, folyamatos beszĂ©dfelismerĹ‘ rendszer megvalĂłsĂtási megoldásainak kutatása = Research on the construction of continuous speech recognizer for a Hungarian middle sized vocabulary
A 3 Ă©v alatt a tervnek megfelelĹ‘en az alábbi feladatokat vĂ©geztĂĽk el: 1. LĂ©trehoztunk egy általános, olvasott szövegű, magyar nyelvű beszĂ©dadatbázist, amely irodai környezetben használhatĂł beszĂ©dfelismerĹ‘k akusztikai-fonetikai modelljeinek szemĂ©lyfĂĽggetlen betanĂtására alkalmas. 2. KifejlesztettĂĽnk egy közĂ©pszĂłtáras, statisztikai alapokra Ă©pĂĽlĹ‘ folyamatos beszĂ©dfelismerĹ‘ fejlesztĹ‘i rendszert, amely lehetĹ‘sĂ©get ad kĂĽlönbözĹ‘, kötött tĂ©májĂş, folyamatos beszĂ©dfelismerĂ©si feladat vĂ©grehajtására. 3. KĂsĂ©rleteket vĂ©geztĂĽnk a beszĂ©dfelismerĹ‘ fejlesztĹ‘i rendszerrel az akusztikai-fonetikai modellek optimalizálására, továbbá a nyelvi modellĂ©pĂtĂ©s valamint az akusztikai, nyelvi adaptáciĂł terĂĽletĂ©n. Ăšj megoldásokat vezettĂĽnk be az akusztikai-fonetikai modellĂ©pĂtĂ©sben, Ă©s bevezettĂĽk a bigram morphĂ©ma modelleket amelyeket összehasonlĂtottunk a hagyományos szĂłalak bigram modellekkel. 4. LĂ©trehoztunk egy kĂłrházi leletezĂ©sre alkalmas folyamatos, szemĂ©lyfĂĽggetlen, 1000-20000 szavas beszĂ©dfelismerĹ‘ rendszert, konkrĂ©tan a gasztroszkĂłpia Ă©s a hasi ultrahang vizsgálat terĂĽletĂ©n. 5. A lĂ©trehozott renszert valĂłs körĂĽlmĂ©nyek között teszteltĂĽk, a SOTE 2. számĂş Belklinikáján. Az orvosok tapasztalatait mind a kĂ©t tĂ©materĂĽleten a rĂ©szletes leĂrásban adjuk meg. | 1. A Hungarian read speech database was constructed in office circumstances. This database gives possibility for training and testing acoustic-phonetic models of speaker independent continuous speech recognizers. 2. A development tool for constructing continuous speech recognizers has been created under Windows XP. The tool is able to construct middle-sized continuous speech recognizer with a vocabulary of 1000-20000 words. New solutions have been developed for the acoustical preprocessing, for the statistical model building of phonemes and in syntactic level. 3. Research was done with the speech recognition development tool, for the optimalization of the acoustic phonetic models and for the linguistic models too. Hungarian is a strongly agglutinative language, in which the number of the word forms is very high. This is the reason, why two forms of bigram language model were constructed: One is the traditional word-form based, and the other is the morpheme-based model in which the vocabulary is much smaller. 4. We have developed a continuous speech recognizer for preparing medical reports, actually gastroscopy and abdominal ultrasonography records. 5. The speech recognizer was tested at the Medical Semmelweis University of Budapest. Opinion of doctors at the Endoscopy and Radiology Laboratories are attached to the detailed description of the project
MegĂ©rtĂ©st segĂtĹ‘ rĂ©szletezĹ‘ gĂ©pi nĂ©vfelolvasás magyar nyelvre
Az automatikus beszĂ©dválaszĂş számszerinti tudakozĂł nĂ©vfelolvasĂł modulja olvassa be a telefonba a keresett elĹ‘fizetĹ‘ nevĂ©t. A felovasott szemĂ©ly- vagy cĂ©gnĂ©v telefonon keresztĂĽli Ă©rthetĹ‘sĂ©gĂ©nek növelĂ©sĂ©re, a szĂłtagoláshoz hasonlĂł, rĂ©szletezĹ‘ felolvasási mĂłddal egĂ©szĂtettĂĽk ki a rendszert. A szĂłtagokra bontás felteszi, hogy magyar nyelvű szöveggel van dolgunk. Idegen ĂrásmĂłd esetĂ©n, illetve ha a telefonon keresztĂĽli gĂ©pi hang Ă©rthetĹ‘sĂ©ge nem megfelelĹ‘, az adott szĂłtag után a megĂ©rtĂ©st segĂtĹ‘ megjegyzĂ©seket iktat be a rendszer. A cikk ismerteti a rendszer felĂ©pĂtĂ©sĂ©t Ă©s a megvalĂłsĂtás során felmerĂĽlt problĂ©mákat
A beszĂ©d Ă©rzelemi töltetĂ©nek számĂtĂłgĂ©pes felismerĂ©se
Ăšj megközelĂtĂ©st mutatunk be a beszĂ©d Ă©rzelmi tartalmának gĂ©pi felismerĂ©sĂ©re. Megmutatjuk, hogy statisztikai mĂłdszerekkel, csak a beszĂ©d akusztikus jellemzĹ‘i alapján, a szöveges tartalom figyelembe vĂ©tele nĂ©lkĂĽl megfelelĹ‘ Ă©rzelemfelismerĂ©si eredmĂ©nyeket lehet elĂ©rni. Lineáris diszkrimi-náns alapján válogatott beszĂ©djellemzĹ‘k mennyisĂ©gĂ©t – azaz a jellemzĹ‘vektor dimenziĂłját – adatvezĂ©relt mĂłdszerekkel (PCA Ă©s LDA) radikálisan csökkent-jĂĽk, majd GMM osztályozĂłkat tanĂtunk be. SokbeszĂ©lĹ‘s, hat Ă©rzelmi állapotra jellemzĹ‘, magyar adatbázison átlagosan 42,9%-os felismerĂ©si pontosságot Ă©r-tĂĽnk el. FelismerĹ‘nk 60,2%-kal ismerte fel az Ă©rzelmeket beszĂ©lĹ‘fĂĽggĹ‘ eset-ben. A megközelĂtĂ©s nyelvek közötti hordozhatĂłságát mutatja, hogy nĂ©met adatbázison szĂnĂ©szek által produkált felvĂ©teleken, kötött szöveges tartalom mellett, hĂ©t Ă©rzelemi osztállyal 71,8%-os beszĂ©lĹ‘fĂĽggetlen felismerĂ©si ered-mĂ©nyt Ă©rtĂĽnk el, ami nemzetközi Ă©lvonalbelinek mondhatĂł
Középszótáras folyamatos beszédfelismerőrendszer fejlesztési tapasztalatai
A BeszĂ©dakusztikai LaboratĂłriumban kifejlesztĂ©sre kerĂĽlt egy Windows XP alatt mködďż˝, statisztikai elvi alapokra Ă©pĂĽlĹ‘, folyamatos beszĂ©dfelismerĹ‘ fejlesztĹ‘i környezet (MKBF 1.0), amely alkalmas kĂĽlönbözĹ‘ közĂ©pszĂłtáras 1000-10 000 szavas szövegek betanĂtására Ă©s felismerĂ©sĂ©re. Ăšj megoldásokat dolgoztunk ki az akusztikai elĹ‘feldolgozásban, a statisztikai modellĂ©pĂtĂ©sben valamint fonetikai, fonolĂłgiai Ă©s morfĂ©ma nyelvi szinteket vonunk be a felismerĂ©si folyamatba. A felismerĹ‘ a statisztikai alapon működĹ‘ HMM akusztikai fonĂ©mamodellekkel valamint a statisztikai alapĂş bigram nyelvi modellekel mködik, nem lineáris simĂtást használva. Vizsgálataink során változtattuk a betanĂtĂł anyagokat, a szĂłtárkĂ©szletet. KĂ©tfajta bigram alappal dolgoztunk: elĹ‘ször a hagyományos ragozott szĂłalakokbĂłl Ă©pĂtettĂĽk fel a bigram mezĹ‘ket, majd a szĂłalakokat morfĂ©mákra bontottuk, Ă©s ezekbĹ‘l a morfĂ©mákbĂłl Ă©pĂtkeztĂĽnk. A cikkben a tesztelĂ©s eredmĂ©nyeirĹ‘l, a továbbfejlesztĂ©shez nyert tapasztalatainkrĂłl számolunk be. A perplexitási vizsgálatok eredmĂ©nyeinek felhasználásával a felismerĂ©si biztonságot 70%-rĂłl 91% fölĂ© tudtuk vinni