32 research outputs found
Magyar nyelvű kötött, közĂ©p szĂłtáras, folyamatos beszĂ©dfelismerĹ‘ rendszer megvalĂłsĂtási megoldásainak kutatása = Research on the construction of continuous speech recognizer for a Hungarian middle sized vocabulary
A 3 Ă©v alatt a tervnek megfelelĹ‘en az alábbi feladatokat vĂ©geztĂĽk el: 1. LĂ©trehoztunk egy általános, olvasott szövegű, magyar nyelvű beszĂ©dadatbázist, amely irodai környezetben használhatĂł beszĂ©dfelismerĹ‘k akusztikai-fonetikai modelljeinek szemĂ©lyfĂĽggetlen betanĂtására alkalmas. 2. KifejlesztettĂĽnk egy közĂ©pszĂłtáras, statisztikai alapokra Ă©pĂĽlĹ‘ folyamatos beszĂ©dfelismerĹ‘ fejlesztĹ‘i rendszert, amely lehetĹ‘sĂ©get ad kĂĽlönbözĹ‘, kötött tĂ©májĂş, folyamatos beszĂ©dfelismerĂ©si feladat vĂ©grehajtására. 3. KĂsĂ©rleteket vĂ©geztĂĽnk a beszĂ©dfelismerĹ‘ fejlesztĹ‘i rendszerrel az akusztikai-fonetikai modellek optimalizálására, továbbá a nyelvi modellĂ©pĂtĂ©s valamint az akusztikai, nyelvi adaptáciĂł terĂĽletĂ©n. Ăšj megoldásokat vezettĂĽnk be az akusztikai-fonetikai modellĂ©pĂtĂ©sben, Ă©s bevezettĂĽk a bigram morphĂ©ma modelleket amelyeket összehasonlĂtottunk a hagyományos szĂłalak bigram modellekkel. 4. LĂ©trehoztunk egy kĂłrházi leletezĂ©sre alkalmas folyamatos, szemĂ©lyfĂĽggetlen, 1000-20000 szavas beszĂ©dfelismerĹ‘ rendszert, konkrĂ©tan a gasztroszkĂłpia Ă©s a hasi ultrahang vizsgálat terĂĽletĂ©n. 5. A lĂ©trehozott renszert valĂłs körĂĽlmĂ©nyek között teszteltĂĽk, a SOTE 2. számĂş Belklinikáján. Az orvosok tapasztalatait mind a kĂ©t tĂ©materĂĽleten a rĂ©szletes leĂrásban adjuk meg. | 1. A Hungarian read speech database was constructed in office circumstances. This database gives possibility for training and testing acoustic-phonetic models of speaker independent continuous speech recognizers. 2. A development tool for constructing continuous speech recognizers has been created under Windows XP. The tool is able to construct middle-sized continuous speech recognizer with a vocabulary of 1000-20000 words. New solutions have been developed for the acoustical preprocessing, for the statistical model building of phonemes and in syntactic level. 3. Research was done with the speech recognition development tool, for the optimalization of the acoustic phonetic models and for the linguistic models too. Hungarian is a strongly agglutinative language, in which the number of the word forms is very high. This is the reason, why two forms of bigram language model were constructed: One is the traditional word-form based, and the other is the morpheme-based model in which the vocabulary is much smaller. 4. We have developed a continuous speech recognizer for preparing medical reports, actually gastroscopy and abdominal ultrasonography records. 5. The speech recognizer was tested at the Medical Semmelweis University of Budapest. Opinion of doctors at the Endoscopy and Radiology Laboratories are attached to the detailed description of the project
BeszĂ©dfelismerĹ‘ modellĂ©pĂtĂ©si kĂsĂ©rletek akusztikai, fonetikai szinten, kĂłrházi leletezĹ‘ beszĂ©dfelismerĹ‘ kifejlesztĂ©se cĂ©ljábĂłl
CikkĂĽnkben a BeszĂ©dakusztikai LaboratĂłriumban kifejlesztett HMM alapĂş beszĂ©dfelismerĹ‘ rendszert, a rendszer optimalizálását mutatjuk be, Ă©s a felismerĂ©si eredmĂ©nyeinket összehasonlĂtjuk a szĂ©les körben elteijedt Hidden Markov Model Toolkit (НТК) rendszerrel kapott eredmĂ©nyekkel. A kutatás folyamatos, most az elsĹ‘ Ă©vben a fonetikai felismerĂ©si szintet fejlesztettĂĽk ki, optimalizáltuk az akusztikai Ă©s a fonetikai szinteket. Az összehasonlĂtĂł kĂsĂ©rletek azt mutatták, hogy az általunk kifejlesztett beszĂ©dfelismerĹ‘ eljárás akusztikai szintű optimalizálásával valamint az akusztikai-fonetikai modellek optimalizálásával növelni tudtuk a felismerĂ©si pontosságot, Ă©s gyorsĂtani tudtuk a feldolgozást
Folyamatos beszéd szószint automatikus szegmentálása szupraszegmentális jegyek alapján
CikkĂĽnkben a folyamatos beszĂ©d szupraszegmentális jegyeken alapulĂł, szĂłszint szegmentálási lehetĹ‘sĂ©geit vizsgáljuk statisztikai megközelĂtĂ©sben, rejtett Markov modellek használatával. A szĂłszint szegmentálás a folyamatos gĂ©pi beszĂ©dfelismerĂ©s robosztusságát növelheti zajos körĂĽlmĂ©nyek között, illetve csökkentheti a keresĂ©si teret a dekĂłdolás folyamán. RendszerĂĽnk az alapfrekvencia Ă©s az energiaszint Ă©rtĂ©keit veszi figyelembe, az idĹ‘tartamok pontos mĂ©rĂ©se ugyanis felismerĂ©si feladatban nehezen kivitelezhetĹ‘. A rendszert kötött hangsĂşlyĂş nyelvekre dolgoztuk ki, Ă©s a magyar mellett finn nyelvre is adaptáltuk, illetve vizsgáltuk kĂ©tnyelv rendszerek teljesĂtmĂ©nyĂ©t is, amely a mködĂ©s hatĂ©konyságát növelte. A statisztikai alapĂş szegmentálĂł eredmĂ©nyeit összehasonlĂtottuk korábbi, szabálybázisĂş eredmĂ©nyeinkkel, a magyar, illetve a finn nyelv szegmentálási lehetĹ‘sĂ©geit számos paramĂ©ter fĂĽggvĂ©nyĂ©ben vizsgáltuk. MegállapĂthatjuk, hogy kĂsĂ©rleteink alapján a kötött hangsĂşlyĂş nyelvek esetĂ©n a beszĂ©d szĂłszint tagolása megbĂzhatĂłan megvalĂłsĂthatĂł, ami biztatĂł kilátásokat jelent a kidolgozott rendszer beszĂ©dfelismerĹ‘be integrálására vonatkozĂłan
Ügyfél érzelmi állapotának detektálása telefonos ügyfélszolgálati dialógusban
A cikkĂĽnkben egy Ă©rzelem-felismerĂ©si kĂsĂ©rletrl számolunk be, ahol a spontán társalgás során a semlegesrl idegesre, feszĂĽltre megváltozott Ă©rzelmi állapotot kĂvánjuk automatikusan detektálni, telefonon keresztĂĽl. A cĂ©l egy automatikus figyelrendszer kifejlesztĂ©se, amely meghatározza az ĂĽgyfĂ©l elĂ©gedettsĂ©gĂ©nek, vagy elĂ©gedetlensĂ©gĂ©nek a mĂ©rtĂ©kĂ©t. Ehhez a munkához lĂ©trehoztuk, 1000 telefonhĂvás-felvĂ©telbl az Ăşn Magyar Telefonos ĂśgyfĂ©lszolgálati BeszĂ©d Adatbázist (MTĂśBA), amelyben a spontán dialĂłgusok nyelvi tartalmát, valamint frázisonkĂ©nti Ă©rzelmi tartamát jelöltĂĽk be. Az akusztikai elfeldolgozás után az Ă©rzelem-felismerĂ©st support vector machine (SVM) osztályozĂł segĂtsĂ©gĂ©vel vĂ©geztĂĽk. Az SVM osztályozĂłval vĂ©gĂĽl is csak 2 állapotot, egy semleges, Ă©s egy elĂ©gedetlensĂ©get kifejez (ideges Ă©s panaszkodĂł egyĂĽtt) állapotot kĂĽlönböztettĂĽnk meg. Az automatikus figyelrendszer rĂ©szĂ©re kiválasztottunk 15 másodperc hosszĂş figyel ablakot, amelyen belĂĽl összeszámoltuk az elĂ©gedetlensĂ©get jelz frázisok számát. Ez adta meg az elĂ©gedetlensĂ©g mĂ©rtĂ©kĂ©t. Az ablakot 10 másodpercenkĂ©nt lĂ©ptettĂĽk elre a beszĂ©lgetĂ©s folyamán. KĂsĂ©rletezĂ©ssel beállĂthatĂł volt egy olyan elĂ©gedetlensĂ©gi mĂ©rtĂ©k kĂĽszöb, amely felett jelzĂ©s (riasztás) törtĂ©nik. Amennyiben ez a kĂĽszöb a 30%-os elĂ©gedetlensĂ©gi mĂ©rtĂ©k, akkor az átlagos riasztási pontosság 89,6% volt, ami legtöbbször csak a kĂ©zi Ă©s az automatikus riasztás közötti idcsĂşszásbĂłl eredt. ĂŤgy a kifejlesztett automatikus figyelrendszer hasznos eszköz lehet diszpĂ©cser központokban
Comparison of skewness-based salient event detector algorithms in speech
In this work, we compare two skewness-based salient event detector algorithms, which can detect transients in human speech signals. Speech transients are characterized by rapid changes in signal energy. The purpose of this study was to compare the identification of transients by two different methods based on skewness calculation in order to develop a method to be used in studying the processing of speech transients in the human brain. The first method, the skewness in variable time (SKV) finds transients using a cochlear model. The skewness of the energy distribution for a variable time window is implemented on artificial neural networks. The second method, the automatic segmentation method for transient detection (RoT) is more speech segmentation-based and developed for detecting transient speech segment ratio in spoken records. In the current study, the test corpus included Hungarian and English speech recorded from different speakers (2 male and 2 female for both languages). Results were compared by the F-measure, the Jaccard similarity index, and the Hamming distance. The results of the two algorithms were also tested against a hand-labeled corpus annotated by linguistic experts for an absolute assessment of the performance of the two methods. Transient detection was tested once for onset events alone and, separately, for onset and offset
events together. The results show that in most cases, the RoT method works better on the expert labeled databases. Using F measure with +- 25ms window length the following results were obtained when all type of transient events were evaluated: 0,664 on English and 0,834 on Hungarian. Otherwise, the two methods identify the same stimulus features as the transients also coinciding with those hand-labeled by experts
Folyamatos beszéd szó- és frázisszintű automatikus szegmentálása szupraszegmentális jegyek alapján
CikkĂĽnkben a beszĂ©d alapfrekvencia- Ă©s energiaviszonyainak vizsgálatával arra keressĂĽk a választ, lehetsĂ©ges-e ezen prozĂłdiai beszĂ©djellemzök alapján valamilyen mĂłdon a folyamatos beszĂ©d gĂ©pi tagolása frázisok, illetve szĂłszerkezetek, szavak szintjĂ©n. Mindezzel a folyamatos gĂ©pi beszĂ©dfelismerĹ‘ működĂ©sĂ©t segĂthetnĂ©nk a szavak, szĂłszerkezetek határainak detektálásával, ezáltal jelentĹ‘sen lecsökkentve a beszĂ©dfelismerĂ©skor a dekĂłdolás során a keresĂ©si teret. KitĂ©rĂĽnk az egyes algoritmusokkal elĂ©rt eredmĂ©nyek bemutatására is. A vizsgálatokat statisztikai mĂłdszerekkel vĂ©geztĂĽk az olvasott szöveget tartalmazĂł BABEL beszĂ©dadatbázison. VárhatĂłan spontán beszĂ©det tartalmazĂł szövegben a döntĂ©si biztonság az itt bemutatandĂłhoz kĂ©pest csökken
Prozódiai információ használata az automatikus beszédfelismerésben ; mondat modalitás felismerése
A mai, statisztikai elvi alapokra Ă©pĂĽlĹ‘ folyamatos gĂ©pi beszĂ©dfelismerĹ‘k kimenetĂ©n szĂłláncok sorozata jelenik meg, tehát a beszĂ©dfelismerĂ©s több szintű feldolgozási folyamatábĂłl a szĂłszintig jutott el a mai beszĂ©dfelismerĂ©si technolĂłgia. Robusztus beszĂ©dfelismerĂ©s elĂ©rĂ©sĂ©hez azonban további – pĂ©ldául szemantikai – szintek bevonása szĂĽksĂ©ges. A beszĂ©d szupraszegmentális (prozĂłdiai) paramĂ©tereinek bevonásával egy olyan prozĂłdiai felismerĹ‘t hoztunk lĂ©tre, amely a mondatok Ă©s tagmondatok fajtáit, azaz modalitását, illetve a mondatok határait ismeri föl, Ă©s ezzel hozzájárulhat a szemantikai szintű nyelvi felismerĂ©s biztosabb döntĂ©seihez. Ez az Ăşn. modalitás felismerĹ‘ statisztikai elven működik, a mondatok, tagmondatok intonáciĂłs struktĂşráját leĂrĂł Rejtett Markov modellekbĹ‘l, Ă©s egy igen egyszerű, a mondatok kapcsolĂłdására vonatkozĂł modellbĹ‘l Ă©pĂĽl fel. A felismerĹ‘ tesztelĂ©si eredmĂ©nyei azt mutatták, hogy azoknál a modalitás tĂpusoknál, amelyekre a statisztikai betanĂtáshoz elegendĹ‘ minta állt rendelkezĂ©sre, a helyesen felismert modalitás aránya 75 Ă©s 95% között változott az adott mondat modalitásátĂłl fĂĽggĹ‘en