15 research outputs found

    RECENT RESULTS IN SPEECH PROCESSING

    Get PDF

    Magyar nyelvű kötött, közép szótáras, folyamatos beszédfelismerő rendszer megvalósítási megoldásainak kutatása = Research on the construction of continuous speech recognizer for a Hungarian middle sized vocabulary

    Get PDF
    A 3 év alatt a tervnek megfelelően az alábbi feladatokat végeztük el: 1. Létrehoztunk egy általános, olvasott szövegű, magyar nyelvű beszédadatbázist, amely irodai környezetben használható beszédfelismerők akusztikai-fonetikai modelljeinek személyfüggetlen betanítására alkalmas. 2. Kifejlesztettünk egy középszótáras, statisztikai alapokra épülő folyamatos beszédfelismerő fejlesztői rendszert, amely lehetőséget ad különböző, kötött témájú, folyamatos beszédfelismerési feladat végrehajtására. 3. Kísérleteket végeztünk a beszédfelismerő fejlesztői rendszerrel az akusztikai-fonetikai modellek optimalizálására, továbbá a nyelvi modellépítés valamint az akusztikai, nyelvi adaptáció területén. Új megoldásokat vezettünk be az akusztikai-fonetikai modellépítésben, és bevezettük a bigram morphéma modelleket amelyeket összehasonlítottunk a hagyományos szóalak bigram modellekkel. 4. Létrehoztunk egy kórházi leletezésre alkalmas folyamatos, személyfüggetlen, 1000-20000 szavas beszédfelismerő rendszert, konkrétan a gasztroszkópia és a hasi ultrahang vizsgálat területén. 5. A létrehozott renszert valós körülmények között teszteltük, a SOTE 2. számú Belklinikáján. Az orvosok tapasztalatait mind a két tématerületen a részletes leírásban adjuk meg. | 1. A Hungarian read speech database was constructed in office circumstances. This database gives possibility for training and testing acoustic-phonetic models of speaker independent continuous speech recognizers. 2. A development tool for constructing continuous speech recognizers has been created under Windows XP. The tool is able to construct middle-sized continuous speech recognizer with a vocabulary of 1000-20000 words. New solutions have been developed for the acoustical preprocessing, for the statistical model building of phonemes and in syntactic level. 3. Research was done with the speech recognition development tool, for the optimalization of the acoustic phonetic models and for the linguistic models too. Hungarian is a strongly agglutinative language, in which the number of the word forms is very high. This is the reason, why two forms of bigram language model were constructed: One is the traditional word-form based, and the other is the morpheme-based model in which the vocabulary is much smaller. 4. We have developed a continuous speech recognizer for preparing medical reports, actually gastroscopy and abdominal ultrasonography records. 5. The speech recognizer was tested at the Medical Semmelweis University of Budapest. Opinion of doctors at the Endoscopy and Radiology Laboratories are attached to the detailed description of the project

    Megértést segítő részletező gépi névfelolvasás magyar nyelvre

    Get PDF
    Az automatikus beszédválaszú számszerinti tudakozó névfelolvasó modulja olvassa be a telefonba a keresett előfizető nevét. A felovasott személy- vagy cégnév telefonon keresztüli érthetőségének növelésére, a szótagoláshoz hasonló, részletező felolvasási móddal egészítettük ki a rendszert. A szótagokra bontás felteszi, hogy magyar nyelvű szöveggel van dolgunk. Idegen írásmód esetén, illetve ha a telefonon keresztüli gépi hang érthetősége nem megfelelő, az adott szótag után a megértést segítő megjegyzéseket iktat be a rendszer. A cikk ismerteti a rendszer felépítését és a megvalósítás során felmerült problémákat

    A beszéd érzelemi töltetének számítógépes felismerése

    Get PDF
    Új megközelítést mutatunk be a beszéd érzelmi tartalmának gépi felismerésére. Megmutatjuk, hogy statisztikai módszerekkel, csak a beszéd akusztikus jellemzői alapján, a szöveges tartalom figyelembe vétele nélkül megfelelő érzelemfelismerési eredményeket lehet elérni. Lineáris diszkrimi-náns alapján válogatott beszédjellemzők mennyiségét – azaz a jellemzővektor dimenzióját – adatvezérelt módszerekkel (PCA és LDA) radikálisan csökkent-jük, majd GMM osztályozókat tanítunk be. Sokbeszélős, hat érzelmi állapotra jellemző, magyar adatbázison átlagosan 42,9%-os felismerési pontosságot ér-tünk el. Felismerőnk 60,2%-kal ismerte fel az érzelmeket beszélőfüggő eset-ben. A megközelítés nyelvek közötti hordozhatóságát mutatja, hogy német adatbázison színészek által produkált felvételeken, kötött szöveges tartalom mellett, hét érzelemi osztállyal 71,8%-os beszélőfüggetlen felismerési ered-ményt értünk el, ami nemzetközi élvonalbelinek mondható

    Középszótáras folyamatos beszédfelismerőrendszer fejlesztési tapasztalatai

    Get PDF
    A Beszédakusztikai Laboratóriumban kifejlesztésre került egy Windows XP alatt mköd�, statisztikai elvi alapokra épülő, folyamatos beszédfelismerő fejlesztői környezet (MKBF 1.0), amely alkalmas különböző középszótáras 1000-10 000 szavas szövegek betanítására és felismerésére. Új megoldásokat dolgoztunk ki az akusztikai előfeldolgozásban, a statisztikai modellépítésben valamint fonetikai, fonológiai és morféma nyelvi szinteket vonunk be a felismerési folyamatba. A felismerő a statisztikai alapon működő HMM akusztikai fonémamodellekkel valamint a statisztikai alapú bigram nyelvi modellekel mködik, nem lineáris simítást használva. Vizsgálataink során változtattuk a betanító anyagokat, a szótárkészletet. Kétfajta bigram alappal dolgoztunk: először a hagyományos ragozott szóalakokból építettük fel a bigram mezőket, majd a szóalakokat morfémákra bontottuk, és ezekből a morfémákból építkeztünk. A cikkben a tesztelés eredményeiről, a továbbfejlesztéshez nyert tapasztalatainkról számolunk be. A perplexitási vizsgálatok eredményeinek felhasználásával a felismerési biztonságot 70%-ról 91% fölé tudtuk vinni
    corecore