Search CORE

15 research outputs found

Magyar nyelvű kötött, közép szótáras, folyamatos beszédfelismerő rendszer megvalósítási megoldásainak kutatása = Research on the construction of continuous speech recognizer for a Hungarian middle sized vocabulary

Author: Gordos Géza
Naszódi Mátyás
Tatai Péter
Vicsi Klára
Publication venue: OTKA
Publication date: 01/01/2007
Field of study

A 3 év alatt a tervnek megfelelően az alábbi feladatokat végeztük el: 1. Létrehoztunk egy általános, olvasott szövegű, magyar nyelvű beszédadatbázist, amely irodai környezetben használható beszédfelismerők akusztikai-fonetikai modelljeinek személyfüggetlen betanítására alkalmas. 2. Kifejlesztettünk egy középszótáras, statisztikai alapokra épülő folyamatos beszédfelismerő fejlesztői rendszert, amely lehetőséget ad különböző, kötött témájú, folyamatos beszédfelismerési feladat végrehajtására. 3. Kísérleteket végeztünk a beszédfelismerő fejlesztői rendszerrel az akusztikai-fonetikai modellek optimalizálására, továbbá a nyelvi modellépítés valamint az akusztikai, nyelvi adaptáció területén. Új megoldásokat vezettünk be az akusztikai-fonetikai modellépítésben, és bevezettük a bigram morphéma modelleket amelyeket összehasonlítottunk a hagyományos szóalak bigram modellekkel. 4. Létrehoztunk egy kórházi leletezésre alkalmas folyamatos, személyfüggetlen, 1000-20000 szavas beszédfelismerő rendszert, konkrétan a gasztroszkópia és a hasi ultrahang vizsgálat területén. 5. A létrehozott renszert valós körülmények között teszteltük, a SOTE 2. számú Belklinikáján. Az orvosok tapasztalatait mind a két tématerületen a részletes leírásban adjuk meg. | 1. A Hungarian read speech database was constructed in office circumstances. This database gives possibility for training and testing acoustic-phonetic models of speaker independent continuous speech recognizers. 2. A development tool for constructing continuous speech recognizers has been created under Windows XP. The tool is able to construct middle-sized continuous speech recognizer with a vocabulary of 1000-20000 words. New solutions have been developed for the acoustical preprocessing, for the statistical model building of phonemes and in syntactic level. 3. Research was done with the speech recognition development tool, for the optimalization of the acoustic phonetic models and for the linguistic models too. Hungarian is a strongly agglutinative language, in which the number of the word forms is very high. This is the reason, why two forms of bigram language model were constructed: One is the traditional word-form based, and the other is the morpheme-based model in which the vocabulary is much smaller. 4. We have developed a continuous speech recognizer for preparing medical reports, actually gastroscopy and abdominal ultrasonography records. 5. The speech recognizer was tested at the Medical Semmelweis University of Budapest. Opinion of doctors at the Endoscopy and Radiology Laboratories are attached to the detailed description of the project

Repository of the Academy's Library

Megértést segítő részletező gépi névfelolvasás magyar nyelvre

Author: Fék Márk
Gordos Géza
Németh Géza
Olaszy Gábor
Publication venue
Publication date: 01/01/2004
Field of study

Az automatikus beszédválaszú számszerinti tudakozó névfelolvasó modulja olvassa be a telefonba a keresett előfizető nevét. A felovasott személy- vagy cégnév telefonon keresztüli érthetőségének növelésére, a szótagoláshoz hasonló, részletező felolvasási móddal egészítettük ki a rendszert. A szótagokra bontás felteszi, hogy magyar nyelvű szöveggel van dolgunk. Idegen írásmód esetén, illetve ha a telefonon keresztüli gépi hang érthetősége nem megfelelő, az adott szótag után a megértést segítő megjegyzéseket iktat be a rendszer. A cikk ismerteti a rendszer felépítését és a megvalósítás során felmerült problémákat

University of Szeged

Speech recognizer training : how much manual segmentations do we need?

Author: Gordos Géza
Mihajlik Péter
Tatai Péter
Publication venue
Publication date: 01/01/2003
Field of study

University of Szeged

Gépi beszédfelismerők betanítása : mennyi kézi szegmentálásra van szükségünk?

Author: Gordos Géza
Mihajlik Péter
Tatai Péter
Publication venue
Publication date: 01/01/2003
Field of study

University of Szeged

Eredmények a magyar nyelvű beszédfelismerési konfidencia-becslésben

Author: Gordos Géza
Györki Milán
Mihajlik Péter
Tarján Balázs
Publication venue
Publication date: 01/01/2006
Field of study

University of Szeged

A beszéd érzelemi töltetének számítógépes felismerése

Author: Gordos Géza
Mihajlik Péter
Simon Márta
Tüske Zoltán
Publication venue
Publication date: 01/01/2007
Field of study

Új megközelítést mutatunk be a beszéd érzelmi tartalmának gépi felismerésére. Megmutatjuk, hogy statisztikai módszerekkel, csak a beszéd akusztikus jellemzői alapján, a szöveges tartalom figyelembe vétele nélkül megfelelő érzelemfelismerési eredményeket lehet elérni. Lineáris diszkrimi-náns alapján válogatott beszédjellemzők mennyiségét – azaz a jellemzővektor dimenzióját – adatvezérelt módszerekkel (PCA és LDA) radikálisan csökkent-jük, majd GMM osztályozókat tanítunk be. Sokbeszélős, hat érzelmi állapotra jellemző, magyar adatbázison átlagosan 42,9%-os felismerési pontosságot ér-tünk el. Felismerőnk 60,2%-kal ismerte fel az érzelmeket beszélőfüggő eset-ben. A megközelítés nyelvek közötti hordozhatóságát mutatja, hogy német adatbázison színészek által produkált felvételeken, kötött szöveges tartalom mellett, hét érzelemi osztállyal 71,8%-os beszélőfüggetlen felismerési ered-ményt értünk el, ami nemzetközi élvonalbelinek mondható

University of Szeged

Középszótáras folyamatos beszédfelismerőrendszer fejlesztési tapasztalatai

Author: Borostyán Gábor
Gordos Géza
Szaszák György
Teleki Csaba
Tóth Szabolcs Levente
Velkei Szabolcs
Vicsi Klára
Publication venue
Publication date: 01/01/2005
Field of study

A Beszédakusztikai Laboratóriumban kifejlesztésre került egy Windows XP alatt mköd�, statisztikai elvi alapokra épülő, folyamatos beszédfelismerő fejlesztői környezet (MKBF 1.0), amely alkalmas különböző középszótáras 1000-10 000 szavas szövegek betanítására és felismerésére. Új megoldásokat dolgoztunk ki az akusztikai előfeldolgozásban, a statisztikai modellépítésben valamint fonetikai, fonológiai és morféma nyelvi szinteket vonunk be a felismerési folyamatba. A felismerő a statisztikai alapon működő HMM akusztikai fonémamodellekkel valamint a statisztikai alapú bigram nyelvi modellekel mködik, nem lineáris simítást használva. Vizsgálataink során változtattuk a betanító anyagokat, a szótárkészletet. Kétfajta bigram alappal dolgoztunk: először a hagyományos ragozott szóalakokból építettük fel a bigram mezőket, majd a szóalakokat morfémákra bontottuk, és ezekből a morfémákból építkeztünk. A cikkben a tesztelés eredményeiről, a továbbfejlesztéshez nyert tapasztalatainkról számolunk be. A perplexitási vizsgálatok eredményeinek felhasználásával a felismerési biztonságot 70%-ról 91% fölé tudtuk vinni

University of Szeged