Search CORE

5 research outputs found

Spontán, nagyszótáras, folyamatos beszéd gépi felismerési pontosságának növelése beszélőadaptációval a MALACH projektben

Author: Fegyó Tibor
Mihajlik Péter
Tüske Zoltán
Publication venue
Publication date: 01/01/2007
Field of study

Cikkünkben bemutatjuk, hogy az MLLR (Maximum Likelihood Linear Regression) alapú beszélőadaptálás során a beszédfelismerési hatékonyság az adott spontán magyar nyelvű adatbázison jelentősen növekszik. Többféle módszert kipróbáltunk mind a felügyelt mind a felügyeletlen adaptálódás esetén is. A globális megoldás mellett regressziós osztályokon alapuló transzformációt is alkalmaztunk; felügyeletlen modellillesztés esetén a többszörös adaptálást is megvizsgáltuk. Továbbá folyamatos, nagyszótáras és spontán automatikus beszédfelismerővel kapott eredményekkel támasztjuk alá, hogy ha a szó alapú nyelvi modell helyett a magyar nyelvet pontosabban leíró morféma alapú modellezést alkalmazzuk, akkor a beszélőadaptálás által okozott javulás még szignifikánsabban jelentkezhet a felismerési hibaarányban

University of Szeged

Nagyszótáras beszédfelismerés morfémaalapú rekurrens nyelvi modell használatával

Author: Grósz Tamás
Publication venue
Publication date: 01/01/2020
Field of study

A klasszikus beszédfelismerő rendszerek számára hatalmas kihívást jelentenek az agglutináló nyelvek, hiszen pontos eredmények eléréséhez hatalmas szótárakra van szükség a ragozás és a szóösszetétel miatt. A probléma főleg a nyelvi modell részét érinti a felismerőnek, tekintve, hogy túl nagy szótárméret esetén a tanulási fázis rendkívül nehéz, ez pedig szuboptimális modellhez vezethet. Ezen problémára megoldást jelenthet, ha szavak helyett azoknál kisebb egységet, morfémákat használunk a nyelvi modellezés során. A cikkben bemutatásra kerül egy morfémaalapú, rekurrens neuronhálós nyelvi modellt alkalmazó beszédfelismerő, amely használatával szignifikánsan jobb eredményeket tudtunk elérni egy magyar nyelvű beszédkorpuszon mint a hagyományos szószintű megközelítéssel

University of Szeged

Statisztikai és szabály alapú morfológiai elemzők kombinációja beszédfelismerő alkalmazáshoz

Author: Mihajlik Péter
Németh Bottyán
Tikk Domonkos
Trón Viktor
Publication venue
Publication date: 01/01/2007
Field of study

A magyar nyelvű számítógépes beszédfelismerésnél célszerűnek tűnik, hogy ne a szavakat, hanem a morfémákat vegyük alapegységnek a nyelvi modell felépítéséhez. Ehhez viszont szükséges, hogy a szavakat a morfémáknak megfelelő szegmentumokra bontsuk. A cikk egy új szegmentálási technikát ismertet, ami két különböző morfológiai szegmentáló módszer egyesítéséből született, és mindkét ősénél jobban alkalmazható számítógépes beszédfelismeréshez. Ennek a rendszernek az egyik pillére egy szabály alapú morfológiai elemző, a hunmorph, a másik pedig egy statisztikai alapokra épülő morfológiai szegmentáló, a morfessor. A kompozíció során igyekeztünk mindkét rendszer előnyeit megtartani, hátrányos tulajdonságait orvosolni. Ez nagyrészt sikerült is, leszámítva, hogy a morfessor által biztosított nyelvfüggetlenség a hunmorph bevonásával elveszett

University of Szeged

Using Phonological Phrase Segmentation to Improve Automatic Keyword Spotting for the Highly Agglutinating Hungarian Language

Author: Beke Andras
Szaszak Gyorgy
Publication venue: Idiap
Publication date: 19/12/2013
Field of study

This paper investigates the usage of prosody for the improvement of keyword spotting, focusing on the highly agglutinating Hungarian language, where keyword spotting cannot be effectively performed using LVCSR, as such systems are either unavailable or hard to operate due to high OOV rates and poor N-gram language modelling capabilities. Therefore, the applied keyword spotting system is based on confidence scores computed as a ratio of acoustic scores obtained in two ways: firstly, by decoding with an universal background model; and secondly, by decoding with a keyword model embedded into filler models. Prosody is used to perform an automatic phonological phrase alignment for speech, proven to be useful for automatic partial word boundary detection in fixed stress languages. Several features deduced from the phonological phrase alignment are investigated to rescore baseline confidence scores both in a rule-based and in a data-driven manner. Results show that in relevant operating points of the system, a false alarm reduction of 10% - 40% can be reached by the same miss probability rates

Infoscience - École polytechnique fédérale de Lausanne