40 research outputs found

    Deep learning methods in speaker recognition: a review

    Full text link
    This paper summarizes the applied deep learning practices in the field of speaker recognition, both verification and identification. Speaker recognition has been a widely used field topic of speech technology. Many research works have been carried out and little progress has been achieved in the past 5-6 years. However, as deep learning techniques do advance in most machine learning fields, the former state-of-the-art methods are getting replaced by them in speaker recognition too. It seems that DL becomes the now state-of-the-art solution for both speaker verification and identification. The standard x-vectors, additional to i-vectors, are used as baseline in most of the novel works. The increasing amount of gathered data opens up the territory to DL, where they are the most effective

    A szintaktikai szerkezet automatikus feltérképezése a beszédjel prozódiai elemzése alapján

    Get PDF
    A prozódia és a szintaktikai szerkezet közötti összefüggés aligha kérdéses, hiszen számos kutatás foglalkozott már kapcsolatukkal, illetve ezt az összefüggést számos beszédtechnológiai – elsősorban beszéd szintézisét célzó - alkalmazásban ki is használják. Az általánosan elfogadott álláspont szerint a prozódiai és a szintaktikai szerkezet szorosan összefügg ugyan, közöttük a kapcsolat azonban nem egy-egyértelműen meghatározott. Mindenesetre gyakorlati alkalmazások bizonyítják, hogy a szintaktikai elemzés alapján a prozódia jól előrejelezhető és kiválóan előállítható beszédszintetizátor alkalmazásokban. A prozódia és a szintaxis közötti összefüggés másik irányát azonban – nevezetesen a szintaxis visszakövethetőségét prozódiai jegyek alapján – eddig kevesen vizsgálták, illetve ha mégis, ezen vizsgálatok jellemzően minimál mondatpárok prozódia alapján történő elkülöníthetőségére vonatkoztak. Bár e vizsgálatok értékét nem szeretnénk alábecsülni, hiszen fontos elméleti jelentőségük van, eredményeik a gyakorlati alkalmazásokat tekintve azonban csak elvétve, nem igazán életszerű körülmények között lennének felhasználhatók. Cikkünkben ezért arra keressük a választ, hogy lehetséges-e a prozódiai szerkezet feltárása alapján szintaktikai szerkezetre vonatkozó információ kinyerése általánosabb, a mindennapi élethez jobban köthető tematika esetében. Miután a kutatás célja az automatikus elemezhetőség vizsgálata, ezért a prozódiai szerkezet elemzését is automatikus eszközökkel valósítjuk meg. Eredményeink tanúsága szerint a beszédben a szintaktikai frázisok jelentős része jól beazonosítható, ráadásul, a szintaktikai hierarchia magasabb szintjein jól el is helyezhető. Mélyebb szinteken - többszörös beágyazásban - pontos szintaktikai szintbeli elhelyezést nem várhatunk a prozódiától, a határok jelzése azonban megmaradhat

    Szótagok automatikus osztályozása spontán beszédben spektrális és prozódiai jellemzők alapján

    Get PDF
    A beszédfolyam automatikus, szavaknak vagy néhány szóból álló szócsoportoknak megfelel szintaktikai egységekre való tagolásában bizonyítottan fontos szerepe van a prozódiai jegyeknek, az alapfrekvenciának és az intenzitásnak. A prozódiai jegyek mellett a magánhangzó minsége is alkalmazható lehet, elssorban a szótag eleji–nem szótag eleji szótagok osztályozására, másodsorban pedig a szóhatár meghatározására is. A jelen kutatásban azt vizsgáljuk, lehetséges-e a magánhangzó-minség alapján a redukálódott magánhangzók automatikus elkülönítése spontán beszédben, illetve magánhangzóminség alapján elvégezhet-e a hangsúlyos szótagok automatikus detektálása

    An empirical approach for comparing syntax and pros ody driven prominence marking

    Get PDF

    Folyamatos beszéd szószint automatikus szegmentálása szupraszegmentális jegyek alapján

    Get PDF
    Cikkünkben a folyamatos beszéd szupraszegmentális jegyeken alapuló, szószint szegmentálási lehetőségeit vizsgáljuk statisztikai megközelítésben, rejtett Markov modellek használatával. A szószint szegmentálás a folyamatos gépi beszédfelismerés robosztusságát növelheti zajos körülmények között, illetve csökkentheti a keresési teret a dekódolás folyamán. Rendszerünk az alapfrekvencia és az energiaszint értékeit veszi figyelembe, az időtartamok pontos mérése ugyanis felismerési feladatban nehezen kivitelezhető. A rendszert kötött hangsúlyú nyelvekre dolgoztuk ki, és a magyar mellett finn nyelvre is adaptáltuk, illetve vizsgáltuk kétnyelv rendszerek teljesítményét is, amely a mködés hatékonyságát növelte. A statisztikai alapú szegmentáló eredményeit összehasonlítottuk korábbi, szabálybázisú eredményeinkkel, a magyar, illetve a finn nyelv szegmentálási lehetőségeit számos paraméter függvényében vizsgáltuk. Megállapíthatjuk, hogy kísérleteink alapján a kötött hangsúlyú nyelvek esetén a beszéd szószint tagolása megbízhatóan megvalósítható, ami biztató kilátásokat jelent a kidolgozott rendszer beszédfelismerőbe integrálására vonatkozóan
    corecore