40 research outputs found
Deep learning methods in speaker recognition: a review
This paper summarizes the applied deep learning practices in the field of
speaker recognition, both verification and identification. Speaker recognition
has been a widely used field topic of speech technology. Many research works
have been carried out and little progress has been achieved in the past 5-6
years. However, as deep learning techniques do advance in most machine learning
fields, the former state-of-the-art methods are getting replaced by them in
speaker recognition too. It seems that DL becomes the now state-of-the-art
solution for both speaker verification and identification. The standard
x-vectors, additional to i-vectors, are used as baseline in most of the novel
works. The increasing amount of gathered data opens up the territory to DL,
where they are the most effective
A szintaktikai szerkezet automatikus feltérképezése a beszédjel prozódiai elemzése alapján
A prozĂłdia Ă©s a szintaktikai szerkezet közötti összefĂĽggĂ©s aligha kĂ©rdĂ©ses, hiszen számos kutatás foglalkozott már kapcsolatukkal, illetve ezt az összefĂĽggĂ©st számos beszĂ©dtechnolĂłgiai – elsĹ‘sorban beszĂ©d szintĂ©zisĂ©t cĂ©lzĂł - alkalmazásban ki is használják. Az általánosan elfogadott álláspont szerint a prozĂłdiai Ă©s a szintaktikai szerkezet szorosan összefĂĽgg ugyan, közöttĂĽk a kapcsolat azonban nem egy-egyĂ©rtelműen meghatározott. Mindenesetre gyakorlati alkalmazások bizonyĂtják, hogy a szintaktikai elemzĂ©s alapján a prozĂłdia jĂłl elĹ‘rejelezhetĹ‘ Ă©s kiválĂłan előállĂthatĂł beszĂ©dszintetizátor alkalmazásokban. A prozĂłdia Ă©s a szintaxis közötti összefĂĽggĂ©s másik irányát azonban – nevezetesen a szintaxis visszakövethetĹ‘sĂ©gĂ©t prozĂłdiai jegyek alapján – eddig kevesen vizsgálták, illetve ha mĂ©gis, ezen vizsgálatok jellemzĹ‘en minimál mondatpárok prozĂłdia alapján törtĂ©nĹ‘ elkĂĽlönĂthetĹ‘sĂ©gĂ©re vonatkoztak. Bár e vizsgálatok Ă©rtĂ©kĂ©t nem szeretnĂ©nk alábecsĂĽlni, hiszen fontos elmĂ©leti jelentĹ‘sĂ©gĂĽk van, eredmĂ©nyeik a gyakorlati alkalmazásokat tekintve azonban csak elvĂ©tve, nem igazán Ă©letszerű körĂĽlmĂ©nyek között lennĂ©nek felhasználhatĂłk. CikkĂĽnkben ezĂ©rt arra keressĂĽk a választ, hogy lehetsĂ©ges-e a prozĂłdiai szerkezet feltárása alapján szintaktikai szerkezetre vonatkozĂł informáciĂł kinyerĂ©se általánosabb, a mindennapi Ă©lethez jobban köthetĹ‘ tematika esetĂ©ben. Miután a kutatás cĂ©lja az automatikus elemezhetĹ‘sĂ©g vizsgálata, ezĂ©rt a prozĂłdiai szerkezet elemzĂ©sĂ©t is automatikus eszközökkel valĂłsĂtjuk meg. EredmĂ©nyeink tanĂşsága szerint a beszĂ©dben a szintaktikai frázisok jelentĹ‘s rĂ©sze jĂłl beazonosĂthatĂł, ráadásul, a szintaktikai hierarchia magasabb szintjein jĂłl el is helyezhetĹ‘. MĂ©lyebb szinteken - többszörös beágyazásban - pontos szintaktikai szintbeli elhelyezĂ©st nem várhatunk a prozĂłdiátĂłl, a határok jelzĂ©se azonban megmaradhat
Szótagok automatikus osztályozása spontán beszédben spektrális és prozódiai jellemzők alapján
A beszĂ©dfolyam automatikus, szavaknak vagy nĂ©hány szĂłbĂłl állĂł szĂłcsoportoknak megfelel szintaktikai egysĂ©gekre valĂł tagolásában bizonyĂtottan fontos szerepe van a prozĂłdiai jegyeknek, az alapfrekvenciának Ă©s az intenzitásnak. A prozĂłdiai jegyek mellett a magánhangzĂł minsĂ©ge is alkalmazhatĂł lehet, elssorban a szĂłtag eleji–nem szĂłtag eleji szĂłtagok osztályozására, másodsorban pedig a szĂłhatár meghatározására is. A jelen kutatásban azt vizsgáljuk, lehetsĂ©ges-e a magánhangzĂł-minsĂ©g alapján a redukálĂłdott magánhangzĂłk automatikus elkĂĽlönĂtĂ©se spontán beszĂ©dben, illetve magánhangzĂłminsĂ©g alapján elvĂ©gezhet-e a hangsĂşlyos szĂłtagok automatikus detektálása
Folyamatos beszéd szószint automatikus szegmentálása szupraszegmentális jegyek alapján
CikkĂĽnkben a folyamatos beszĂ©d szupraszegmentális jegyeken alapulĂł, szĂłszint szegmentálási lehetĹ‘sĂ©geit vizsgáljuk statisztikai megközelĂtĂ©sben, rejtett Markov modellek használatával. A szĂłszint szegmentálás a folyamatos gĂ©pi beszĂ©dfelismerĂ©s robosztusságát növelheti zajos körĂĽlmĂ©nyek között, illetve csökkentheti a keresĂ©si teret a dekĂłdolás folyamán. RendszerĂĽnk az alapfrekvencia Ă©s az energiaszint Ă©rtĂ©keit veszi figyelembe, az idĹ‘tartamok pontos mĂ©rĂ©se ugyanis felismerĂ©si feladatban nehezen kivitelezhetĹ‘. A rendszert kötött hangsĂşlyĂş nyelvekre dolgoztuk ki, Ă©s a magyar mellett finn nyelvre is adaptáltuk, illetve vizsgáltuk kĂ©tnyelv rendszerek teljesĂtmĂ©nyĂ©t is, amely a mködĂ©s hatĂ©konyságát növelte. A statisztikai alapĂş szegmentálĂł eredmĂ©nyeit összehasonlĂtottuk korábbi, szabálybázisĂş eredmĂ©nyeinkkel, a magyar, illetve a finn nyelv szegmentálási lehetĹ‘sĂ©geit számos paramĂ©ter fĂĽggvĂ©nyĂ©ben vizsgáltuk. MegállapĂthatjuk, hogy kĂsĂ©rleteink alapján a kötött hangsĂşlyĂş nyelvek esetĂ©n a beszĂ©d szĂłszint tagolása megbĂzhatĂłan megvalĂłsĂthatĂł, ami biztatĂł kilátásokat jelent a kidolgozott rendszer beszĂ©dfelismerĹ‘be integrálására vonatkozĂłan