A beszéd érzelemi töltetének számítógépes felismerése

Abstract

Új megközelítést mutatunk be a beszéd érzelmi tartalmának gépi felismerésére. Megmutatjuk, hogy statisztikai módszerekkel, csak a beszéd akusztikus jellemzői alapján, a szöveges tartalom figyelembe vétele nélkül megfelelő érzelemfelismerési eredményeket lehet elérni. Lineáris diszkrimi-náns alapján válogatott beszédjellemzők mennyiségét – azaz a jellemzővektor dimenzióját – adatvezérelt módszerekkel (PCA és LDA) radikálisan csökkent-jük, majd GMM osztályozókat tanítunk be. Sokbeszélős, hat érzelmi állapotra jellemző, magyar adatbázison átlagosan 42,9%-os felismerési pontosságot ér-tünk el. Felismerőnk 60,2%-kal ismerte fel az érzelmeket beszélőfüggő eset-ben. A megközelítés nyelvek közötti hordozhatóságát mutatja, hogy német adatbázison színészek által produkált felvételeken, kötött szöveges tartalom mellett, hét érzelemi osztállyal 71,8%-os beszélőfüggetlen felismerési ered-ményt értünk el, ami nemzetközi élvonalbelinek mondható

    Similar works