Search CORE

3 research outputs found

Nova metoda adaptacije na govornika u parametarskoj sintezi govora

Author: Pekar Darko
Publication venue: Универзитет у Новом Саду, Факултет техничких наука
Publication date: 03/09/2021
Field of study

The thesis describes and compares several methods of adaptation to the speaker using deep neural networks. Simple method of system adaptation, method proposing separate layers for different speakers, as well as adaptation in two phases. The last method starts from multispeaker model and a trained speaker space. Adaptation to a new speaker takes place in two phases: 1) searching for the optimal point in the speaker embedding space; 2) adapting the parameters of the rest of the network. It has been shown that the last approach yields the best results, by comparing objective measures, as well as by listening tests.У дисертацији је описано и упоређено неколико метода адаптације на говорника помоћу дубоких неуронских мрежа. Метода дообуке система, метода дељених и засебних слојева за различите говорнике, као и адаптација у две фазе. Последња метода као полазну тачку има систем обучен на више говорника и обучени простор говорника. Адаптација на новог говорника се одвија у две фазе: тражење оптималне тачке у простору говорника и адаптација параметара остатка мреже. Показано је да се најбољи резултати добијају коришћењем последње методе, путем поређења објективних мера, као и преко тестова слушања.U disertaciji je opisano i upoređeno nekoliko metoda adaptacije na govornika pomoću dubokih neuronskih mreža. Metoda doobuke sistema, metoda deljenih i zasebnih slojeva za različite govornike, kao i adaptacija u dve faze. Poslednja metoda kao polaznu tačku ima sistem obučen na više govornika i obučeni prostor govornika. Adaptacija na novog govornika se odvija u dve faze: traženje optimalne tačke u prostoru govornika i adaptacija parametara ostatka mreže. Pokazano je da se najbolji rezultati dobijaju korišćenjem poslednje metode, putem poređenja objektivnih mera, kao i preko testova slušanja

National Repository of Dissertations in Serbia (NaRDuS)

Nardus

USER-AWARENESS AND ADAPTATION IN CONVERSATIONAL AGENTS

Author: Bojanić Milana
Delić Vlado
Gnjatović Milan
Jakovljević Nikša
Jokić Ivan
Popović Branislav
Publication venue: Published by the University of Niš, Serbia
Publication date: 13/06/2014
Field of study

This paper considers the research question of developing user-aware and adaptive conversational agents. The conversational agent is a system which is user-aware to the extent that it recognizes the user identity and his/her emotional states that are relevant in a given interaction domain. The conversational agent is user-adaptive to the extent that it dynamically adapts its dialogue behavior according to the user and his/her emotional state. The paper summarizes some aspects of our previous work and presents work-in-progress in the field of speech-based human-machine interaction. It focuses particularly on the development of speech recognition modules in cooperation with both modules for emotion recognition and speaker recognition, as well as the dialogue management module. Finally, it proposes an architecture of a conversational agent that integrates those modules and improves each of them based on some kind of synergies among themselves

University of Niš: Facta Universitatis (E-Journals) / Универзитет у Нишу

Hierarchical Clustering of GaussianMixture Models in Applications forContinuous Speech Recognition

Author: Popović Branislav
Publication venue: Универзитет у Новом Саду, Факултет техничких наука
Publication date: 17/07/2012
Field of study

У оквиру докторске дисертације представљен је нови алгоритам хијерархијског кластеровања модела Гаусових смеша, заснован на операцији поделе и спајања. Алгоритам тежи побољшању локално оптималног решења одређеног иницијалном констелацијом. Иницијализује се локално оптималним параметрима, добијеним коришћењем референтног приступа сличног k‐means‐у и тежи ка приближавању глобалном оптимуму функције циља, итеративном применом операција поделе и спајања над кластерима Гаусових компоненти, одређеним применом референтног алгоритма. Додатно побољшање алгоритма осварено је увођењем принципа селекције модела у сврху одређивања најповољнијег односа тачности и рачунске сложености, у задатку селекције гаусијана унутар реалног система за препознавање. Предложени метод тестиран је како над вештачки генерисаним подацима, тако и у оквиру алгоритма селекције гаусијана, на примеру система за континуално препознавање говора. У оба случаја забележено је побољшање резултата у односу на резултате остварене применом референтног алгоритма. Побољшања алгоритма селекције гаусијана избором оптималног скупа системских параметара такође су размотрена.U okviru doktorske disertacije predstavljen je novi algoritam hijerarhijskog klasterovanja modela Gausovih smeša, zasnovan na operaciji podele i spajanja. Algoritam teži poboljšanju lokalno optimalnog rešenja određenog inicijalnom konstelacijom. Inicijalizuje se lokalno optimalnim parametrima, dobijenim korišćenjem referentnog pristupa sličnog k‐means‐u i teži ka približavanju globalnom optimumu funkcije cilja, iterativnom primenom operacija podele i spajanja nad klasterima Gausovih komponenti, određenim primenom referentnog algoritma. Dodatno poboljšanje algoritma osvareno je uvođenjem principa selekcije modela u svrhu određivanja najpovoljnijeg odnosa tačnosti i računske složenosti, u zadatku selekcije gausijana unutar realnog sistema za prepoznavanje. Predloženi metod testiran je kako nad veštački generisanim podacima, tako i u okviru algoritma selekcije gausijana, na primeru sistema za kontinualno prepoznavanje govora. U oba slučaja zabeleženo je poboljšanje rezultata u odnosu na rezultate ostvarene primenom referentnog algoritma. Poboljšanja algoritma selekcije gausijana izborom optimalnog skupa sistemskih parametara takođe su razmotrena.The dissertation presents a novel splitand‐ merge algorithm for hierarchical clustering of Gaussian mixture models. The algorithm tends to improve on the local optimal solution determined by the initial constellation. It is initialized by local optimal parameters obtained by using a baseline approach similar to kmeans, and it tends to approach more closely to the global optimum of the target clustering function, by iteratively splitting and merging the clusters of Gaussian components obtained as the output of the baseline algorithm. The algorithm is further improved by introducing model selection in order to obtain the best possible trade‐off between recognition accuracy and computational load in a Gaussian selection task applied within an actual recognition system. The proposed method is tested both on artificial data and in the framework of Gaussian selection performed within a real continuous speech recognition system. In both cases an improvement over the baseline method has been observed. Additional improvements of Gaussian selection algorithm by using the optimal set of system parameters are also discussed

National Repository of Dissertations in Serbia (NaRDuS)

Nardus