13 research outputs found
Differentiable Artificial Reverberation
Artificial reverberation (AR) models play a central role in various audio
applications. Therefore, estimating the AR model parameters (ARPs) of a target
reverberation is a crucial task. Although a few recent deep-learning-based
approaches have shown promising performance, their non-end-to-end training
scheme prevents them from fully exploiting the potential of deep neural
networks. This motivates to introduce differentiable artificial reverberation
(DAR) models which allows loss gradients to be back-propagated end-to-end.
However, implementing the AR models with their difference equations "as is" in
the deep-learning framework severely bottlenecks the training speed when
executed with a parallel processor like GPU due to their infinite impulse
response (IIR) components. We tackle this problem by replacing the IIR filters
with finite impulse response (FIR) approximations with the frequency-sampling
method (FSM). Using the FSM, we implement three DAR models -- differentiable
Filtered Velvet Noise (FVN), Advanced Filtered Velvet Noise (AFVN), and
Feedback Delay Network (FDN). For each AR model, we train its ARP estimation
networks for analysis-synthesis (RIR-to-ARP) and blind estimation
(reverberant-speech-to-ARP) task in an end-to-end manner with its DAR model
counterpart. Experiment results show that the proposed method achieves
consistent performance improvement over the non-end-to-end approaches in both
objective metrics and subjective listening test results.Comment: Manuscript submitted to TASL
Avaliação de um algoritmo de estimação do tempo de reverberação
O presente trabalho tem como objetivo avaliar, através de simulações e
experimentos, a precisão de um método de estimação do tempo de reverberação, quando
utilizado em diferentes configurações, com a presença de uma e de duas fontes sonoras no
ambiente.
Inicialmente o desempenho do algoritmo de estimação do tempo de reverberação é
verificado considerando-se a presença de uma única fonte sonora no ambiente. O sinal no
microfone é gerado a partir de um sinal de voz anecoico convoluido com respostas ao
impulso do sistema microfone/alto-falante da base de dados AIR (Aachen Impulse
Response), medidas em diversos ambientes para diferentes posições da fonte e do sensor.
Em seguida, novos experimentos foram feitos considerando misturas de duas fontes
sonoras em diferentes posições nos diversos ambientes, sendo o sinal no microfone gerado
somando-se os sinais anecoicos de duas fontes distintas convoluidos com as respostas ao
impulso da base de dados AIR para diferentes direções de chegada (ângulos de azimute).
Neste trabalho são apresentados os fundamentos teóricos e práticos relacionados à
implementação e ao teste do algoritmo de estimativa do tempo de reverberação utilizado. A
eficácia do algoritmo implementado é verificada tanto para uma única fonte sonora como
para duas, em diferentes cenários
Оцінка акустичних параметрів приміщення як каналу мовленнєвої комунікації
Дисертаційна робота присвячена дослідженню впливу акустичних
характеристик приміщення, ранніх і пізніх відбиттів звуку на розбірливість
мовленнєвого сигналу, автоматизації оцінювання акустичних характеристик
приміщення, автоматизації проведення артикуляційних випробувань на
суб’єктивну розбірливість мовлення.
Зміст дисертаційного дослідження викладено у чотирьох розділах, у яких
представлені та обґрунтовані основні результати роботи.
У вступі обґрунтовано актуальність дисертаційної роботи, сформульовано
мету та перераховано задачі дослідження, описано методи дослідження, надана
інформація про наукову новизну та практичне значення одержаних результатів.
Перший розділ присвячено огляду публікацій з моделювання імпульсної
характеристики приміщення, впливу реверберації на мовленнєвий сигнал, методів
компенсації впливу реверберації та методів вимірювання часу реверберації. В
розглянутих роботах з впливу приміщення на мовленнєвий сигнал бракує аналізу
зв’язку об’єктивних показників якості мовлення із суб’єктивною розбірливістю.
Окрім цього, запропонована методологія проведення суб’єктивних тестів дуже
ресурсоємна і потребує автоматизації.
У другому розділі розглянуто вимірювання імпульсної характеристики і часу
реверберації прямими методами (з використанням тестового сигналу).
Запропоновано покращення алгоритму автоматичного оцінювання часу
реверберації прямим методом, що полягає у автоматичному, віконному з
перекриттям, аналізі записаного відгуку на збуджуючий сигнал. Запропонований
алгоритм був використаний при дослідженні акустичних параметрів учбових
приміщень кафедри акустичних та мультимедійних електронних систем
НТУУ «Київський політехнічний інститут імені Ігоря Сікорського». Крім того,
розроблено рекомендації щодо коригування характеристик акустичної апаратури
непрофесійного рівня якості при проведенні вимірювань якості та розбірливості
мовлення із використанням штучної голови. Ефективність зазначених рекомендацій
була перевірена експериментально, шляхом оцінювання акустичних характеристик
університетських аудиторій малого, середнього та великого розміру, а також
шляхом перевірки узгодження отриманих результатів із літературними даними.
У третьому розділі представлено результати модернізації відомого алгоритму
сліпого вимірювання часу реверберації. Складність завдання полягає в тому, що при
таких вимірюваннях в розпорядженні інженера є лише запис мовленнєвого сигналу,
спотвореного реверберацією. В дисертаційній роботі запропоновано таке
покращення зазначеного алгоритму, яке дозволило розширити діапазон
вимірювання часу реверберації розглянутим методом. Достовірність та точність
отриманих результатів перевірена із використанням комп’ютерного моделювання,
шляхом порівняння результатів алгоритму-прототипу та модернізованого
алгоритму.
В четвертому розділі дисертаційної роботи представлено результати розробки
апаратно-програмної системи для автоматизації артикуляційних випробувань при
суб’єктивному оцінюванні розбірливості мовлення. Використання розробленої
системи дозволило співставити результати оцінювання якості мовленнєвих
сигналів із результатами оцінювання розбірливості мовлення та зробити висновки
щодо принципової можливості використання простих, з точки зору об’єму
обчислень, оцінок якості сигналів замість складних оцінок розбірливості мовлення.
Представлено результати експериментального порівняння розбірливості мовлення
при діотичному та діхотичному прослуховуванні мовленнєвих сигналів. Виконано
порівняння впливу ранньої та пізньої реверберації на результати суб’єктивного
оцінювання розбірливості мовлення. Представлено результати комп’ютерного
моделювання впливу ранньої реверберації на розбірливість мовлення в залежності
від структури імпульсної характеристики приміщення.
Результати досліджень дозволили створити уточнені аналітичні та
комп’ютерні моделі дії акустичних завад у вигляді шуму, ранніх та пізніх відбиттів
звуку в приміщенні на якість мовленнєвих сигналів та на розбірливість мовлення.
Виявлення негативної дії ранніх відбиттів звуку на розбірливість мовлення в
середній частині приміщень дозволяє обґрунтувати необхідність прийняття
відповідних дій для нейтралізації виявленого ефекту.
Результати, представлені у дисертації, можуть бути використані для
експертизи та корекції акустичних характеристик приміщень шляхом розрахунку та
вимірювання якості та розбірливості мовленнєвих сигналів у приміщеннях, що
проектуються, будуються або піддаються реновації. Володіння інформацією щодо
характеру та ступеня впливу шуму, ранніх відбиттів звуку та пізньої реверберації
на якість та розбірливість мовлення в різних точках приміщень дозволить
підвищити точність акустичної експертизи. Автоматизація вимірювань акустичних
характеристик приміщення, в тому числі якості та розбірливості мовлення,
дозволить підвищити точність вимірювань, знизивши при цьому витрати
матеріальних, часових, фінансових та людських ресурсів.
Викладені у дисертації нові теоретичні та практичні результати досліджень
знайшли застосування у освітньому процесі кафедри акустичних та
мультимедійних електронних систем за спеціальністю 171 Електроніка, освітньою
програмою “Акустичні електронні системи та технології обробки акустичної
інформації”, Національного технічного університету України “Київський
політехнічний інститут імені Ігоря Сікорського”.
В дисертаційній роботі отримано наступні наукові результати:
- вперше вказано умови, за яких об’єктивне оцінювання якості
мовленнєвих сигналів, що маскуються шумовою завадою, може бути застосовано
замість суб’єктивного оцінювання розбірливості мовлення;
- вперше вказано на можливість зниження розбірливості мови в окремих
частинах приміщень через погіршення якості мовленнєвого сигналу, яке
спричинене дією ранніх відбиттів звуку;
- вперше запропоновано, при автоматизації оцінювання розбірливості
українського мовлення артикуляційним методом, спосіб фіксації сприйнятих
слухачем звукових сполучень, що використовуються в якості елементів мовлення;
- вдосконалено алгоритми оцінювання часу реверберації прямим та
сліпим методами, що дозволяє розширити границі застосування зазначених
алгоритмів та підвищити ступінь автоматизації акустичних вимірювань;
- розроблено рекомендації щодо коригування характеристик акустичної
апаратури непрофесійного рівня якості при проведенні вимірювань якості та
розбірливості мовлення із використанням штучної голови.
Практичне значення отриманих в дисертаційній роботі результатів полягає у
наступному:
- показано можливість підвищення достовірності результатів артикуляційних
випробувань та підвищення ступеня автоматизації таких випробувань, спрямованих
на суб’єктивну оцінку розбірливості українського мовлення в приміщеннях;
- встановлено принципову можливість використання мір якості мовленнєвого
сигналу замість мір розбірливості мовлення, що дозволяє спростити процедуру
оцінювання розбірливості мови;
- розроблено програмно-апаратну систему для артикуляційних випробувань
каналів передачі української мови в умовах дії шумової завади та реверберації, що
дозволяє автоматизувати такі випробування, підвищити їх достовірність та суттєво
знизити ресурсоємність випробувань;
- вдосконалено алгоритми оцінювання часу реверберації прямим та сліпим
методами, що дозволяє розширити границі застосування зазначених алгоритмів та
підвищити ступінь автоматизації акустичних вимірювань