10 research outputs found

    Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environment

    Full text link

    Environmentally robust ASR front-end for deep neural network acoustic models

    Get PDF
    This paper examines the individual and combined impacts of various front-end approaches on the performance of deep neural network (DNN) based speech recognition systems in distant talking situations, where acoustic environmental distortion degrades the recognition performance. Training of a DNN-based acoustic model consists of generation of state alignments followed by learning the network parameters. This paper first shows that the network parameters are more sensitive to the speech quality than the alignments and thus this stage requires improvement. Then, various front-end robustness approaches to addressing this problem are categorised based on functionality. The degree to which each class of approaches impacts the performance of DNN-based acoustic models is examined experimentally. Based on the results, a front-end processing pipeline is proposed for efficiently combining different classes of approaches. Using this front-end, the combined effects of different classes of approaches are further evaluated in a single distant microphone-based meeting transcription task with both speaker independent (SI) and speaker adaptive training (SAT) set-ups. By combining multiple speech enhancement results, multiple types of features, and feature transformation, the front-end shows relative performance gains of 7.24% and 9.83% in the SI and SAT scenarios, respectively, over competitive DNN-based systems using log mel-filter bank features.This is the final version of the article. It first appeared from Elsevier via http://dx.doi.org/10.1016/j.csl.2014.11.00

    Проблемы автоматического распознавания слитной речи. Методы обработки исходного речевого сигнала

    Get PDF
    Обзор современного состояния технологий распознавания, их применение в области транслирования и перевода речи в режиме реального времени. Структура системы распознавания речи, включающая предварительную обработку речевого сигнала, акустическое моделирование, языковое моделирование и комбинировани

    Quantile based histogram equalization for noise robust large vocabulary speech recognition

    No full text

    Повышение робастности систем автоматического распознавания речи методами обработки сигналов

    Get PDF
    Дисертацію присвячено вирішенню актуальної задачі підвищення робастності систем автоматичного розпізнавання мовлення шляхом розробки нових методів обробки мовленнєвих сигналів. Удосконалено метод ослаблення пізньої реверберації, що дозволяє підвищити точність систем автоматичного розпізнавання мовлення навіть в умовах недостатності апріорної інформації про параметри реверберації. Проведена експериментальна перевірка доцільності використання подання мовленнєвих сигналів в просторі ознак PNCC разом з використанням детектора голосової активності, що дозволяє забезпечити робастність системи автоматичного розпізнавання мовлення при використанні PNCC ознак в умовах нестаціонарного шуму. За отриманими результатами зроблено висновок про необхідність вдосконалення методу PNCC шляхом заміни процедури роздільної обробки голосової активності на основі енергетичного підходу на більш стійкі щодо дії нестаціонарних шумів методи. Розроблено нейромережевий детектор голосової активності системи автоматичного розпізнавання мовлення, що дало можливість використовувати такі ознаки як нормалізовані за потужністю кепстральні коефіцієнти при роботі з нестаціонарними шумами. Розширено перелік ознак запропонованого нейромережевого детектору голосової активності за рахунок введення ознаки «траєкторія основного тону», що дозволило підвищити завадостійкість його роботи. Удосконалено метод навчання нейромережевого детектора голосової активності. Для цього запропоновано алгоритм адаптивної корекції параметрів стаціонарної нелінійної MLP мережі, що дозволило прискорити процедуру навчання такого детектора. Працездатність та ефективність запропонованого детектору голосової активності була експериментально підтверджена шляхом тестування на стандартних сигналах, спотворених білим та рожевим шумами та на реальних сигналах, отриманих з телефонного каналу зв’язку NTIMIT. Результати порівняння запропонованого детектору MLP-IDBD з алгоритмами Д. Їнґ, Д. Согн та алгоритмами міжнародних стандартів ETSI AMR та ITU G.729 показали, що запропонований в даній дисертації детектор MLP-IDBD має перевагу над конкурентними аналогами за критерієм проценту правильно розпізнаних фреймів

    Speech Recognition

    Get PDF
    Chapters in the first part of the book cover all the essential speech processing techniques for building robust, automatic speech recognition systems: the representation for speech signals and the methods for speech-features extraction, acoustic and language modeling, efficient algorithms for searching the hypothesis space, and multimodal approaches to speech recognition. The last part of the book is devoted to other speech processing applications that can use the information from automatic speech recognition for speaker identification and tracking, for prosody modeling in emotion-detection systems and in other speech processing applications that are able to operate in real-world environments, like mobile communication services and smart homes
    corecore