7 research outputs found

    Studies on noise robust automatic speech recognition

    Get PDF
    Noise in everyday acoustic environments such as cars, traffic environments, and cafeterias remains one of the main challenges in automatic speech recognition (ASR). As a research theme, it has received wide attention in conferences and scientific journals focused on speech technology. This article collection reviews both the classic and novel approaches suggested for noise robust ASR. The articles are literature reviews written for the spring 2009 seminar course on noise robust automatic speech recognition (course code T-61.6060) held at TKK

    Decision fusion of voice activity detectors

    Get PDF

    ROBOT LENGAN PENGAMBIL BENDA UNTUK MEMBANTU PASIEN DENGAN PERINTAH SUARA MENGGUNAKAN METODE MFCC DAN NEURAL NETWORK

    Get PDF
    Robot lengan pengambil benda dengan perintah suara adalah sebuah robot yang dapat digunakan untuk membantu manusia mengambil benda yang diinginkan dengan menggunkan perintah suara. Robot lengan ini diterapkan untuk membantu pasien yang memiliki keterbatasan gerak dalam mengambilkan benda yang diinginkan. Penggenalan perintah suara diproses menggunakan metode MFCC (Mel-Frequency Cepstrum Coefficients) dan ANN (Artificial Neural Network). Robot lengan juga dilengkapai kamera untuk mendeteksi benda yang akan diambil. Sensor ultrasonik diletakan pada ujung lengan robot untuk mengetahui jarak lengan terhadap target yang akan diambil. Pengenalan benda diproses dengan menggunakan metode image-processing berdasarkan warna, lebar dan tinggi pada benda. Limit switch diletakan pada salah satu lengan gripper robot digunakan sebagai tanda bahwa benda telah digenggam. Pada penelitian ini, robot lengan mampu mengambil benda yang diperintahkan menggunakan perintah suara dengan tingkat keberhasilan sebesar 78%. ============================================================ Object picker arm robot with voice command is a robot that can be used to help human to pick the object wanted using voice command. This arm robot was applied to help patient with movement disability to pick the object wanted. Voice command recognition was processed using MFCC (Mel-Frequency Cepstrum Coefficient) and ANN (Artificial Neural Network) method. The arm robot was also equipped with camera to detect the object. Ultrasonic sensor was placed at the end of the arm robot to measure the distance between the arm and the target. Object recognition was processed using image-processing method based on color, width, and height of the object. Limit switch was placed in one of the gripper arm of the robot and used as an indicator when the object was held. In this research, the arm robot was able to pick the object commanded using voice command with success rate of 78%

    Повышение робастности систем автоматического распознавания речи методами обработки сигналов

    Get PDF
    Дисертацію присвячено вирішенню актуальної задачі підвищення робастності систем автоматичного розпізнавання мовлення шляхом розробки нових методів обробки мовленнєвих сигналів. Удосконалено метод ослаблення пізньої реверберації, що дозволяє підвищити точність систем автоматичного розпізнавання мовлення навіть в умовах недостатності апріорної інформації про параметри реверберації. Проведена експериментальна перевірка доцільності використання подання мовленнєвих сигналів в просторі ознак PNCC разом з використанням детектора голосової активності, що дозволяє забезпечити робастність системи автоматичного розпізнавання мовлення при використанні PNCC ознак в умовах нестаціонарного шуму. За отриманими результатами зроблено висновок про необхідність вдосконалення методу PNCC шляхом заміни процедури роздільної обробки голосової активності на основі енергетичного підходу на більш стійкі щодо дії нестаціонарних шумів методи. Розроблено нейромережевий детектор голосової активності системи автоматичного розпізнавання мовлення, що дало можливість використовувати такі ознаки як нормалізовані за потужністю кепстральні коефіцієнти при роботі з нестаціонарними шумами. Розширено перелік ознак запропонованого нейромережевого детектору голосової активності за рахунок введення ознаки «траєкторія основного тону», що дозволило підвищити завадостійкість його роботи. Удосконалено метод навчання нейромережевого детектора голосової активності. Для цього запропоновано алгоритм адаптивної корекції параметрів стаціонарної нелінійної MLP мережі, що дозволило прискорити процедуру навчання такого детектора. Працездатність та ефективність запропонованого детектору голосової активності була експериментально підтверджена шляхом тестування на стандартних сигналах, спотворених білим та рожевим шумами та на реальних сигналах, отриманих з телефонного каналу зв’язку NTIMIT. Результати порівняння запропонованого детектору MLP-IDBD з алгоритмами Д. Їнґ, Д. Согн та алгоритмами міжнародних стандартів ETSI AMR та ITU G.729 показали, що запропонований в даній дисертації детектор MLP-IDBD має перевагу над конкурентними аналогами за критерієм проценту правильно розпізнаних фреймів
    corecore