7 research outputs found
Studies on noise robust automatic speech recognition
Noise in everyday acoustic environments such as cars, traffic environments, and cafeterias remains one of the main challenges in automatic speech recognition (ASR). As a research theme, it has received wide attention in conferences and scientific journals focused on speech technology. This article collection reviews both the classic and novel approaches suggested for noise robust ASR. The articles are literature reviews written for the spring 2009 seminar course on noise robust automatic speech recognition (course code T-61.6060) held at TKK
ROBOT LENGAN PENGAMBIL BENDA UNTUK MEMBANTU PASIEN DENGAN PERINTAH SUARA MENGGUNAKAN METODE MFCC DAN NEURAL NETWORK
Robot lengan pengambil benda dengan perintah suara adalah sebuah robot yang
dapat digunakan untuk membantu manusia mengambil benda yang diinginkan
dengan menggunkan perintah suara. Robot lengan ini diterapkan untuk membantu
pasien yang memiliki keterbatasan gerak dalam mengambilkan benda yang
diinginkan. Penggenalan perintah suara diproses menggunakan metode MFCC
(Mel-Frequency Cepstrum Coefficients) dan ANN (Artificial Neural Network).
Robot lengan juga dilengkapai kamera untuk mendeteksi benda yang akan
diambil. Sensor ultrasonik diletakan pada ujung lengan robot untuk mengetahui
jarak lengan terhadap target yang akan diambil. Pengenalan benda diproses
dengan menggunakan metode image-processing berdasarkan warna, lebar dan
tinggi pada benda. Limit switch diletakan pada salah satu lengan gripper robot
digunakan sebagai tanda bahwa benda telah digenggam. Pada penelitian ini, robot
lengan mampu mengambil benda yang diperintahkan menggunakan perintah suara
dengan tingkat keberhasilan sebesar 78%.
============================================================
Object picker arm robot with voice command is a robot that can be used to help
human to pick the object wanted using voice command. This arm robot was
applied to help patient with movement disability to pick the object wanted. Voice
command recognition was processed using MFCC (Mel-Frequency Cepstrum
Coefficient) and ANN (Artificial Neural Network) method. The arm robot was
also equipped with camera to detect the object. Ultrasonic sensor was placed at
the end of the arm robot to measure the distance between the arm and the target.
Object recognition was processed using image-processing method based on color,
width, and height of the object. Limit switch was placed in one of the gripper arm
of the robot and used as an indicator when the object was held. In this research,
the arm robot was able to pick the object commanded using voice command with
success rate of 78%
Повышение робастности систем автоматического распознавания речи методами обработки сигналов
Дисертацію присвячено вирішенню актуальної задачі підвищення робастності систем автоматичного розпізнавання мовлення шляхом розробки нових методів обробки мовленнєвих сигналів.
Удосконалено метод ослаблення пізньої реверберації, що дозволяє підвищити точність систем автоматичного розпізнавання мовлення навіть в умовах недостатності апріорної інформації про параметри реверберації.
Проведена експериментальна перевірка доцільності використання подання мовленнєвих сигналів в просторі ознак PNCC разом з використанням детектора голосової активності, що дозволяє забезпечити робастність системи автоматичного розпізнавання мовлення при використанні PNCC ознак в умовах нестаціонарного шуму.
За отриманими результатами зроблено висновок про необхідність вдосконалення методу PNCC шляхом заміни процедури роздільної обробки голосової активності на основі енергетичного підходу на більш стійкі щодо дії нестаціонарних шумів методи.
Розроблено нейромережевий детектор голосової активності системи автоматичного розпізнавання мовлення, що дало можливість використовувати такі ознаки як нормалізовані за потужністю кепстральні коефіцієнти при роботі з нестаціонарними шумами.
Розширено перелік ознак запропонованого нейромережевого детектору голосової активності за рахунок введення ознаки «траєкторія основного тону», що дозволило підвищити завадостійкість його роботи.
Удосконалено метод навчання нейромережевого детектора голосової активності. Для цього запропоновано алгоритм адаптивної корекції параметрів стаціонарної нелінійної MLP мережі, що дозволило прискорити процедуру навчання такого детектора.
Працездатність та ефективність запропонованого детектору голосової активності була експериментально підтверджена шляхом тестування на стандартних сигналах, спотворених білим та рожевим шумами та на реальних сигналах, отриманих з телефонного каналу зв’язку NTIMIT.
Результати порівняння запропонованого детектору MLP-IDBD з алгоритмами Д. Їнґ, Д. Согн та алгоритмами міжнародних стандартів ETSI AMR та ITU G.729 показали, що запропонований в даній дисертації детектор MLP-IDBD має перевагу над конкурентними аналогами за критерієм проценту правильно розпізнаних фреймів