30 research outputs found
Метод підвищення ефективності роботи пам’яті в системах пошуку ключових слів у мовному сигналі
Розроблено метод підвищення ефективності роботи структури асоціативної пам’яті для системи пошуку ключових слів в мовному сигналі на основі запропонованих принципів зберігання в окремих комірках асоціативної пам’яті тільки незбіжних частин еталонів та урахування потенційної здійсненності апріорно заданого розподілу ключових слів на класи в пам’яті еталонів. Надано математичне обґрунтування оптимального вибору асоціативної ознаки
Fast Keyword Spotting in Telephone Speech
In the paper, we present a system designed for detecting keywords in telephone speech. We focus not only on achieving high accuracy but also on very short processing time. The keyword spotting system can run in three modes: a) an off-line mode requiring less than 0.1xRT, b) an on-line mode with minimum (2 s) latency, and c) a repeated spotting mode, in which pre-computed values allow for additional acceleration. Its performance is evaluated on recordings of Czech spontaneous telephone speech using rather large and complex keyword lists
Very Fast Keyword Spotting System with Real Time Factor below 0.01
In the paper we present an architecture of a keyword spotting (KWS) system
that is based on modern neural networks, yields good performance on various
types of speech data and can run very fast. We focus mainly on the last aspect
and propose optimizations for all the steps required in a KWS design: signal
processing and likelihood computation, Viterbi decoding, spot candidate
detection and confidence calculation. We present time and memory efficient
modelling by bidirectional feedforward sequential memory networks (an
alternative to recurrent nets) either by standard triphones or so called
quasi-monophones, and an entirely forward decoding of speech frames (with
minimal need for look back). Several variants of the proposed scheme are
evaluated on 3 large Czech datasets (broadcast, internet and telephone, 17
hours in total) and their performance is compared by Detection Error Tradeoff
(DET) diagrams and real-time (RT) factors. We demonstrate that the complete
system can run in a single pass with a RT factor close to 0.001 if all
optimizations (including a GPU for likelihood computation) are applied.Comment: 11 pages, 3 figure
Kulcsszókeresési kísérletek hangzó híranyagokon beszédhang alapú felismerési technikákkal
A beszédadatbázisok kereshetővé tételéhez szöveges címkékkel kell
azokat ellátni. A kézenfekvő megoldás szószintű átirat készíttetése lenne
nagyszótáras beszédfelismerővel. A felismerők azonban zárt szótárral dolgoznak,
így előfordulhat, hogy számunkra fontos keresési kifejezéseket (tulajdonneveket,
névelemeket) esélyünk sem lesz megtalálni, pusztán mert azok nem
szerepelnek a felismerő szótárában. Jelen cikkben olyan megoldásokat hasonlítunk
össze, amelyek csupán beszédhang szinten végzik el az előzetes indexálást,
így tetszőleges keresési kifejezésre (hangsorozatra) képesek rákeresni. A
vizsgált módszerek találati pontossága gyakorlati szempontból is használhatónak
ígérkezik, köszönhetően az eleve magas beszédhang-felismerési pontosságnak.
A futási időt tekintve azonban még a leggyorsabb módszer is sokkal
lassabbnak bizonyul, mint ami egy ilyen alkalmazástól elvárt lenne. Ezért a kés
őbbiekben kifinomult indexálási technikák bevetésére lesz szükség
Fast and Accurate Keyword Spotting System
Tato práce se zabývá rychlou a přesnou detekcí klíčových slov z audio nahrávek. Cílem práce bylo prostudovat možnosti detekce slov a vytvořit několik typů jazykových modelů. Tyto modely následně mezi sebou porovnat. Zaměřujeme se zde na detekci klíčových slov z anglicky namluvených audio nahrávek.This bachelor's thesis deals with fast and accurate detection of keywords from audio records. The aim of was to study possibilities of word detection and to create several types of language models. These were then to be compared to each other. We focus here on the detection of keywords from English spoken audio records.