30 research outputs found

    Метод підвищення ефективності роботи пам’яті в системах пошуку ключових слів у мовному сигналі

    Get PDF
    Розроблено метод підвищення ефективності роботи структури асоціативної пам’яті для системи пошуку ключових слів в мовному сигналі на основі запропонованих принципів зберігання в окремих комірках асоціативної пам’яті тільки незбіжних частин еталонів та урахування потенційної здійсненності апріорно заданого розподілу ключових слів на класи в пам’яті еталонів. Надано математичне обґрунтування оптимального вибору асоціативної ознаки

    Fast Keyword Spotting in Telephone Speech

    Get PDF
    In the paper, we present a system designed for detecting keywords in telephone speech. We focus not only on achieving high accuracy but also on very short processing time. The keyword spotting system can run in three modes: a) an off-line mode requiring less than 0.1xRT, b) an on-line mode with minimum (2 s) latency, and c) a repeated spotting mode, in which pre-computed values allow for additional acceleration. Its performance is evaluated on recordings of Czech spontaneous telephone speech using rather large and complex keyword lists

    Very Fast Keyword Spotting System with Real Time Factor below 0.01

    Full text link
    In the paper we present an architecture of a keyword spotting (KWS) system that is based on modern neural networks, yields good performance on various types of speech data and can run very fast. We focus mainly on the last aspect and propose optimizations for all the steps required in a KWS design: signal processing and likelihood computation, Viterbi decoding, spot candidate detection and confidence calculation. We present time and memory efficient modelling by bidirectional feedforward sequential memory networks (an alternative to recurrent nets) either by standard triphones or so called quasi-monophones, and an entirely forward decoding of speech frames (with minimal need for look back). Several variants of the proposed scheme are evaluated on 3 large Czech datasets (broadcast, internet and telephone, 17 hours in total) and their performance is compared by Detection Error Tradeoff (DET) diagrams and real-time (RT) factors. We demonstrate that the complete system can run in a single pass with a RT factor close to 0.001 if all optimizations (including a GPU for likelihood computation) are applied.Comment: 11 pages, 3 figure

    Kulcsszókeresési kísérletek hangzó híranyagokon beszédhang alapú felismerési technikákkal

    Get PDF
    A beszédadatbázisok kereshetővé tételéhez szöveges címkékkel kell azokat ellátni. A kézenfekvő megoldás szószintű átirat készíttetése lenne nagyszótáras beszédfelismerővel. A felismerők azonban zárt szótárral dolgoznak, így előfordulhat, hogy számunkra fontos keresési kifejezéseket (tulajdonneveket, névelemeket) esélyünk sem lesz megtalálni, pusztán mert azok nem szerepelnek a felismerő szótárában. Jelen cikkben olyan megoldásokat hasonlítunk össze, amelyek csupán beszédhang szinten végzik el az előzetes indexálást, így tetszőleges keresési kifejezésre (hangsorozatra) képesek rákeresni. A vizsgált módszerek találati pontossága gyakorlati szempontból is használhatónak ígérkezik, köszönhetően az eleve magas beszédhang-felismerési pontosságnak. A futási időt tekintve azonban még a leggyorsabb módszer is sokkal lassabbnak bizonyul, mint ami egy ilyen alkalmazástól elvárt lenne. Ezért a kés őbbiekben kifinomult indexálási technikák bevetésére lesz szükség

    Fast and Accurate Keyword Spotting System

    Get PDF
    Tato práce se zabývá rychlou a přesnou detekcí klíčových slov z audio nahrávek. Cílem práce bylo prostudovat možnosti detekce slov a vytvořit několik typů jazykových modelů. Tyto modely následně mezi sebou porovnat. Zaměřujeme se zde na detekci klíčových slov z anglicky namluvených audio nahrávek.This bachelor's thesis deals with fast and accurate detection of keywords from audio records. The aim of was to study possibilities of word detection and to create several types of language models. These were then to be compared to each other. We focus here on the detection of keywords from English spoken audio records.
    corecore