2 research outputs found
Speech Recognition Front End Without Information Loss
Speech representation and modelling in high-dimensional spaces of acoustic
waveforms, or a linear transformation thereof, is investigated with the aim of
improving the robustness of automatic speech recognition to additive noise. The
motivation behind this approach is twofold: (i) the information in acoustic
waveforms that is usually removed in the process of extracting low-dimensional
features might aid robust recognition by virtue of structured redundancy
analogous to channel coding, (ii) linear feature domains allow for exact noise
adaptation, as opposed to representations that involve non-linear processing
which makes noise adaptation challenging. Thus, we develop a generative
framework for phoneme modelling in high-dimensional linear feature domains, and
use it in phoneme classification and recognition tasks. Results show that
classification and recognition in this framework perform better than analogous
PLP and MFCC classifiers below 18 dB SNR. A combination of the high-dimensional
and MFCC features at the likelihood level performs uniformly better than either
of the individual representations across all noise levels
Décodage acoustico-phonétique et applications à l'indexation audio automatique
Aujourd'hui, la quantité de documents audio numériques disponibles ne cesse de croître et le traitement automatique de ces données potentiellement très hétérogènes devient primordial. Dans cette thèse, nous étudions la faisabilité d'applications d'indexation automatique robustes des documents parlés basée sur un moteur de décodage acoustico-phonétique de la parole (DAP). Le DAP permet de transcrire automatiquement un signal de parole en phonèmes, unités plus petites que les mots mais permettant potentiellement de conserver l'intelligibilité du discours. Nous mettons en évidence, dans un premier temps, l'intérêt d'intégrer l'information syllabique dans un système de DAP. Ce moteur, basé sur une modélisation originale des syllabes, est évalué sur le corpus de test de la campagne ESTER. La seconde partie de notre étude s'articule autour d'un moteur de détection de mots-clés basé sur le flux phonétique issu de notre DAP. Nous proposons un système simple, rapide, et robuste aux fausses alarmes, s'affranchissant d'un calcul classique du critère de maximum de vraisemblance. Nous introduisons pour cela des méthodes adaptées de gestion des erreurs de phonétisation, des phénomènes de coarticulation et de filtrage des fausses alarmes. Nous proposons en particulier des techniques d'expansion phonétique par utilisation de grammaires. Le système est évalué tout au long de cette étude par la détection de noms de pays dans le corpus de test ESTER. Nous présentons pour terminer le système complet actuellement implémenté et intégré dans la plateforme de démonstration de Orange Labs dédiée à la recherche et à la navigation dans les contenus.Today, the amount of available digital audio is growing and automatic processing of data becomes essential. A limiting factor of this treatment is the heterogeneity of these documents. They can be professionals like news or generated and shared online by users, with various recording conditions and languages. In this thesis, we study the feasibility of applications of robust automatic indexing of documents based on an acoustico-phonetic decoding of speech, called DAP. The DAP allows an automatic transcription of a speech signal into phonemes, units smaller than words that can potentially maintain the intelligibility of speech. First, we propose a DAP system guided by syllabic information and we highlight the value of integrating this information into the decoding. We also introduce a new modelization of syllables. This engine is evaluated on the test campaign ESTER. The second part of our study is built around a keyword spotting engine based on the flow from our phonetic decoding. We suggest a simple and fast method, which is robust to false alarms and avoids the classical computation of the criterion of maximum likelihood. For this, we introduce an appropriate management for errors of phonetization : coarticulation phenomena and false alarms. In particular, we propose techniques for phonetic expansion using phonetic grammars. The system is evaluated throughout the study by the detection of country names in the test corpus ESTER. We present to complete the system currently implemented and integrated in the platform demonstration of Orange Labs dedicated to searching and browsing content