22 research outputs found

    A Comparison of Regularization Methods in Forward and Backward Models for Auditory Attention Decoding

    Get PDF
    The decoding of selective auditory attention from noninvasive electroencephalogram (EEG) data is of interest in brain computer interface and auditory perception research. The current state-of-the-art approaches for decoding the attentional selection of listeners are based on linear mappings between features of sound streams and EEG responses (forward model), or vice versa (backward model). It has been shown that when the envelope of attended speech and EEG responses are used to derive such mapping functions, the model estimates can be used to discriminate between attended and unattended talkers. However, the predictive/reconstructive performance of the models is dependent on how the model parameters are estimated. There exist a number of model estimation methods that have been published, along with a variety of datasets. It is currently unclear if any of these methods perform better than others, as they have not yet been compared side by side on a single standardized dataset in a controlled fashion. Here, we present a comparative study of the ability of different estimation methods to classify attended speakers from multi-channel EEG data. The performance of the model estimation methods is evaluated using different performance metrics on a set of labeled EEG data from 18 subjects listening to mixtures of two speech streams. We find that when forward models predict the EEG from the attended audio, regularized models do not improve regression or classification accuracies. When backward models decode the attended speech from the EEG, regularization provides higher regression and classification accuracies

    The three ages of perception

    No full text
    The auditory system as a separation machine This paper is written from the hypothetical standpoint that the auditory system is designed to separate sounds rather than just detect, discriminate, or recognize them. Auditory structures and processing mechanisms are judged on their ability to produce a "separable representation " in which correlates of different sources can be selected or ignored. The cochlear filter is assumed to split acoustic information into band-limited channels, rather than just produce a spectral representation (Fourier transformation). Tonotopy, prevalent throughout the auditory system, is assumed to reflect the need to keep the channels apart, rather than the mere repetition of a spectral representation. Between-channel segregation is supplemented by withinchannel segregation based on time-domain processing, both binaural (cross-correlation and equalization-cancellation), an

    The Human Interface of a Speech Work-Station.

    Get PDF

    Mesure de l'impact de la qualité vocale sur le comportement de l'utilisateur

    No full text
    L'évolution des télécommunications vers des nouvelles techniques implique la mise à jour des méthodes d'évaluation de la qualité vocale. Elles font intervenir des groupes d'auditeurs qui évaluent la qualité vocale d'échantillons de parole et fournissent une note moyenne d'opinion (note MOS) pour chaque condition testée. Cependant, ces tests présentent deux limites principales : d'une part, la dépendance de ces notes à la distribution des conditions, propre à chaque test, qui limite les comparaisons de notes entre les tests et d'autre part, l'introspection nécessaire à cette évaluation qui peut biaiser les processus naturels de perception de la qualité. Une autre approche est alors explorée, basée sur la mesure de l'impact de la qualité sur des indicateurs comportementaux. Les tâches simples, d'intelligibilité notamment, sont explorées puis écartées en raison de leur faible sensibilité aux dégradations de qualité. La thèse se poursuit donc sur l'hypothèse selon laquelle la qualité influe sur l'efficacité de l'auditeur à effectuer des tâches concurrentes faisant intervenir des signaux de parole dégradés. Le recueil de plusieurs variables dépendantes (taux d'erreurs et temps de réaction) multiplie les chances d'obtenir une mesure sensible à la qualité. Le protocole mis en place combine des tâches de reconnaissance de chiffre et de lettre, et de rappel de chiffres. Les résultats montrent un effet de la qualité sur les temps de réaction et les erreurs. Plusieurs versions de ce protocole sont explorées afin de discriminer les qualités de quatre conditions : fullband (signal original), codeur large bande (G.729.1), codeur bande étroite (AMR) et bande étroite bruitée (MNRU 5 dB).PARIS-BIUSJ-Physique recherche (751052113) / SudocSudocFranceF

    L'effet de la fréquence fondamentale sur le timbre

    No full text
    PARIS-BIUSJ-Thèses (751052125) / SudocSudocFranceF
    corecore