25 research outputs found

    Configurable EBEN: Extreme Bandwidth Extension Network to enhance body-conducted speech capture

    Full text link
    This paper presents a configurable version of Extreme Bandwidth Extension Network (EBEN), a Generative Adversarial Network (GAN) designed to improve audio captured with body-conduction microphones. We show that although these microphones significantly reduce environmental noise, this insensitivity to ambient noise happens at the expense of the bandwidth of the speech signal acquired by the wearer of the devices. The obtained captured signals therefore require the use of signal enhancement techniques to recover the full-bandwidth speech. EBEN leverages a configurable multiband decomposition of the raw captured signal. This decomposition allows the data time domain dimensions to be reduced and the full band signal to be better controlled. The multiband representation of the captured signal is processed through a U-Net-like model, which combines feature and adversarial losses to generate an enhanced speech signal. We also benefit from this original representation in the proposed configurable discriminators architecture. The configurable EBEN approach can achieve state-of-the-art enhancement results on synthetic data with a lightweight generator that allows real-time processing.Comment: Accepted in IEEE/ACM Transactions on Audio, Speech and Language Processing on 14/08/202

    Assessment of the fabric's wear by sound measurements on soldier's uniforms

    Get PDF
    This study focuses on the evaluation of fabrics friction sound using two different approaches (instrumental and sensory) to analyze the influence of fabric wear on friction sounds. For this purpose, four fabrics were selected and have undergone multiple washes (up to 50). A specific device reproducing the human arm motion is used to produce and record the fabric friction sounds. From these recordings, some acoustic parameters like the total noise level can be determined. Meanwhile, a sensory panel dedicated to hearing assessed the friction sounds by several attributes. This paper identifies the significant correlations between acoustic, mechanical and sensory properties

    Amélioration du traitement numérique des signaux dans les systèmes actifs en protection auditive.

    No full text
    Afin de réaliser une atténuation active du bruit (ANR), sous un protecteur audi-tif actif, avec un filtre numérique, il est nécessaire que ce filtre s´exécute en temps réel sur une bande fréquentielle importante avec une grande dynamique. Les filtres numériques de type RII sont les seuls à pouvoir respecter la contrainte du temps réel. Cependant l´effet de la quantification des coefficients et des signaux ainsi que la propagation de l´erreur d´arrondi réduisent leurs performances. Diverses solutions ont été adaptées afin de minimiser les effets de la quantification. En revanche pour augmenter la dynamique du filtre, il a été nécessaire de développer un nouvel algorithme pour les filtres de type RII. Cet algorithme appelé "algorithme adapté" a pour but essentiel de minimiser la propagation de l´erreur d´arrondi entre les étapes successives. Des protections auditives actives utilisant ces filtres de compensation numérique ont donc pu être réalisées. Ce filtre numérique permet de régler le gain de la boucle ouverte afin d´avoir l´optimum pour l´atténuation active. On a pu vérifier que les protections auditives actives numériques sont maintenant aussi performantes mais plus flexibles que les protections réalisées en technologie analogique. Le fait d´utiliser un système numérique permet d´ajouter facilement des fonctionnalités annexes au système ANR , comme par exemple : l´insertion de la voie de phonie, une procédure "Marche-Arrêt" automatique et un système ANR à double filtre

    Amélioration du traitement numérique des signaux dans les systèmes actifs en protection auditive

    No full text
    Afin de réaliser une atténuation active du bruit (ANR) sous un protecteur auditif actif avec un filtre numérique, il est nécessaire que ce filtre s'exécute en temps réel sur une bande fréquentielle importante avec une grande dynamique. Les filtres numériques de type RII sont les seuls à pouvoir respecter la contrainte du temps réel. Cependant l'effet de la quantification des coefficients et des signaux ainsi que la propagation de l'erreur d'arrondi réduisent les performances. Diverses solutions ont été adaptées afin de minimiser les effets de la quantification. En revanche pour augmenter la dynamique du filtre, il a été nécessaire de développer un nouvel algorithme pour les filtres de type RII. Cet algorithme appelé "algorithme adapté", a pour but essentiel de minimiser la propagation de l'erreur d'arrondi entre les étapes successives. Des protections auditives actives utilisant ces filtres de compensation numériques ont donc pu être réalisées. Ce filtre numérique permet de régler le gain de la boucle ouverte afin d'avoir l'optimum pour l'atténuation active. On a pu vérifier que les protections auditives actives numériques sont maintenant aussi performantes mais plus flexibles que les protections réalisées en technologie analogique. Le fait d'utiliser un système numérique permet d'ajouter facilement des fonctionnalités annexes au système ANR, comme par exemple : l'insertion de la voie de phonie, une procédure "Marche-Arrêt" automatique et un système ANR à double filtre.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocSudocFranceF

    Natural-to-Shouted Voice Transformation for Distance Cues of Monosyllabic Consonant-Vowel-Consonant Words

    No full text
    International audienceThis paper deals with voice transformation techniques in the case of natural-to-shouted voice transformation. A database is first recorded and analyzed in order to find relevant cues relative to the speaker's vocal effort, especially concerning the fundamental frequency. Then, a new experiment aiming at transforming natural voices into shouted voices is presented. It is based upon an observed repetitive f0-pattern. The transformation also takes into account intensity variations, spectral tilt variations and duration variations. A perceptual test was carried out in order to evaluate the quality and the perceived sensation of the transformations. The results show that about 80% of the proposed transformed voices are perceived as shouted voices

    Relevant acoustic features of speech signals for natural-to-shouted voice transformation

    No full text
    International audienceHumans are able to estimate the distance to a talker solely by hearing the voice. Hence, the voice of a talker carries the distance information. Indeed, in order to ensure a good communication, humans ad- just their voice, mainly by adjusting his vocal effort, according to the talker-to-listener distance. This vocal effort modifies several parameters (especially the prosodic parameters) of the speech signals. The main goal of this work is to show that the use of voice transformation techniques allows to create a distance perception in radio communication systems. We hope to transform conversational voices (i.e. modal voice) into whispered voices, representing close-by interlocutors; and into shouted voices, representing far-out interlocutors. The main difficulty of this approach remains to find pertinent cues indicating the speaker's vocal effort. In this paper we describe the recording of a new database and their analysis, especially for high vocal efforts. Important cues seem to be the intensity dynamics and the fundamental frequency dynamics of the speech signal, and their absolute values
    corecore