3 research outputs found

    Deep speech inpainting of time-frequency masks

    Full text link
    Transient loud intrusions, often occurring in noisy environments, can completely overpower speech signal and lead to an inevitable loss of information. While existing algorithms for noise suppression can yield impressive results, their efficacy remains limited for very low signal-to-noise ratios or when parts of the signal are missing. To address these limitations, here we propose an end-to-end framework for speech inpainting, the context-based retrieval of missing or severely distorted parts of time-frequency representation of speech. The framework is based on a convolutional U-Net trained via deep feature losses, obtained using speechVGG, a deep speech feature extractor pre-trained on an auxiliary word classification task. Our evaluation results demonstrate that the proposed framework can recover large portions of missing or distorted time-frequency representation of speech, up to 400 ms and 3.2 kHz in bandwidth. In particular, our approach provided a substantial increase in STOI & PESQ objective metrics of the initially corrupted speech samples. Notably, using deep feature losses to train the framework led to the best results, as compared to conventional approaches.Comment: Accepted to InterSpeech202

    Extension de bande paramétrique pour les signaux audio de parole et de musique

    Get PDF
    Dans le domaine du codage audio, l’utilisation d’une extension de bande paramétrique pour encoder les hautes fréquences permet une économie de débit. Contrairement à la majorité des méthodes d'extension de bande qui effectuent leur traitement dans le domaine temporel, le traitement proposé dans ce mémoire s’effectue dans le domaine fréquentiel pour créer une extension de bande audio de 8 à 16 kHz sur les signaux monophoniques de parole et de musique. Le projet de maîtrise étudie plusieurs éléments : les techniques de régénération des hautes fréquences, l'utilisation du cepstre pour le calcul et la représentation de l'enveloppe spectrale, ainsi que des techniques d’amélioration de la dynamique du spectre. Les résultats de tests subjectifs formels montrent un gain sur certaines catégories de signaux par rapport au codec AMR-WB+, lequel est reconnu comme étant un standard international développé à l'Université de Sherbrooke

    Tatouage pour le renforcement de la qualité audio des systèmes de communication bas débit

    Get PDF
    L'objectif de cette thèse est d'étudier l'idée du tatouage dans le traitement du son.Les recherches en tatouage audio se sont principalement tournées vers des applications sécuritaires ou de transmission de données auxiliaires. Une des applications visées par ce concept consiste à améliorer la qualité du signal hôte ayant subi des transformations et ceci en exploitant l'information qu'il véhicule. Le tatouage audio est donc considéré comme mémoire porteuse d'informations sur le signal originel. La compression à bas débit des signaux audio est une des applications visée par ce concept. Dans ce cadre, deux objectifs sont proposés : la réduction du pré-écho et de l'amollissement d'attaque, deux phénomènes introduits par les codeurs audio perceptifs, en particulier les codeurs AAC et MP3; la préservation de l'harmonicité des signaux audio dégradée par les codeurs perceptifs à extension de bande, en particulier le codeur HE-AAC.La première partie de ce manuscrit présente les principes de base des systèmes de codage bas débit et étudie les différentes distorsions introduites par ces derniers. Fondées sur cette étude, deux solutions sont proposées. La première, visant principalement la réduction du pré-écho, consiste à corriger l'enveloppe temporelle du signal après réception en exploitant la connaissance a priori de l'enveloppe temporelle du signal original, supposée transmise par un canal auxiliaire à faible débit (< 500 bits/s). La seconde solution vise à corriger les ruptures d'harmonicité générées par les codeurs à extension de bande. Ce phénomène touche essentiellement les signaux fortement harmoniques (exemple : violon) et est perçu comme une dissonance. Une préservation de l'harmonicité des signaux audio par des opérations de translation spectrale est alors proposée, les paramètres étant là encore transmis par un canal auxiliaire à faible débit.La seconde partie de ce document est consacrée à l'intégration du tatouage audio dans les techniques de renforcement de la qualité des signaux audio précitées. Dans ce contexte, le tatouage audio remplace le canal auxiliaire précédent et œuvre comme une mémoire du signal originel, porteuse d'informations nécessaires pour la correction d'harmonicité et la réduction de pré-écho. Cette seconde partie a été précédée par une étape approfondie de l'évaluation des performances de la technique de tatouage adoptée en terme de robustesse à la compression MPEG (MP3, AAC et aacPlus).The goal of this thesis is to explore the idea of watermark for sound enhancement. Classically, watermark schemes are oriented towards security applications or maximization of the transmitted bit rates. Our approach is completely different. Our goal is to study how an audio watermarking can improve the quality of the host audio signal by exploiting the information it conveys. The audio watermarking is considered as a memory that carries information about the original signal.The low bitrate compression of audio signals is one of the applications covered by this concept. In this context, two objectives are proposed: reducing the pre-echo and the attack softening, two phenomena introduced by the perceptual audio coders, particularly AAC and MP3 encoders ; preserving the harmonicity of audio signals, distorted by coders with bandwidth extension, especially HE-AAC encoder. These coders are limited in the reconstruction of the high-frequency spectrum mainly because of the potential unpredictability of the fine structure of the latter, as well as imperfect indicators of tonal to noise.The first part of this manuscript presents the basic principles of low rate coding systems and studies the various distortions introduced by the latter. Based on this study, two solutions are proposed. The first one, principally aimed at reducing the pre-echo, consist in correcting the time envelope of the signal after reception by exploiting the prior knowledge of the temporal envelope of the original signal, which is assumed transmitted by an auxiliary channel at low bitrates (<500 bps). The second solution is to correct the harmonicity generated by coders with bandwidth extension. This primarily affects strongly harmonic signals (e.g. violin) and is perceived as a dissonance. We propose then to preserve the harmonicity of audio signals by spectral translations. The parameters being passed again by an auxiliary channel at low bitrates.The second part of this document is dedicated to the integration of audio watermarking techniques in the solution presented in the first part. In this context, the audio watermarking replaces the previous auxiliary channel and is regarded as a memory of the original signal, carrying information necessary for the correction of harmonicity and the pre-echo reduction.PARIS5-Bibliotheque electronique (751069902) / SudocSudocFranceF
    corecore