17 research outputs found

    Multi-referenced correction of the voice timbre distortions on telephone network

    Get PDF
    In a telephone link, the voice timbre is impaired by spectral distortions generated by the analog parts of the link. We first evaluate from a perceptual point of view an equalization method consisting in matching the long term spectrum of the processed signal to a reference spectrum. This evaluation shows a satisfying restoration of the timbre for most speakers. For some speakers however, a noticeable spectral distortion remains. That is why we propose a multi-referenced equalizer, based on a classification of speakers and using a different reference spectrum for each class. This leads to a decrease of the spectral distortion and, as a consequence, to a significant improvement of the timbre correction

    Restoration of voice timbre in telephone networks, based on both voice and lines properties

    Get PDF
    The voice timbre suffers from different forms of distorsions in a telephone link. In this paper, we propose a new blind equalizer for correcting these distortions, based on the combination of two different methods. The first one is a blind equalization method consisting in matching the long term spectrum of the processed signal to a reference spectrum, while the second one is a precompensation method, based on the physical characteristics of transmission lines. The new method is compared to the first one, showing a significant gain in performance

    Systèmes de communications numériques

    No full text
    International audienc

    Systèmes de communications numériques

    No full text
    International audienc

    Correction centralisée des distorsions spectrales de la parole sur les réseaux téléphoniques

    No full text
    The aim of this thesis is to compensate for spectral distortions of voice on telephone networks, particularly on the analog parts of the terrestrial network. These distortions are generated by the non-flat transfer functions of the sending and receiving terminals and of the corresponding analog lines. Our purpose is to restore a "timbre" as close as possible to the original voice of thespeaker, using a blind equalizer centralized in the network.We propose a spectral equalization algorithm, which consists in matching the long-term spectrum of the processed signal to a reference spectrum (spectrum of the ITU-T Recommendation P.50) in a limited frequency bandwidth (200-3150 Hz). Subjective evaluations show a satisfying restoration of the timbre of the speakers, within the limits of the chosen equalization band.The A-law quantization of the output samples of the equalizer induces however adisturbing noise at the reception end. Two methods are proposed to mask this noise, using a perceptual spectral shaping. The first one is based on the feed-back of the filtered quantization error to the input of the quantizer. The second one explores the temporal sequences of the possible quantization levels, in order to maximize a probabilistic criterion of noise masking, using a Viterbi-like algorithm. A subjective evaluation finally shows on the one hand that the non-reshaped noise is preferred to the reshaped noise, on the other hand that voices with a corrected timbre, even with quantization noise, are preferred to the same voices at the output of a telephone link without timbre correction (and without noise).In order to make the reference spectrum more appropriate to the various speakers' voices, we define two or four classes of speakers, based on their long-term spectra. Classification criteria robust to telephone link distortions are defined. This classification allows using one reference spectrum for each class, instead of the same reference spectrum for the whole population. This leads to a decrease of the spectral distortion induced by the equalizer and, as a consequence, to a significant improvement of the timbre correction for a part of the speakers, in a perceptual point of view.Ces travaux ont pour objet la correction des distorsions spectrales subies par la parole sur les réseaux téléphoniques, en premier lieu le réseau fixe (terrestre) dans sa partie analogique. Ces distorsions sont dues aux fonctions de transfert des terminaux téléphoniques en émission et en réception, et aux lignes téléphoniques analogiques correspondantes. Le but est de restaurer, en aveugle, un "timbre" le plus proche possible de la voix originale du locuteur, au moyen d'un traitement du signal centralisé dans un équipement du réseau.Nous proposons un algorithme d'égalisation spectrale aveugle consistant à aligner, sur une bande de fréquences limitée (200-3150 Hz), le spectre à long terme du signal traité sur un spectre de référence (spectre de la recommandation P.50 de l'UIT-T). Des évaluations subjectives mettent en évidence une restauration satisfaisante du timbre original des locuteurs, dans la limite de la bande d'égalisation choisie. Il apparaît toutefois que la quantification en loi A des échantillons de sortie de l'égaliseur induit un bruit gênant en réception. Deux approches sont donc proposées pour masquer perceptivement ce bruit par un reformage spectral. L'une est fondée sur la réinjection à l'entrée du quantificateur de l'erreur de quantification filtrée. L'autre explore selon un algorithme de type Viterbi les séquences temporelles des niveaux de quantification possibles, de manière à maximiser un critère probabiliste de masquage du bruit. Une évaluation subjective montre finalement d'une part que le bruit non reformé est préféré au bruit reformé, plus sporadique mais plus "rauque", d'autre part qu'une voix dont le timbre a été corrigé, au prix de ce bruit de quantification, est préférée à la même voix en réception d'une liaison téléphonique sans correction de timbre (et non bruitée). Afin d'améliorer l'adéquation du spectre de référence de l'égaliseur aux différents locuteurs, une classification des locuteurs selon leur spectre, en deux ou quatre classes, est étudiée, et des critères de classement robustes aux distorsions de la liaison téléphonique sont définis. Cette classification permet d'utiliser non plus un spectre de référence unique, mais un spectre de référence par classe. Il en résulte une réduction de la distorsion spectrale induite par l'égaliseur, ce qui se traduit, pour certains locuteurs, par une amélioration significative de la correction de timbre

    Le beau noiseur: Du bruit pour révéler le signal

    No full text
    We show how inaudibly distorting an audio signal can make further analysis or correction processing easier. Starting from the notion of audio watermarking, an inaudible noise will then play four original functions— informing, doping, witnessing, and revealing — dedicated to sound processing.The first studied distortion is that of audio watermarking itself, for which several contributions are presented, that either enhance existing techniques by reinforcing the watermark robustness or inaudibility, or propose a new technique. Here, watermarking is used to insert information into the sound that is useful to a processingsystem at the receiving part of a transmission chain : either information on the signal properties, or the missing information to process the signal knowing the impaired version of it. We will show that this reflexive watermarking enables to restore an audio signal at the output of a corrupted communication channel in two application contexts : audio compression and source separation from a stereo mixture.The notion of watermarking is then extended to assign to this distortion of the sound, no longer the role of transmitting explicit information, but that of modifying the properties of the host signal so as to make further processing easier. We show that this signal doping enables to enhance the performance of generic algorithms byhelping to verify too strong statistical assumptions they ideally rely on. Various generic audio processing applications are revisited : system identification, quantization, source separation and denoising.When processing a signal from a degraded communication channel relies on the identification of the this channel, a noise added to the signal can help this identification if one can compare its original version with the one having undergone the same alterations as its host signal. This idea of a noise witness of signal alterationsis validated in the case of linear system identification, especially for acoustic echo cancellation.Finally, we propose to add a virtual noise to the signal for analyzing and processing purposes : the added noise enables measuring the sound clarity and using this measure as an efficient source separation criterion. After having informed, doped, and been witness, the noise reveals the signal.Nous montrons comment des distorsions inaudibles du son peuvent faciliter des traitements d’analyse ou de correction de celui-ci. En partant de la notion de tatouage audio, un bruit inaudible prendra ainsi quatre fonctions originales — informer, doper, témoigner et révéler — au service du traitement du son.La première des distorsions étudiées est celle du tatouage audio proprement dit, pour lequel plusieurs contributions sont présentées, soit améliorant des techniques existantes par le renforcement de la robustesse ou de l’inaudibilité, soit proposant une nouvelle technique. Le tatouage est utilisé ici pour insérer dans le son une information utile à un système de traitement en réception d’une chaîne de transmission : soit une information sur les propriétés du signal, soit l’information manquante pour traiter le signal connaissant la version dégradée de celui-ci. Nous montrons que ce tatouage réflexif permet la restauration d’un signal audio en sortie d’un canal de communication dégradé dans deux contextes applicatifs : la compression audio et la séparation de sources dans un mélange stéréo.La notion de tatouage est ensuite étendue pour assigner à cette distorsion du son, non plus le rôle de transmettre une information explicite, mais celui de modifier les propriétés du signal hôte de manière à faciliter un traitement ultérieur. Nous montrons que ce dopage du signal permet d’améliorer les performances d’algorithmes génériques en facilitant la vérification d’hypothèses statistiques trop fortes sur lesquels reposent idéalement ces derniers. Différentes applications génériques en traitement du son sont revisitées : l’identification de systèmes, la quantification, la séparation de sources et le débruitage.Lorsque le traitement d’un signal issu d’un canal de communication dégradé repose sur l’identification de ce canal, un bruit ajouté au signal peut faciliter cette identification dès lors que l’on peut comparer sa version originelle avec celle ayant subi les mêmes altérations que son signal hôte. Cette idée d’un bruit témoin desaltérations du signal est validée dans le cas de l’identification de systèmes linéaires, notamment pour l’annulation d’écho acoustique.Enfin, nous proposons de bruiter le signal virtuellement pour l’analyser et le traiter : le bruit ajouté permet de mesurer la netteté d’un son et d’utiliser cette mesure comme un critère efficace de séparation de sources. Après avoir informé, dopé, témoigné, le bruit agit comme un révélateur du signal

    Perceptually Controlled Reshaping of Sound Histograms

    No full text
    International audienceMany audio processing algorithms have optimal performance for specific signal statistical distributions that may not be fulfilled for all signals. When the original signal is available, we propose to add an inaudible noise so that the distribution of the signal-plus-noise mixture is as close as possible to a given target distribution. The proposed generic algorithm (independent from the application) adds iteratively a low-power white noise to a flat-spectrum version of the signal, until the target distribution or the noise audibility is reached. The latter is assessed through a frequency masking model. Two implementations of this sound reshaping are described, according to the level of the targeted transformation and to the foreseen application: Histogram Global Reshaping (HGR) to change the global shape of the histogram and Histogram Local Reshaping (HLR) to locally " chisel " the histogram, but keeping the global shape unchanged. These two variants are illustrated by two applications where the inaudibility of the noise generated by the algorithm is required: " sparsification " for source separation, and low-pass filtering of the histogram for application of the quantization theorem, respectively. In both cases, the target histogram is reached or almost reached and the transformation is inaudible. The experiments show that the source separation performs better with HGR and that the HLR allows a better application of the quantization theorem

    Watermark-Aided Pre-Echo Reduction in Low Bit-Rate Audio Coding

    No full text
    International audienc

    Watermark-Aided Pre-Echo Reduction in Low Bit-Rate Audio Coding

    No full text
    International audienc

    An Image-Inspired Audio Sharpness Index

    No full text
    We propose a new non-intrusive (reference-free) objective measure of speech intelligibility that is inspired from previous works on image sharpness. We define the audio Sharpness Index (aSI) as the sensitivity of the spectrogram sparsity to the convolution of the signal with a white noise, and we calculate a closed-form formula of the aSI. Experiments with various speakers, noise and reverberation conditions show a high correlation between the aSI and the well-established Speech Transmission Index (STI), which is intrusive (full-reference). Additionally, the aSI can be used as an intelligibility or clarity criterion to drive sound enhancement algorithms. Experimental results on stereo mixtures of two sounds show that blind source separation based on aSI maximization performs well for speech and for music
    corecore