14 research outputs found

    Survey of error concealment schemes for real-time audio transmission systems

    Get PDF
    This thesis presents an overview of the main strategies employed for error detection and error concealment in different real-time transmission systems for digital audio. The “Adaptive Differential Pulse-Code Modulation (ADPCM)”, the “Audio Processing Technology Apt-x100”, the “Extended Adaptive Multi-Rate Wideband (AMR-WB+)”, the “Advanced Audio Coding (AAC)”, the “MPEG-1 Audio Layer II (MP2)”, the “MPEG-1 Audio Layer III (MP3)” and finally the “Adaptive Transform Coder 3 (AC3)” are considered. As an example of error management, a simulation of the AMR-WB+ codec is included. The simulation allows an evaluation of the mechanisms included in the codec definition and enables also an evaluation of the different bit error sensitivities of the encoded audio payload.IngenierĂ­a TĂ©cnica en TelemĂĄtic

    Audio Inpainting

    Get PDF
    (c) 2012 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other users, including reprinting/ republishing this material for advertising or promotional purposes, creating new collective works for resale or redistribution to servers or lists, or reuse of any copyrighted components of this work in other works. Published version: IEEE Transactions on Audio, Speech and Language Processing 20(3): 922-932, Mar 2012. DOI: 10.1090/TASL.2011.2168211

    Bilateral Waveform Similarity Overlap-and-Add Based Packet Loss Concealment for Voice over IP

    Get PDF
    This paper invested a bilateral waveform similarity overlap-and-add algorithm for voice packet lost. Since Packet lost will cause the semantic misunderstanding, it has become one of the most essential problems in speech communication. This investment is based on waveform similarity measure using overlap-and-Add algorithm and provides the bilateral information to enhance the speech signal reconstruction. Traditionally, it has been improved that waveform similarity overlap-and-add (WSOLA) technique is an effective algorithm to deal with packet loss concealment (PLC) for real-time time communication. WSOLA algorithm is widely applied to deal with the length adaptation and packet loss concealment of speech signal. Time scale modification of audio signal is one of the most essential research topics in data communication, especially in voice of IP (VoIP). Herein, the proposed the bilateral WSOLA (BWSOLA) that is derived from WSOLA. Instead of only exploitation one direction speech data, the proposed method will reconstruct the lost voice data according to the preceding and cascading data. The related algorithms have been developed to achieve the optimal reconstructing estimation. The experimental results show that the quality of the reconstructed speech signal of the bilateral WSOLA is much better compared to the standard WSOLA and GWSOLA on different packet loss rate and length using the metrics PESQ and MOS. The significant improvement is obtained by bilateral information and proposed method. The proposed bilateral waveform similarity overlap-and-add (BWSOLA) outperforms the traditional approaches especially in the long duration data loss

    Apprentissage automatique pour le codage cognitif de la parole

    Get PDF
    Depuis les annĂ©es 80, les codecs vocaux reposent sur des stratĂ©gies de codage Ă  court terme qui fonctionnent au niveau de la sous-trame ou de la trame (gĂ©nĂ©ralement 5 Ă  20 ms). Les chercheurs ont essentiellement ajustĂ© et combinĂ© un nombre limitĂ© de technologies disponibles (transformation, prĂ©diction linĂ©aire, quantification) et de stratĂ©gies (suivi de forme d'onde, mise en forme du bruit) pour construire des architectures de codage de plus en plus complexes. Dans cette thĂšse, plutĂŽt que de s'appuyer sur des stratĂ©gies de codage Ă  court terme, nous dĂ©veloppons un cadre alternatif pour la compression de la parole en codant les attributs de la parole qui sont des caractĂ©ristiques perceptuellement importantes des signaux vocaux. Afin d'atteindre cet objectif, nous rĂ©solvons trois problĂšmes de complexitĂ© croissante, Ă  savoir la classification, la prĂ©diction et l'apprentissage des reprĂ©sentations. La classification est un Ă©lĂ©ment courant dans les conceptions de codecs modernes. Dans un premier temps, nous concevons un classifieur pour identifier les Ă©motions, qui sont parmi les attributs Ă  long terme les plus complexes de la parole. Dans une deuxiĂšme Ă©tape, nous concevons un prĂ©dicteur d'Ă©chantillon de parole, qui est un autre Ă©lĂ©ment commun dans les conceptions de codecs modernes, pour mettre en Ă©vidence les avantages du traitement du signal de parole Ă  long terme et non linĂ©aire. Ensuite, nous explorons les variables latentes, un espace de reprĂ©sentations de la parole, pour coder les attributs de la parole Ă  court et Ă  long terme. Enfin, nous proposons un rĂ©seau dĂ©codeur pour synthĂ©tiser les signaux de parole Ă  partir de ces reprĂ©sentations, ce qui constitue notre derniĂšre Ă©tape vers la construction d'une mĂ©thode complĂšte de compression de la parole basĂ©e sur l'apprentissage automatique de bout en bout. Bien que chaque Ă©tape de dĂ©veloppement proposĂ©e dans cette thĂšse puisse faire partie d'un codec Ă  elle seule, chaque Ă©tape fournit Ă©galement des informations et une base pour la prochaine Ă©tape de dĂ©veloppement jusqu'Ă  ce qu'un codec entiĂšrement basĂ© sur l'apprentissage automatique soit atteint. Les deux premiĂšres Ă©tapes, la classification et la prĂ©diction, fournissent de nouveaux outils qui pourraient remplacer et amĂ©liorer des Ă©lĂ©ments des codecs existants. Dans la premiĂšre Ă©tape, nous utilisons une combinaison de modĂšle source-filtre et de machine Ă  Ă©tat liquide (LSM), pour dĂ©montrer que les caractĂ©ristiques liĂ©es aux Ă©motions peuvent ĂȘtre facilement extraites et classĂ©es Ă  l'aide d'un simple classificateur. Dans la deuxiĂšme Ă©tape, un seul rĂ©seau de bout en bout utilisant une longue mĂ©moire Ă  court terme (LSTM) est utilisĂ© pour produire des trames vocales avec une qualitĂ© subjective Ă©levĂ©e pour les applications de masquage de perte de paquets (PLC). Dans les derniĂšres Ă©tapes, nous nous appuyons sur les rĂ©sultats des Ă©tapes prĂ©cĂ©dentes pour concevoir un codec entiĂšrement basĂ© sur l'apprentissage automatique. un rĂ©seau d'encodage, formulĂ© Ă  l'aide d'un rĂ©seau neuronal profond (DNN) et entraĂźnĂ© sur plusieurs bases de donnĂ©es publiques, extrait et encode les reprĂ©sentations de la parole en utilisant la prĂ©diction dans un espace latent. Une approche d'apprentissage non supervisĂ© basĂ©e sur plusieurs principes de cognition est proposĂ©e pour extraire des reprĂ©sentations Ă  partir de trames de parole courtes et longues en utilisant l'information mutuelle et la perte contrastive. La capacitĂ© de ces reprĂ©sentations apprises Ă  capturer divers attributs de la parole Ă  court et Ă  long terme est dĂ©montrĂ©e. Enfin, une structure de dĂ©codage est proposĂ©e pour synthĂ©tiser des signaux de parole Ă  partir de ces reprĂ©sentations. L'entraĂźnement contradictoire est utilisĂ© comme une approximation des mesures subjectives de la qualitĂ© de la parole afin de synthĂ©tiser des Ă©chantillons de parole Ă  consonance naturelle. La haute qualitĂ© perceptuelle de la parole synthĂ©tisĂ©e ainsi obtenue prouve que les reprĂ©sentations extraites sont efficaces pour prĂ©server toutes sortes d'attributs de la parole et donc qu'une mĂ©thode de compression complĂšte est dĂ©montrĂ©e avec l'approche proposĂ©e.Abstract: Since the 80s, speech codecs have relied on short-term coding strategies that operate at the subframe or frame level (typically 5 to 20ms). Researchers essentially adjusted and combined a limited number of available technologies (transform, linear prediction, quantization) and strategies (waveform matching, noise shaping) to build increasingly complex coding architectures. In this thesis, rather than relying on short-term coding strategies, we develop an alternative framework for speech compression by encoding speech attributes that are perceptually important characteristics of speech signals. In order to achieve this objective, we solve three problems of increasing complexity, namely classification, prediction and representation learning. Classification is a common element in modern codec designs. In a first step, we design a classifier to identify emotions, which are among the most complex long-term speech attributes. In a second step, we design a speech sample predictor, which is another common element in modern codec designs, to highlight the benefits of long-term and non-linear speech signal processing. Then, we explore latent variables, a space of speech representations, to encode both short-term and long-term speech attributes. Lastly, we propose a decoder network to synthesize speech signals from these representations, which constitutes our final step towards building a complete, end-to-end machine-learning based speech compression method. The first two steps, classification and prediction, provide new tools that could replace and improve elements of existing codecs. In the first step, we use a combination of source-filter model and liquid state machine (LSM), to demonstrate that features related to emotions can be easily extracted and classified using a simple classifier. In the second step, a single end-to-end network using long short-term memory (LSTM) is shown to produce speech frames with high subjective quality for packet loss concealment (PLC) applications. In the last steps, we build upon the results of previous steps to design a fully machine learning-based codec. An encoder network, formulated using a deep neural network (DNN) and trained on multiple public databases, extracts and encodes speech representations using prediction in a latent space. An unsupervised learning approach based on several principles of cognition is proposed to extract representations from both short and long frames of data using mutual information and contrastive loss. The ability of these learned representations to capture various short- and long-term speech attributes is demonstrated. Finally, a decoder structure is proposed to synthesize speech signals from these representations. Adversarial training is used as an approximation to subjective speech quality measures in order to synthesize natural-sounding speech samples. The high perceptual quality of synthesized speech thus achieved proves that the extracted representations are efficient at preserving all sorts of speech attributes and therefore that a complete compression method is demonstrated with the proposed approach

    Sparsity in Linear Predictive Coding of Speech

    Get PDF
    nrpages: 197status: publishe

    Estimation and Modeling Problems in Parametric Audio Coding

    Get PDF

    Transmission efficace en temps réel de la voix sur réseaux ad hoc sans fil

    Get PDF
    La téléphonie mobile se démocratise et de nouveaux types de réseaux voient le jour, notamment les réseaux ad hoc. Sans focaliser exclusivement sur ces réseaux particuliers, le nombre de communications vocales effectuées chaque minute est en constante augmentation mais les réseaux sont encore souvent victimes d'erreurs de transmission. L'objectif de cette thÚse porte sur l'utilisation de méthodes de codage en vue d'une transmission de la voix robuste face aux pertes de paquets, sur un réseau mobile et sans fil perturbé permettant le multichemin. La méthode envisagée prévoit l'utilisation d'un codage en descriptions multiples (MDC) appliqué à un flux de données issu d'un codec de parole bas débit, plus particuliÚrement l'AMR-WB (Adaptive Multi Rate - Wide Band). Parmi les paramÚtres encodés par l'AMR-WB, les coefficients de la prédiction linéaire sont calculés une fois par trame, contrairement aux autres paramÚtres qui sont calculés quatre fois. La problématique majeure réside dans la création adéquate de descriptions pour les paramÚtres de prédiction linéaire. La méthode retenue applique une quantification vectorielle conjuguée à quatre descriptions. Pour diminuer la complexité durant la recherche, le processus est épaulé d'un préclassificateur qui effectue une recherche localisée dans le dictionnaire complet selon la position d'un vecteur d'entrée. L'application du modÚle de MDC à des signaux de parole montre que l'utilisation de quatre descriptions permet de meilleurs résultats lorsque le réseau est sujet à des pertes de paquets. Une optimisation de la communication entre le routage et le processus de création de descriptions mÚne à l'utilisation d'une méthode adaptative du codage en descriptions. Les travaux de cette thÚse visaient la retranscription d'un signal de parole de qualité, avec une optimisation adéquate des ressources de stockage, de la complexité et des calculs. La méthode adaptative de MDC rencontre ces attentes et s'avÚre trÚs robuste dans un contexte de perte de paquets

    Content-based music structure analysis

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH
    corecore