56 research outputs found

    N-HANS: a neural network-based toolkit for in-the-wild audio enhancement

    Get PDF

    Système portable de rehaussement de la parole attentif au bruit

    Get PDF
    La reconnaissance vocale est une interface intéressante pour un système intelligent en environnement industriel, permettant une interaction naturelle sans interruption des activités. Il y a actuellement un besoin entre les applications traditionnelles à lexique étroit (de type commande et contrôle) robustes au bruit et les assistants vocaux modernes. Ceux-ci, utilisés à travers des appareils intelligents, souffrent grandement en présence de bruit et de réverbération. Le projet présenté par ce mémoire vise à combler cette lacune en fournissant un système portable de rehaussement de la voix adapté aux milieux industriels, de manière à pouvoir y communiquer aisément avec un système commercial de reconnaissance de la parole infonuagique. Ce mémoire présente la méthode KISS (Keep It Super Simple - « Garde ça super simple ») pour effectuer le pré-traitement (front-end) avec filtre spatial (beamformer) et ainsi rehausser un signal de parole multicanal capté par une matrice de microphones portable. KISS applique une approche intuitive de traitement de signal à l'estimation des matrices de covariance représentant la cible et l'interférence du système de rehaussement, une problématique qui est couramment solutionnée par des réseaux de neurones plus coûteux en calculs. De plus, puisque KISS ne requiert aucun entraînement avec un ensemble de données, la méthode est robuste face à des bruits inconnus et ne dépend pas d'une connaissance préalable de son environnement d'utilisation. La simplicité de calcul et l'intuitivité distinguant KISS d'autres méthodes à l'état de l'art sont à l'origine de son nom. Combinée à une méthode de filtrage spatial établie comme celle de décomposition en valeurs propres généralisée (Generalized Eigenvalue - GEV), le système proposé surpasse largement l'approche populaire de filtrage Délai-et-Somme (DS), tout en se basant uniquement sur la même information de direction d'arrivée de la cible. En effet, les résultats de l'évaluation de KISS-GEV en environnement simulé montrent une amélioration du rapport signal-à-distorsion (Signal to Distortion Ratio - SDR) de 5,7 dB et de 4,9 dB comparativement au signal original et à celui rehaussé par DS, respectivement. De plus, la viabilité de la solution a également été démontrée en environnement acoustique industriel réel, en utilisant une matrice de microphones embarquée fixée à un gilet de sécurité porté par un mannequin. L'évaluation de ce système a été réalisée à plusieurs emplacements d'un complexe industriel en simulant plusieurs locuteurs féminins et masculins. Les performances de rehaussement ont été évaluées avec un moteur de reconnaissance de la parole infonuagique, et le taux de reconnaissance moyen des mots (Word Recognition Rate - WRR) s'est avéré supérieur à 85 % avec la méthode KISS-GEV. De surcroît, dans les conditions les plus adverses, KISS-GEV va jusqu'à doubler le WRR comparativement au signal original ou à un rehaussement DS, ce qui transforme un résultat virtuellement inutilisable en une proportion suffisante de mots reconnus pour qu'une commande soit traitée par un assistant vocal

    Least squares DOA estimation with an informed phase unwrapping and full bandwidth robustness

    Get PDF
    The weighted least-squares (WLS) direction-of-arrival estimator that minimizes an error based on interchannel phase differences is both computationally simple and flexible. However, the approach has several limitations, including an inability to cope with spatial aliasing and a sensitivity to phase wrapping. The recently proposed phase wrapping robust (PWR)-WLS estimator addresses the latter of these issues, but requires solving a nonconvex optimization problem. In this contribution, we focus on both of the described shortcomings. First, a conceptually simpler alternative to PWR is presented that performs comparably given a good initial estimate. This newly proposed method relies on an unwrapping of the phase differences vector. Secondly, it is demonstrated that all microphone pairs can be utilized at all frequencies with both estimators. When incorporating information from other frequency bins, this permits a localization above the spatial aliasing frequency of the array. Experimental results show that a considerable performance improvement is possible, particularly for arrays with a large microphone spacing

    Spatial dissection of a soundfield using spherical harmonic decomposition

    Get PDF
    A real-world soundfield is often contributed by multiple desired and undesired sound sources. The performance of many acoustic systems such as automatic speech recognition, audio surveillance, and teleconference relies on its ability to extract the desired sound components in such a mixed environment. The existing solutions to the above problem are constrained by various fundamental limitations and require to enforce different priors depending on the acoustic condition such as reverberation and spatial distribution of sound sources. With the growing emphasis and integration of audio applications in diverse technologies such as smart home and virtual reality appliances, it is imperative to advance the source separation technology in order to overcome the limitations of the traditional approaches. To that end, we exploit the harmonic decomposition model to dissect a mixed soundfield into its underlying desired and undesired components based on source and signal characteristics. By analysing the spatial projection of a soundfield, we achieve multiple outcomes such as (i) soundfield separation with respect to distinct source regions, (ii) source separation in a mixed soundfield using modal coherence model, and (iii) direction of arrival (DOA) estimation of multiple overlapping sound sources through pattern recognition of the modal coherence of a soundfield. We first employ an array of higher order microphones for soundfield separation in order to reduce hardware requirement and implementation complexity. Subsequently, we develop novel mathematical models for modal coherence of noisy and reverberant soundfields that facilitate convenient ways for estimating DOA and power spectral densities leading to robust source separation algorithms. The modal domain approach to the soundfield/source separation allows us to circumvent several practical limitations of the existing techniques and enhance the performance and robustness of the system. The proposed methods are presented with several practical applications and performance evaluations using simulated and real-life dataset

    Audio source separation for music in low-latency and high-latency scenarios

    Get PDF
    Aquesta tesi proposa mètodes per tractar les limitacions de les tècniques existents de separació de fonts musicals en condicions de baixa i alta latència. En primer lloc, ens centrem en els mètodes amb un baix cost computacional i baixa latència. Proposem l'ús de la regularització de Tikhonov com a mètode de descomposició de l'espectre en el context de baixa latència. El comparem amb les tècniques existents en tasques d'estimació i seguiment dels tons, que són passos crucials en molts mètodes de separació. A continuació utilitzem i avaluem el mètode de descomposició de l'espectre en tasques de separació de veu cantada, baix i percussió. En segon lloc, proposem diversos mètodes d'alta latència que milloren la separació de la veu cantada, gràcies al modelatge de components específics, com la respiració i les consonants. Finalment, explorem l'ús de correlacions temporals i anotacions manuals per millorar la separació dels instruments de percussió i dels senyals musicals polifònics complexes.Esta tesis propone métodos para tratar las limitaciones de las técnicas existentes de separación de fuentes musicales en condiciones de baja y alta latencia. En primer lugar, nos centramos en los métodos con un bajo coste computacional y baja latencia. Proponemos el uso de la regularización de Tikhonov como método de descomposición del espectro en el contexto de baja latencia. Lo comparamos con las técnicas existentes en tareas de estimación y seguimiento de los tonos, que son pasos cruciales en muchos métodos de separación. A continuación utilizamos y evaluamos el método de descomposición del espectro en tareas de separación de voz cantada, bajo y percusión. En segundo lugar, proponemos varios métodos de alta latencia que mejoran la separación de la voz cantada, gracias al modelado de componentes que a menudo no se toman en cuenta, como la respiración y las consonantes. Finalmente, exploramos el uso de correlaciones temporales y anotaciones manuales para mejorar la separación de los instrumentos de percusión y señales musicales polifónicas complejas.This thesis proposes specific methods to address the limitations of current music source separation methods in low-latency and high-latency scenarios. First, we focus on methods with low computational cost and low latency. We propose the use of Tikhonov regularization as a method for spectrum decomposition in the low-latency context. We compare it to existing techniques in pitch estimation and tracking tasks, crucial steps in many separation methods. We then use the proposed spectrum decomposition method in low-latency separation tasks targeting singing voice, bass and drums. Second, we propose several high-latency methods that improve the separation of singing voice by modeling components that are often not accounted for, such as breathiness and consonants. Finally, we explore using temporal correlations and human annotations to enhance the separation of drums and complex polyphonic music signals

    Speech dereverberation and speaker separation using microphone arrays in realistic environments

    Get PDF
    This thesis concentrates on comparing novel and existing dereverberation and speaker separation techniques using multiple corpora, including a new corpus collected using a microphone array. Many corpora currently used for these techniques are recorded using head-mounted microphones in anechoic chambers. This novel corpus contains recordings with noise and reverberation made in office and workshop environments. Novel algorithms present a different way of approximating the reverberation, producing results that are competitive with existing algorithms. Dereverberation is evaluated using seven correlation-based algorithms and applied to two different corpora. Three of these are novel algorithms (Hs NTF, Cauchy WPE and Cauchy MIMO WPE). Both non-learning and learning algorithms are tested, with the learning algorithms performing better. For single and multi-channel speaker separation, unsupervised non-negative matrix factorization (NMF) algorithms are compared using three cost functions combined with sparsity, convolution and direction of arrival. The results show that the choice of cost function is important for improving the separation result. Furthermore, six different supervised deep learning algorithms are applied to single channel speaker separation. Historic information improves the result. When comparing NMF to deep learning, NMF is able to converge faster to a solution and provides a better result for the corpora used in this thesis

    Puheenerottelujärjestelmän toteutus InMoov-robotille

    Get PDF
    Tiivistelmä. Koneellisia kuulojärjestelmiä ja niiden osia on kehitetty jo vuosikymmeniä; olemassa on kuitenkin edelleen useita ongelmia, jotka ovat esteenä ihmistä vastaavan kuulojärjestelmän saavuttamisessa. Yksi näistä ongelmista on puhujien erottelu puhesekoituksesta erillisiksi äänisignaaleiksi, jota kutsutaan myös cocktailkutsuongelmaksi. Vaikka ihmisen on helppo paikantaa ja erotella eri puhujat usean samanaikaisen puhujan joukosta, samaan suorituskykyyn yltävä koneellinen toteutus on osoittautunut haastavaksi. Usein ratkaisuissa pyritään hyödyntämään useista mikrofoneista koostuvia mikrofoniryhmiä, jotka mahdollistavat monikanavaisten kaiun- ja kohinanpoistomenetelmien sekä äänilähteiden suuntien käytön apuna erotteluprosessissa. Viime vuosina on myös tutkittu syväoppimista hyödyntäviä menetelmiä, jotka ovat antaneet lupaavia tuloksia. Tässä työssä esitellään uPIT-syväoppimismenetelmää käyttävä toteutus puheenerottelujärjestelmästä ROS-ympäristössä InMoov-robotille. Työn tavoitteena on selvittää erottelualgoritmin tuoma hyöty robotin kuulojärjestelmän osana. Toteutettu ROS-komponentti antaa muille järjestelmän komponenteille rajapinnan, joka tarjoaa robotin ympärillä kuuluvien puhujien erotellut puhesignaalit, ja lisäksi estimaatin yhden puhujan suunnan atsimuutista astelukuna suhteessa pään katsesuuntaan. Ratkaisussa on käytetty Seeed Studion ReSpeaker Mic Array v2.0 -mikrofonijärjestelmää, joka suorittaa sisäänrakennetusti kaiun ja taustamelun vaimennuksen, keilanmuodostuksen ja äänen tulosuunnan estimoinnin. Mikrofonin tallentama puhdistettu signaali välitetään uPIT-syväoppimismenetelmän avulla koulutettuun puheenerottelualgoritmiin, joka erottelee eri puhujille kuuluvat signaalit toisistaan. Erottelun tuloksena testiaineistolla saavutettiin parhaimmillaan 5,99 dB parannus signaali-särösuhteessa kahden vastakkaista sukupuolta olevan aiemmin nähdyn puhujan erottelussa. Uusien puhujien erottelussa vastaava arvo on 5,60 dB. Koska tulokset saatiin käyttäen LibriSpeech-kieliaineistoa yleisen puheenerotteluun käytetyn WSJ0-aineiston sijasta, arvot eivät ole täysin vertailukelpoisia vastaavanlaisten tutkimusten kanssa. Vaikka saadut tulokset ovat parempia kuin joillain tavanomaisilla yksikanavaisilla puheenerottelumenetelmillä saavutetut arvot, kehitetyn puheenerottelujärjestelmän ei nähdä yltävän käytännön tilanteiden vaatimaan suorituskykyyn. Järjestelmä tarjoaa kuitenkin hyvän lähtökohdan robotin puheenerottelulle.Speech separation system solution for InMoov robot. Abstract. Machine hearing systems and their subcomponents have been researched for decades; however, there are still problems that are preventing the system from reaching human-like performance. One of the problems is separating multiple speakers from a speech mixture into separate signals, which is called the cocktail party problem. Even though it is easy for humans to locate and separate different speakers from a group of multiple simultaneous speakers, achieving this kind of performance in a machine has proven to be a challenging task. Often the proposed solutions use an array of multiple microphones, which open up the possibility of using multichannel dereverberation and noise suppression techniques and directions of sound sources to aid the separating process. Recent years have also seen increasing research of solutions using deep learning, which have given promising results. In this thesis, a speech separating system using the uPIT deep learning technique for InMoov humanoid robot is presented. The goal of the thesis is to see whether the speech separating system brings any meaningful improvements to the machine hearing system in the system’s ability to process speech. The developed component provides the other components of the system an interface for accessing separated speech signals and an estimate of the azimuth direction of one of the speakers. The solution utilizes Seeed Studio’s ReSpeaker Mic Array v2.0 microphone array, which provides built-in functionality for dereverberation and noise suppression, beamforming, and estimation of the direction of sound sources. The recorded and processed sound signals are sent to a deep learning speech separation system trained with utterance level permutation invariant training, which separates the different speech signals. The separation system achieved at most a 5.99 dB improvement in signal-to-distortion ratio with two speakers of different genders in closed condition. In open condition, the improvement was 5.60 dB. Because the results were acquired using the LibriSpeech dataset, instead of the more common WSJ0 dataset, as the training data of the model, the results are not comparable to other similar studies. Even though the SDR values show improvement in results over some of the other single-channel separation methods, the performance of the system was not deemed good enough to meet the requirements of real-world applications. However, the system is still a good starting point for further development of the robot’s hearing system
    corecore