5 research outputs found

    Computational Methods for Underdetermined Convolutive Speech Localization and Separation via Model-based Sparse Component Analysis

    Get PDF
    In this paper, the problem of speech source localization and separation from recordings of convolutive underdetermined mixtures is studied. The problem is cast as recovering the spatio-spectral speech information embedded in a microphone array compressed measurements of the acoustic field. A model-based sparse component analysis framework is formulated for sparse reconstruction of the speech spectra in a reverberant acoustic resulting in joint localization and separation of the individual sources. We compare and contrast the computational approaches to model-based sparse recovery exploiting spatial sparsity as well as spectral structures underlying spectrographic representation of speech signals. In this context, we explore identification of the sparsity structures at the auditory and acoustic representation spaces. The auditory structures are formulated upon the principles of structural grouping based on proximity, autoregressive correlation and harmonicity of the spectral coefficients and they are incorporated for sparse reconstruction. The acoustic structures are formulated upon the image model of multipath propagation and they are exploited to characterize the compressive measurement matrix associated with microphone array recordings. Three approaches to sparse recovery relying on combinatorial optimization, convex relaxation and Bayesian methods are studied and evaluated based on thorough experiments. The sparse Bayesian learning method is shown to yield better perceptual quality while the interference suppression is also achieved using the combinatorial approach with the advantage of offering the most efficient computational cost. Furthermore, it is demonstrated that an average autoregressive model can be learned for speech localization and exploiting the proximity structure in the form of block sparse coefficients enables accurate localization. Throughout the extensive empirical evaluation, we confirm that a large and random placement of the microphones enables significant improvement in source localization and separation performance

    Análisis y síntesis de señales de audio a través de la Transformada Wavelet continua y compleja: El algoritmo CWAS

    Get PDF
    En esta Tesis se pretende demostrar que la Transformada Wavelet Continua y Compleja (CCWT) puede ser una herramienta precisa para la obtención de características de alto nivel de la señal de audio, a través de un algoritmo generalista del modelo que se propone de la misma. Se presenta un algoritmo funcional basado en la CCWT, el algoritmo de Síntesis Aditiva por Wavelet Complejas, o CWAS por sus siglas en inglés (Complex Wavelet Additive Synthesis). El desarrollo matemático presentado permite llegar finalmente la obtención de un novedoso modelo de la señal de audio bien posicionado de cara a posibles aplicaciones. Un filtrado pasobanda complejo unitario permite el cálculo de los coeficientes wavelet, en cuyo módulo se indican de forma implícita las bandas del espectro de frecuencia que conforman la zona de influencia de cada componente detectada. La suma de los coeficientes wavelet en las bandas asociadas a cada componente proporciona una función compleja para cada parcial, de amplitud y fase instantáneas altamente coherentes (es decir, muy cercanas al par canónico teórico de la señal). Es precisamente la coherencia en fase la principal ventaja del modelo propuesto. Un simple modelo se síntesis aditiva permite la generación de una señal sintética de características tímbricas y tonales muy similares a la señal original, con la característica añadida de una diferencia punto por punto entre las señales analizada y sintética que resulta despreciable numéricamente para la mayoría de las aplicaciones. El algoritmo CWAS se ha utilizado en síntesis de sonidos, localización de onsets y detección de fundamentales entre otras aplicaciones, con resultados muy prometedores. Del mismo modo, se han hecho grandes progresos de cara a aplicaciones más completas y complejas, como la separación ciega de fuentes monaurales de sonido. El algoritmo CWAS presenta una serie de ventajas e inconvenientes sobre otras técnicas basadas en diferentes Distribuciones Tiempo--Frecuencia, como la STFT. Entre las ventajas, a partir de la coherencia en fase se consiguen resultados en la síntesis de sonido por encima de los arrojados utilizando otras técnicas, lo cual permite abordar con elevadas esperanzas de éxito aplicaciones más ambiciosas. La principal limitación del algoritmo propuesto es el tiempo de procesado, que ha impedido por el momento el empleo de esta técnica en aplicaciones en tiempo real. Sin embargo, se demuestra que el algoritmo CWAS es sensiblemente más rápido que la STFT en condiciones de trabajo equivalentes
    corecore