3 research outputs found

    Towards End-to-End Acoustic Localization using Deep Learning: from Audio Signal to Source Position Coordinates

    Full text link
    This paper presents a novel approach for indoor acoustic source localization using microphone arrays and based on a Convolutional Neural Network (CNN). The proposed solution is, to the best of our knowledge, the first published work in which the CNN is designed to directly estimate the three dimensional position of an acoustic source, using the raw audio signal as the input information avoiding the use of hand crafted audio features. Given the limited amount of available localization data, we propose in this paper a training strategy based on two steps. We first train our network using semi-synthetic data, generated from close talk speech recordings, and where we simulate the time delays and distortion suffered in the signal that propagates from the source to the array of microphones. We then fine tune this network using a small amount of real data. Our experimental results show that this strategy is able to produce networks that significantly improve existing localization methods based on \textit{SRP-PHAT} strategies. In addition, our experiments show that our CNN method exhibits better resistance against varying gender of the speaker and different window sizes compared with the other methods.Comment: 18 pages, 3 figures, 8 table

    Mathematical modelling ano optimization strategies for acoustic source localization in reverberant environments

    Get PDF
    La presente Tesis se centra en el uso de t茅cnicas modernas de optimizaci贸n y de procesamiento de audio para la localizaci贸n precisa y robusta de personas dentro de un entorno reverberante dotado con agrupaciones (arrays) de micr贸fonos. En esta tesis se han estudiado diversos aspectos de la localizaci贸n sonora, incluyendo el modelado, la algoritmia, as铆 como el calibrado previo que permite usar los algoritmos de localizaci贸n incluso cuando la geometr铆a de los sensores (micr贸fonos) es desconocida a priori. Las t茅cnicas existentes hasta ahora requer铆an de un n煤mero elevado de micr贸fonos para obtener una alta precisi贸n en la localizaci贸n. Sin embargo, durante esta tesis se ha desarrollado un nuevo m茅todo que permite una mejora de m谩s del 30\% en la precisi贸n de la localizaci贸n con un n煤mero reducido de micr贸fonos. La reducci贸n en el n煤mero de micr贸fonos es importante ya que se traduce directamente en una disminuci贸n dr谩stica del coste y en un aumento de la versatilidad del sistema final. Adicionalmente, se ha realizado un estudio exhaustivo de los fen贸menos que afectan al sistema de adquisici贸n y procesado de la se帽al, con el objetivo de mejorar el modelo propuesto anteriormente. Dicho estudio profundiza en el conocimiento y modelado del filtrado PHAT (ampliamente utilizado en localizaci贸n ac煤stica) y de los aspectos que lo hacen especialmente adecuado para localizaci贸n. Fruto del anterior estudio, y en colaboraci贸n con investigadores del instituto IDIAP (Suiza), se ha desarrollado un sistema de auto-calibraci贸n de las posiciones de los micr贸fonos a partir del ruido difuso presente en una sala en silencio. Esta aportaci贸n relacionada con los m茅todos previos basados en la coherencia. Sin embargo es capaz de reducir el ruido atendiendo a par谩metros f铆sicos previamente conocidos (distancia m谩xima entre los micr贸fonos). Gracias a ello se consigue una mejor precisi贸n utilizando un menor tiempo de c贸mputo. El conocimiento de los efectos del filtro PHAT ha permitido crear un nuevo modelo que permite la representaci贸n 'sparse' del t铆pico escenario de localizaci贸n. Este tipo de representaci贸n se ha demostrado ser muy conveniente para localizaci贸n, permitiendo un enfoque sencillo del caso en el que existen m煤ltiples fuentes simult谩neas. La 煤ltima aportaci贸n de esta tesis, es el de la caracterizaci贸n de las Matrices TDOA (Time difference of arrival -Diferencia de tiempos de llegada, en castellano-). Este tipo de matrices son especialmente 煤tiles en audio pero no est谩n limitadas a 茅l. Adem谩s, este estudio transciende a la localizaci贸n con sonido ya que propone m茅todos de reducci贸n de ruido de las medias TDOA basados en una representaci贸n matricial 'low-rank', siendo 煤til, adem谩s de en localizaci贸n, en t茅cnicas tales como el beamforming o el autocalibrado
    corecore