19 research outputs found

    Implementation and evaluation of a low complexity microphone array for speaker recognition

    Get PDF
    Includes bibliographical references (leaves 83-86).This thesis discusses the application of a microphone array employing a noise canceling beamforming technique for improving the robustness of speaker recognition systems in a diffuse noise field

    Enhanced Diffuse Field Model for Ad Hoc Microphone Array Calibration

    Get PDF
    In this paper, we investigate the diffuse field coherence model for microphone array pairwise distance estimation. We study the fundamental constraints and assumptions underlying this approach and propose evaluation methodologies to measure the adequacy of diffuseness for microphone array calibration. In addition, an enhanced scheme based on coherence averaging and histogramming, is presented to improve the robustness and performance of the pairwise distance estimation approach. The proposed theories and algorithms are evaluated on simulated and real data recordings for calibration of microphone array geometry in an ad hoc set-up

    A study into the design of steerable microphones arrays

    Get PDF
    Beamforming, being a multi-channel signal processing technique, can offer both spatial and temporal selective filtering. It has much more potential than single channel signal processing in various commercial applications. This thesis presents a study on steerable robust broadband beamformers together with a number of their design formulations. The design formulations allow a simple steering mechanism and yet maintain a frequency invariant property as well as achieve robustness against practical imperfectio

    Sector-Based Detection for Hands-Free Speech Enhancement in Cars

    Get PDF
    Speech-based command interfaces are becoming more and more common in cars. Applications include automatic dialog systems for hands-free phone calls as well as more advanced features such as navigation systems. However, interferences, such as speech from the codriver, can hamper a lot the performance of the speech recognition component, which is crucial for those applications. This issue can be addressed with {\em adaptive} interference cancellation techniques such as the Generalized Sidelobe Canceller~(GSC). In order to cancel the interference (codriver) while not cancelling the target (driver), adaptation must happen only when the interference is active and dominant. To that purpose, this paper proposes two efficient adaptation control methods called ``implicit'' and ``explicit''. While the ``implicit'' method is fully automatic, the ``explicit'' method relies on pre-estimation of target and interference energies. A major contribution of this paper is a direct, robust method for such pre-estimation, directly derived from sector-based detection and localization techniques. Experiments on real in-car data validate both adaptation methods, including a case with 100 km/h background road noise

    EXPERIMENTAL EVALUATION OF MODIFIED PHASE TRANSFORM FOR SOUND SOURCE DETECTION

    Get PDF
    The detection of sound sources with microphone arrays can be enhanced through processing individual microphone signals prior to the delay and sum operation. One method in particular, the Phase Transform (PHAT) has demonstrated improvement in sound source location images, especially in reverberant and noisy environments. Recent work proposed a modification to the PHAT transform that allows varying degrees of spectral whitening through a single parameter, andamp;acirc;, which has shown positive improvement in target detection in simulation results. This work focuses on experimental evaluation of the modified SRP-PHAT algorithm. Performance results are computed from actual experimental setup of an 8-element perimeter array with a receiver operating characteristic (ROC) analysis for detecting sound sources. The results verified simulation results of PHAT- andamp;acirc; in improving target detection probabilities. The ROC analysis demonstrated the relationships between various target types (narrowband and broadband), room reverberation levels (high and low) and noise levels (different SNR) with respect to optimal andamp;acirc;. Results from experiment strongly agree with those of simulations on the effect of PHAT in significantly improving detection performance for narrowband and broadband signals especially at low SNR and in the presence of high levels of reverberation

    Speech enhancement algorithms for audiological applications

    Get PDF
    Texto en ingl茅s y resumen en ingl茅s y espa帽olPremio Extraordinario de Doctorado de la UAH en el a帽o acad茅mico 2013-2014La mejora de la calidad de la voz es un problema que, aunque ha sido abordado durante muchos a帽os, a煤n sigue abierto. El creciente auge de aplicaciones tales como los sistemas manos libres o de reconocimiento de voz autom谩tico y las cada vez mayores exigencias de las personas con p茅rdidas auditivas han dado un impulso definitivo a este 谩rea de investigaci贸n. Esta tesis doctoral se centra en la mejora de la calidad de la voz en aplicaciones audiol贸gicas. La mayor铆a del trabajo de investigaci贸n desarrollado en esta tesis est谩 dirigido a la mejora de la inteligibilidad de la voz en aud铆fonos digitales, teniendo en cuenta las limitaciones de este tipo de dispositivos. La combinaci贸n de t茅cnicas de separaci贸n de fuentes y filtrado espacial con t茅cnicas de aprendizaje autom谩tico y computaci贸n evolutiva ha originado novedosos e interesantes algoritmos que son incluidos en esta tesis. La tesis esta dividida en dos grandes bloques. El primer bloque contiene un estudio preliminar del problema y una exhaustiva revisi贸n del estudio del arte sobre algoritmos de mejora de la calidad de la voz, que sirve para definir los objetivos de esta tesis. El segundo bloque contiene la descripci贸n del trabajo de investigaci贸n realizado para cumplir los objetivos de la tesis, as铆 como los experimentos y resultados obtenidos. En primer lugar, el problema de mejora de la calidad de la voz es descrito formalmente en el dominio tiempo-frecuencia. Los principales requerimientos y restricciones de los aud铆fonos digitales son definidas. Tras describir el problema, una amplia revisi贸n del estudio del arte ha sido elaborada. La revisi贸n incluye algoritmos de mejora de la calidad de la voz mono-canal y multi-canal, considerando t茅cnicas de reducci贸n de ruido y t茅cnicas de separaci贸n de fuentes. Adem谩s, la aplicaci贸n de estos algoritmos en aud铆fonos digitales es evaluada. El primer problema abordado en la tesis es la separaci贸n de fuentes sonoras en mezclas infra-determinadas en el dominio tiempo-frecuencia, sin considerar ning煤n tipo de restricci贸n computacional. El rendimiento del famoso algoritmo DUET, que consigue separar fuentes de voz con solo dos mezclas, ha sido evaluado en diversos escenarios, incluyendo mezclas lineales y binaurales no reverberantes, mezclas reverberantes, y mezclas de voz con otro tipo de fuentes tales como ruido y m煤sica. El estudio revela la falta de robustez del algoritmo DUET, cuyo rendimiento se ve seriamente disminuido en mezclas reverberantes, mezclas binaurales, y mezclas de voz con m煤sica y ruido. Con el objetivo de mejorar el rendimiento en estos casos, se presenta un novedoso algoritmo de separaci贸n de fuentes que combina la t茅cnica de clustering mean shift con la base del algoritmo DUET. La etapa de clustering del algoritmo DUET, que esta basada en un histograma ponderado, es reemplazada por una modificaci贸n del algoritmo mean shift, introduciendo el uso de un kernel Gaussiano ponderado. El an谩lisis de los resultados obtenidos muestran una clara mejora obtenida por el algoritmo propuesto en relaci贸n con el algoritmo DUET original y una modificaci贸n que usa k-means. Adem谩s, el algoritmo propuesto ha sido extendido para usar un array de micr贸fonos de cualquier tama帽o y geometr铆a. A continuaci贸n se ha abordado el problema de la enumeraci贸n de fuentes de voz, que esta relacionado con el problema de separaci贸n de fuentes. Se ha propuesto un novedoso algoritmo basado en un criterio de teor铆a de la informaci贸n y en la estimaci贸n de los retardos relativos causados por las fuentes entre un par de micr贸fonos. El algoritmo ha obtenido excelente resultados y muestra robustez en la enumeraci贸n de mezclas no reverberantes de hasta 5 fuentes de voz. Adem谩s se demuestra la potencia del algoritmo para la enumeraci贸n de fuentes en mezclas reverberantes. El resto de la tesis esta centrada en aud铆fonos digitales. El primer problema tratado es el de la mejora de la inteligibilidad de la voz en aud铆fonos monoaurales. En primer lugar, se realiza un estudio de los recursos computacionales disponibles en aud铆fonos digitales de ultima generaci贸n. Los resultados de este estudio se han utilizado para limitar el coste computacional de los algoritmos de mejora de la calidad de la voz para aud铆fonos propuestos en esta tesis. Para resolver este primer problema se propone un algoritmo mono-canal de mejora de la calidad de la voz de bajo coste computacional. El objetivo es la estimaci贸n de una mascara tiempo-frecuencia continua para obtener el mayor par谩metro PESQ de salida. El algoritmo combina una versi贸n generalizada del estimador de m铆nimos cuadrados con un algoritmo de selecci贸n de caracter铆sticas a medida, utilizando un novedoso conjunto de caracter铆sticas. El algoritmo ha obtenido resultados excelentes incluso con baja relaci贸n se帽al a ruido. El siguiente problema abordado es el dise帽o de algoritmos de mejora de la calidad de la voz para aud铆fonos binaurales comunicados de forma inal谩mbrica. Estos sistemas tienen un problema adicional, y es que la conexi贸n inal谩mbrica aumenta el consumo de potencia. El objetivo en esta tesis es dise帽ar algoritmos de mejora de la calidad de la voz de bajo coste computacional que incrementen la eficiencia energ茅tica en aud铆fonos binaurales comunicados de forma inal谩mbrica. Se han propuesto dos soluciones. La primera es un algoritmo de extremado bajo coste computacional que maximiza el par谩metro WDO y esta basado en la estimaci贸n de una mascara binaria mediante un discriminante cuadr谩tico que utiliza los valores ILD e ITD de cada punto tiempo-frecuencia para clasificarlo entre voz o ruido. El segundo algoritmo propuesto, tambi茅n de bajo coste, utiliza adem谩s la informaci贸n de puntos tiempo-frecuencia vecinos para estimar la IBM mediante una versi贸n generalizada del LS-LDA. Adem谩s, se propone utilizar un MSE ponderado para estimar la IBM y maximizar el par谩metro WDO al mismo tiempo. En ambos algoritmos se propone un esquema de transmisi贸n eficiente energ茅ticamente, que se basa en cuantificar los valores de amplitud y fase de cada banda de frecuencia con un numero distinto de bits. La distribuci贸n de bits entre frecuencias se optimiza mediante t茅cnicas de computaci贸n evolutivas. El ultimo trabajo incluido en esta tesis trata del dise帽o de filtros espaciales para aud铆fonos personalizados a una persona determinada. Los coeficientes del filtro pueden adaptarse a una persona siempre que se conozca su HRTF. Desafortunadamente, esta informaci贸n no esta disponible cuando un paciente visita el audi贸logo, lo que causa perdidas de ganancia y distorsiones. Con este problema en mente, se han propuesto tres m茅todos para dise帽ar filtros espaciales que maximicen la ganancia y minimicen las distorsiones medias para un conjunto de HRTFs de dise帽o

    Mathematical modelling ano optimization strategies for acoustic source localization in reverberant environments

    Get PDF
    La presente Tesis se centra en el uso de t茅cnicas modernas de optimizaci贸n y de procesamiento de audio para la localizaci贸n precisa y robusta de personas dentro de un entorno reverberante dotado con agrupaciones (arrays) de micr贸fonos. En esta tesis se han estudiado diversos aspectos de la localizaci贸n sonora, incluyendo el modelado, la algoritmia, as铆 como el calibrado previo que permite usar los algoritmos de localizaci贸n incluso cuando la geometr铆a de los sensores (micr贸fonos) es desconocida a priori. Las t茅cnicas existentes hasta ahora requer铆an de un n煤mero elevado de micr贸fonos para obtener una alta precisi贸n en la localizaci贸n. Sin embargo, durante esta tesis se ha desarrollado un nuevo m茅todo que permite una mejora de m谩s del 30\% en la precisi贸n de la localizaci贸n con un n煤mero reducido de micr贸fonos. La reducci贸n en el n煤mero de micr贸fonos es importante ya que se traduce directamente en una disminuci贸n dr谩stica del coste y en un aumento de la versatilidad del sistema final. Adicionalmente, se ha realizado un estudio exhaustivo de los fen贸menos que afectan al sistema de adquisici贸n y procesado de la se帽al, con el objetivo de mejorar el modelo propuesto anteriormente. Dicho estudio profundiza en el conocimiento y modelado del filtrado PHAT (ampliamente utilizado en localizaci贸n ac煤stica) y de los aspectos que lo hacen especialmente adecuado para localizaci贸n. Fruto del anterior estudio, y en colaboraci贸n con investigadores del instituto IDIAP (Suiza), se ha desarrollado un sistema de auto-calibraci贸n de las posiciones de los micr贸fonos a partir del ruido difuso presente en una sala en silencio. Esta aportaci贸n relacionada con los m茅todos previos basados en la coherencia. Sin embargo es capaz de reducir el ruido atendiendo a par谩metros f铆sicos previamente conocidos (distancia m谩xima entre los micr贸fonos). Gracias a ello se consigue una mejor precisi贸n utilizando un menor tiempo de c贸mputo. El conocimiento de los efectos del filtro PHAT ha permitido crear un nuevo modelo que permite la representaci贸n 'sparse' del t铆pico escenario de localizaci贸n. Este tipo de representaci贸n se ha demostrado ser muy conveniente para localizaci贸n, permitiendo un enfoque sencillo del caso en el que existen m煤ltiples fuentes simult谩neas. La 煤ltima aportaci贸n de esta tesis, es el de la caracterizaci贸n de las Matrices TDOA (Time difference of arrival -Diferencia de tiempos de llegada, en castellano-). Este tipo de matrices son especialmente 煤tiles en audio pero no est谩n limitadas a 茅l. Adem谩s, este estudio transciende a la localizaci贸n con sonido ya que propone m茅todos de reducci贸n de ruido de las medias TDOA basados en una representaci贸n matricial 'low-rank', siendo 煤til, adem谩s de en localizaci贸n, en t茅cnicas tales como el beamforming o el autocalibrado
    corecore