1 research outputs found

    Speech enhancement algorithms for audiological applications

    Get PDF
    Texto en ingl茅s y resumen en ingl茅s y espa帽olPremio Extraordinario de Doctorado de la UAH en el a帽o acad茅mico 2013-2014La mejora de la calidad de la voz es un problema que, aunque ha sido abordado durante muchos a帽os, a煤n sigue abierto. El creciente auge de aplicaciones tales como los sistemas manos libres o de reconocimiento de voz autom谩tico y las cada vez mayores exigencias de las personas con p茅rdidas auditivas han dado un impulso definitivo a este 谩rea de investigaci贸n. Esta tesis doctoral se centra en la mejora de la calidad de la voz en aplicaciones audiol贸gicas. La mayor铆a del trabajo de investigaci贸n desarrollado en esta tesis est谩 dirigido a la mejora de la inteligibilidad de la voz en aud铆fonos digitales, teniendo en cuenta las limitaciones de este tipo de dispositivos. La combinaci贸n de t茅cnicas de separaci贸n de fuentes y filtrado espacial con t茅cnicas de aprendizaje autom谩tico y computaci贸n evolutiva ha originado novedosos e interesantes algoritmos que son incluidos en esta tesis. La tesis esta dividida en dos grandes bloques. El primer bloque contiene un estudio preliminar del problema y una exhaustiva revisi贸n del estudio del arte sobre algoritmos de mejora de la calidad de la voz, que sirve para definir los objetivos de esta tesis. El segundo bloque contiene la descripci贸n del trabajo de investigaci贸n realizado para cumplir los objetivos de la tesis, as铆 como los experimentos y resultados obtenidos. En primer lugar, el problema de mejora de la calidad de la voz es descrito formalmente en el dominio tiempo-frecuencia. Los principales requerimientos y restricciones de los aud铆fonos digitales son definidas. Tras describir el problema, una amplia revisi贸n del estudio del arte ha sido elaborada. La revisi贸n incluye algoritmos de mejora de la calidad de la voz mono-canal y multi-canal, considerando t茅cnicas de reducci贸n de ruido y t茅cnicas de separaci贸n de fuentes. Adem谩s, la aplicaci贸n de estos algoritmos en aud铆fonos digitales es evaluada. El primer problema abordado en la tesis es la separaci贸n de fuentes sonoras en mezclas infra-determinadas en el dominio tiempo-frecuencia, sin considerar ning煤n tipo de restricci贸n computacional. El rendimiento del famoso algoritmo DUET, que consigue separar fuentes de voz con solo dos mezclas, ha sido evaluado en diversos escenarios, incluyendo mezclas lineales y binaurales no reverberantes, mezclas reverberantes, y mezclas de voz con otro tipo de fuentes tales como ruido y m煤sica. El estudio revela la falta de robustez del algoritmo DUET, cuyo rendimiento se ve seriamente disminuido en mezclas reverberantes, mezclas binaurales, y mezclas de voz con m煤sica y ruido. Con el objetivo de mejorar el rendimiento en estos casos, se presenta un novedoso algoritmo de separaci贸n de fuentes que combina la t茅cnica de clustering mean shift con la base del algoritmo DUET. La etapa de clustering del algoritmo DUET, que esta basada en un histograma ponderado, es reemplazada por una modificaci贸n del algoritmo mean shift, introduciendo el uso de un kernel Gaussiano ponderado. El an谩lisis de los resultados obtenidos muestran una clara mejora obtenida por el algoritmo propuesto en relaci贸n con el algoritmo DUET original y una modificaci贸n que usa k-means. Adem谩s, el algoritmo propuesto ha sido extendido para usar un array de micr贸fonos de cualquier tama帽o y geometr铆a. A continuaci贸n se ha abordado el problema de la enumeraci贸n de fuentes de voz, que esta relacionado con el problema de separaci贸n de fuentes. Se ha propuesto un novedoso algoritmo basado en un criterio de teor铆a de la informaci贸n y en la estimaci贸n de los retardos relativos causados por las fuentes entre un par de micr贸fonos. El algoritmo ha obtenido excelente resultados y muestra robustez en la enumeraci贸n de mezclas no reverberantes de hasta 5 fuentes de voz. Adem谩s se demuestra la potencia del algoritmo para la enumeraci贸n de fuentes en mezclas reverberantes. El resto de la tesis esta centrada en aud铆fonos digitales. El primer problema tratado es el de la mejora de la inteligibilidad de la voz en aud铆fonos monoaurales. En primer lugar, se realiza un estudio de los recursos computacionales disponibles en aud铆fonos digitales de ultima generaci贸n. Los resultados de este estudio se han utilizado para limitar el coste computacional de los algoritmos de mejora de la calidad de la voz para aud铆fonos propuestos en esta tesis. Para resolver este primer problema se propone un algoritmo mono-canal de mejora de la calidad de la voz de bajo coste computacional. El objetivo es la estimaci贸n de una mascara tiempo-frecuencia continua para obtener el mayor par谩metro PESQ de salida. El algoritmo combina una versi贸n generalizada del estimador de m铆nimos cuadrados con un algoritmo de selecci贸n de caracter铆sticas a medida, utilizando un novedoso conjunto de caracter铆sticas. El algoritmo ha obtenido resultados excelentes incluso con baja relaci贸n se帽al a ruido. El siguiente problema abordado es el dise帽o de algoritmos de mejora de la calidad de la voz para aud铆fonos binaurales comunicados de forma inal谩mbrica. Estos sistemas tienen un problema adicional, y es que la conexi贸n inal谩mbrica aumenta el consumo de potencia. El objetivo en esta tesis es dise帽ar algoritmos de mejora de la calidad de la voz de bajo coste computacional que incrementen la eficiencia energ茅tica en aud铆fonos binaurales comunicados de forma inal谩mbrica. Se han propuesto dos soluciones. La primera es un algoritmo de extremado bajo coste computacional que maximiza el par谩metro WDO y esta basado en la estimaci贸n de una mascara binaria mediante un discriminante cuadr谩tico que utiliza los valores ILD e ITD de cada punto tiempo-frecuencia para clasificarlo entre voz o ruido. El segundo algoritmo propuesto, tambi茅n de bajo coste, utiliza adem谩s la informaci贸n de puntos tiempo-frecuencia vecinos para estimar la IBM mediante una versi贸n generalizada del LS-LDA. Adem谩s, se propone utilizar un MSE ponderado para estimar la IBM y maximizar el par谩metro WDO al mismo tiempo. En ambos algoritmos se propone un esquema de transmisi贸n eficiente energ茅ticamente, que se basa en cuantificar los valores de amplitud y fase de cada banda de frecuencia con un numero distinto de bits. La distribuci贸n de bits entre frecuencias se optimiza mediante t茅cnicas de computaci贸n evolutivas. El ultimo trabajo incluido en esta tesis trata del dise帽o de filtros espaciales para aud铆fonos personalizados a una persona determinada. Los coeficientes del filtro pueden adaptarse a una persona siempre que se conozca su HRTF. Desafortunadamente, esta informaci贸n no esta disponible cuando un paciente visita el audi贸logo, lo que causa perdidas de ganancia y distorsiones. Con este problema en mente, se han propuesto tres m茅todos para dise帽ar filtros espaciales que maximicen la ganancia y minimicen las distorsiones medias para un conjunto de HRTFs de dise帽o
    corecore