10 research outputs found

    Direction of Arrival Estimation with Microphone Arrays Using SRP-PHAT and Neural Networks

    Get PDF
    The Steered Response Power with phase transform (SRP-PHAT) is one of the most employed techniques for Direction of Arrival (DOA) estimation with microphone arrays, but its computational complexity grows when the search space increases. To solve this issue, we propose the use of Neural Networks (NN) to obtain the DOA from low-resolution SRP-PHAT power maps

    A Geometric Deep Learning Approach to Sound Source Localization and Tracking

    Get PDF
    La localizaciĂłn y el tracking de fuentes sonoras mediante agrupaciones de micrĂłfonos es un problema que, pese a llevar dĂ©cadas siendo estudiado, permanece abierto. En los Ășltimos años, modelos basados en deep learning han superado el estado del arte que habĂ­a sido establecido por las tĂ©cnicas clĂĄsicas de procesado de señal, pero estos modelos todavĂ­a presentan problemas para trabajar en espacios con alta reverberaciĂłn o para realizar el tracking de varias fuentes sonoras, especialmente cuando no es posible aplicar ningĂșn criterio para clasificarlas u ordenarlas. En esta tesis, se proponen nuevos modelos que, basados en las ideas del Geometric Deep Learning, suponen un avance en el estado del arte para las situaciones mencionadas previamente.Los modelos propuestos utilizan como entrada mapas de potencia acĂșstica calculados con el algoritmo SRP-PHAT, una tĂ©cnica clĂĄsica de procesado de señal que permite estimar la energĂ­a acĂșstica recibida desde cualquier direcciĂłn del espacio. AdemĂĄs, tambiĂ©n proponemos una nueva tĂ©cnica para suprimir analĂ­ticamente el efecto de una fuente en las funciones de correlaciĂłn cruzada usadas para calcular los mapas SRP-PHAT. BasĂĄndonos en tĂ©cnicas de banda estrecha, se demuestra que es posible proyectar las funciones de correlaciĂłn cruzada de las señales capturadas por una agrupaciĂłn de micrĂłfonos a un espacio ortogonal a una direcciĂłn dada simplemente usando una combinaciĂłn lineal de las funciones originales con retardos temporales. La tĂ©cnica propuesta puede usarse para diseñar sistemas iterativos de localizaciĂłn de mĂșltiples fuentes que, tras localizar la fuente con mayor energĂ­a en las funciones de correlaciĂłn cruzada o en los mapas SRP-PHAT, la cancelen para poder encontrar otras fuentes que estuvieran enmascaradas por ella.Antes de poder entrenar modelos de deep learning necesitamos datos. Esto, en el caso de seguir un esquema de aprendizaje supervisado, supone un dataset de grabaciones de audio multicanal con la posiciĂłn de las fuentes etiquetada con precisiĂłn. Pese a que existen algunos datasets con estas caracterĂ­sticas, estos no son lo suficientemente extensos para entrenar una red neuronal y los entornos acĂșsticos que incluyen no son suficientemente variados. Para solventar el problema de la falta de datos, presentamos una tĂ©cnica para simular escenas acĂșsticas con una o varias fuentes en movimiento y, para realizar estas simulaciones conforme son necesarias durante el entrenamiento de la red, presentamos la que es, que sepamos, la primera librerĂ­a de software libre para la simulaciĂłn de acĂșstica de salas con aceleraciĂłn por GPU. Tal y como queda demostrado en esta tesis, esta librerĂ­a es mĂĄs de dos Ăłrdenes de magnitud mĂĄs rĂĄpida que otras librerĂ­as del estado del arte.La idea principal del Geometric Deep Learning es que los modelos deberĂ­an compartir las simetrĂ­as (i.e. las invarianzas y equivarianzas) de los datos y el problema que se quiere resolver. Para la estimaciĂłn de la direcciĂłn de llegada de una Ășnica fuente, el uso de mapas SRP-PHAT como entrada de nuestros modelos hace que la equivarianza a las rotaciones sea obvia y, tras presentar una primera aproximaciĂłn usando redes convolucionales tridimensionales, presentamos un modelo basado en convoluciones icosaĂ©dricas que son capaces de aproximar la equivarianza al grupo continuo de rotaciones esfĂ©ricas por la equivarianza al grupo discreto de las 60 simetrĂ­as del icosaedro. En la tesis se demuestra que los mapas SRP-PHAT son una caracterĂ­stica de entrada mucho mĂĄs robusta que los espectrogramas que se usan tĂ­picamente en muchos modelos del estado del arte y que el uso de las convoluciones icosaĂ©dricas, combinado con una nueva funciĂłn softargmax que obtiene una salida de regresiĂłn a partir del resultado de una red convolucional interpretĂĄndolo como una distribuciĂłn de probabilidad y calculando su valor esperado, permite reducir enormemente el nĂșmero de parĂĄmetros entrenables de los modelos sin reducir la precisiĂłn de sus estimaciones.Cuando queremos realizar el tracking de varias fuentes en movimiento y no podemos aplicar ningĂșn criterio para ordenarlas o clasificarlas, el problema se vuelve invariante a las permutaciones de las estimaciones, por lo que no podemos compararlas directamente con las etiquetas de referencia dado que no podemos esperar que sigan el mismo orden. Este tipo de modelos se han entrenado tĂ­picamente usando estrategias de entrenamiento invariantes a las permutaciones, pero estas normalmente no penalizan los cambios de identidad por lo que los modelos entrenados con ellas no mantienen la identidad de cada fuente de forma consistente. Para resolver este problema, en esta tesis proponemos una nueva estrategia de entrenamiento, a la que llamamos sliding permutation invariant training (sPIT), que es capaz de optimizar todas las caracterĂ­sticas que podemos esperar de un sistema de tracking de mĂșltiples fuentes: la precisiĂłn de sus estimaciones de direcciĂłn de llegada, la exactitud de sus detecciones y la consistencia de las identidades asignadas a cada fuente.Finalmente, proponemos un nuevo tipo de red recursiva que usa conjuntos de vectores en lugar de vectores para representar su entrada y su estado y que es invariante a las permutaciones de los elementos del conjunto de entrada y equivariante a las del conjunto de estado. En esta tesis se muestra como este es el comportamiento que deberĂ­amos esperar de un sistema de tracking que toma como entradas las estimaciones de un modelo de localizaciĂłn multifuente y se compara el rendimiento de estas redes recursivas invariantes a las permutaciones con redes recursivas GRU convencionales para aplicaciones de tracking de fuentes sonoras.The localization and tracking of sound sources using microphone arrays is a problem that, even if it has attracted attention from the signal processing research community for decades, remains open. In recent years, deep learning models have surpassed the state-of-the-art that had been established by classic signal processing techniques, but these models still struggle with handling rooms with strong reverberations or tracking multiple sources that dynamically appear and disappear, especially when we cannot apply any criteria to classify or order them. In this thesis, we follow the ideas of the Geometric Deep Learning framework to propose new models and techniques that mean an advance of the state-of-the-art in the aforementioned scenarios. As the input of our models, we use acoustic power maps computed using the SRP-PHAT algorithm, a classic signal processing technique that allows us to estimate the acoustic energy received from any direction of the space and, therefore, compute arbitrary-shaped power maps. In addition, we also propose a new technique to analytically cancel a source from the generalized cross-correlations used to compute the SRP-PHAT maps. Based on previous narrowband cancellation techniques, we prove that we can project the cross-correlation functions of the signals captured by a microphone array into a space orthogonal to a given direction by just computing a linear combination of time-shifted versions of the original cross-correlations. The proposed cancellation technique can be used to design iterative multi-source localization systems where, after having found the strongest source in the generalized cross-correlation functions or in the SRP-PHAT maps, we can cancel it and find new sources that were previously masked by thefirst source. Before being able to train deep learning models we need data, which, in the case of following a supervised learning approach, means a dataset of multichannel recordings with the position of the sources accurately labeled. Although there exist some datasets like this, they are not large enough to train a neural network and the acoustic environments they include are not diverse enough. To overcome this lack of real data, we present a technique to simulate acoustic scenes with one or several moving sound sources and, to be able to perform these simulations as they are needed during the training, we present what is, to the best of our knowledge, the first free and open source room acoustics simulation library with GPU acceleration. As we prove in this thesis, the presented library is more than two orders of magnitude faster than other state-of-the-art CPU libraries. The main idea of the Geometric Deep Learning philosophy is that the models should fit the symmetries (i.e. the invariances and equivariances) of the data and the problem we want to solve. For single-source direction of arrival estimation, the use of SRP-PHAT maps as inputs of our models makes the rotational equivariance of the problem undeniably clear and, after a first approach using 3D convolutional neural networks, we present a model using icosahedral convolutions that approximate the equivariance to the continuous group of spherical rotations by the discrete group of the 60 icosahedral symmetries. We prove that the SRP-PHAT maps are a much more robust input feature than the spectrograms typically used in many state-of-the-art models and that the use of the icosahedral convolutions, combined with a new soft-argmax function that obtains a regression output from the output of the convolutional neural network by interpreting it as a probability distribution and computing its expected value, allows us to dramatically reduce the number of trainable parameters of the models without losing accuracy in their estimations. When we want to track multiple moving sources and we cannot use any criteria to order or classify them, the problem becomes invariant to the permutations of the estimates, so we cannot directly compare them with the ground truth labels since we cannot expect them to be in the same order. This kind of models has typically been trained using permutation invariant training strategies, but these strategies usually do not penalize the identity switches and the models trained with them do not keep the identity of every source consistent during the tracking. To solve this issue, we propose a new training strategy, which we call sliding permutation invariant training, that is able to optimize all the features that we could expect from a multi-source tracking system: the precision of the direction of arrival estimates, the accuracy of the source detections, and the consistency of the assigned identities. Finally, we propose a new kind of recursive neural network that, instead of using vectors as their input and their state, uses sets of vectors and is invariant to the permutation of the elements of the input set and equivariant to the permutations of the elements of the state set. We show how this is the behavior that we should expect from a tracking model which takes as inputs the estimates of a multi-source localization model and compare these permutation-invariant recursive neural networks with the conventional gated recurrent units for sound source tracking applications.<br /

    LocalizaciĂłn de fuentes sonoras mediante agrupaciones de micrĂłfonos

    Get PDF
    Este trabajo se plantea como una introducción a las técnicas de estimación de ångulo de llegada (DOA) en agrupaciones de micrófonos. En él, tras explicar la motivación y alcance del proyecto y una pequeña introducción al procesado de señal de agrupaciones, se estudian las distintas técnicas existentes a día de hoy para, a continuación, presentar 2 implementaciones en tiempo real. La primera, montada sobre un PC y usando micrófonos y equipos profesionales, sirve para demostrar las capacidades de este tipo de técnicas, mientras que la segunda, buscando reducir tamaños y costes, estå mås próxima a las necesarias en aplicaciones reales. Ademås, junto a la primera implementación se aborda el hecho de representar espacialmente, de manera conjunta, los resultados obtenidos mediante las técnicas de DOA con la imagen obtenida de una cåmara de vídeo, y junto a la segunda, se presenta una técnica que permite combinar la información obtenida por diversas agrupaciones pequeñas para formar una red de agrupaciones de micrófonos

    Desarrollo de un sistema automĂĄtico de medida con sensores acĂșsticos, tĂ©rmicos y de presiĂłn para modelar el comportamiento de un recipiente con agua hirviendo

    Get PDF
    Basado en la necesidad de incrementar las prestaciones de una placa de inducciĂłn, el fin de este trabajo es proporcionar una base de datos destinada a entrenar una red neuronal que sea capaz de distinguir la temperatura de un lĂ­quido hirviendo sin necesidad de introducir sensores de temperatura en el interior del recipiente. Para ello, se crea un set experimental para obtener datos simultĂĄneamente de temperatura, sonido y presiĂłn acĂșstica del sistema con el objetivo de analizar la viabilidad de estimar la temperatura Ășnicamente por medio de micrĂłfonos o sensores de presiĂłn.En este trabajo nos centramos en el modelado del sistema, la creaciĂłn del set experimental y el desarrollo de un sistema automĂĄtico de medida que integre los distintos dispositivos de captura de datos para su captura simultĂĄnea. AdemĂĄs, realizamos un anĂĄlisis preliminar de los datos obtenidos y el alcance y la problemĂĄtica que puede tener el añadir la red a la cocina.<br /

    Desarrollo de un sistema de simulaciĂłn de control por voz para una cocina de inducciĂłn

    Get PDF
    La tecnología IoT (Internet of Things) supone una revolución en las relaciones entre objetos y usuarios, su crecimiento y desarrollo actual estå en auge. Entre sus aportaciones estån los asistentes virtuales, diseñados para facilitar la vida a las personas, por esta razón se propone el desarrollo de una interfaz de usuario por voz para el control de una cocina de inducción, con el objetivo de ampliar las posibilidades de su manejo y la comodidad. Se ha desarrollado una skill usando los servicios de Amazon que controla un simulador de una cocina de inducción. El sistema se aloja en la Raspberry Pi que junto con un micrófono y un altavoz simula un altavoz inteligente como, por ejemplo, Amazon Echo. No es un sistema comercial, si no una demostración de las ventajas que podría proporcionar este tipo de servicios y como llevarlas a cabo.Como conclusión, el funcionamiento de la skill es correcto y la comunicación y control se produce con una latencia inapreciable para el usuario.<br /

    Anålisis y comparación de técnicas de filtrado espacial y frecuencial para una interfaz mediante voz del usuario en una placa de inducción

    Get PDF
    El filtrado de señales para la reducciĂłn de ruido es un tema ampliamente estudiado en el que se han desarrollado numerosos algoritmos de filtrado tanto espacial como frecuencial. En este trabajo se va a abordar el caso concreto de tener como entorno sonoro una placa de inducciĂłn para analizar el control de la cocina mediante la voz del usuario. Para conseguir dicho objetivo, se van a implementar diferentes algoritmos de filtrado espacial y frecuencial con dos arrays de micrĂłfonos, para proceder seguidamente con un estudio de las prestaciones ofrecidas por todos ellos a la hora de detectar la voz del usuario. Se va a trabajar con una placa con extractor de humos integrado, por lo que se ha trabajado suponiendo que Ă©ste es la principal fuente de ruido.El mĂ©todo empleado serĂĄ el siguiente. Para el filtrado espacial se utilizarĂĄn el algoritmo de beamforming Delay and Sum y uno superdirectivo, mientras que para el filtrado frecuencial se usarĂĄ el filtro de Wiener adaptativo LMS. Los arrays empleados son un array de geometrĂ­a rectangular y dimensiones similares a las de la placa de inducciĂłn y un array de geometrĂ­a circular y dimensiones similares a las de un Echo Dot de Amazon. Para el estudio de prestaciones se llevarĂĄn a cabo unas estimaciones en tĂ©rminos de SNR y se evaluara la capacidad de detecciĂłn de la palabra clave “ALEXA” que permitirĂ­a, una vez detectada, reducir la potencia del extractor para asĂ­ facilitar el reconocimiento del resto de la orden dada por el usuario.<br /

    LocalizaciĂłn de fuentes sonoras en tiempo real, mediante redes neuronales y agrupaciones de micrĂłfonos

    Get PDF
    En este trabajo se plantea el objetivo de localizar fuentes sonoras a partir del procesado de señal de un array circular de seis micrĂłfonos y tĂ©cnicas de estimaciĂłn del ĂĄngulo de llegada (DOA), compaginado con el uso de una red neuronal convolucional. Esta red neuronal convolucional es la encargada de proporcionarnos el ĂĄngulo de llegada de la fuente a partir de los mapas de energĂ­a acĂșstica realizados mediante tĂ©cnicas clĂĄsicas de procesado de señal.<br /

    Familial hypercholesterolaemia in children and adolescents from 48 countries: a cross-sectional study

    Get PDF
    Background: Approximately 450 000 children are born with familial hypercholesterolaemia worldwide every year, yet only 2·1% of adults with familial hypercholesterolaemia were diagnosed before age 18 years via current diagnostic approaches, which are derived from observations in adults. We aimed to characterise children and adolescents with heterozygous familial hypercholesterolaemia (HeFH) and understand current approaches to the identification and management of familial hypercholesterolaemia to inform future public health strategies. Methods: For this cross-sectional study, we assessed children and adolescents younger than 18 years with a clinical or genetic diagnosis of HeFH at the time of entry into the Familial Hypercholesterolaemia Studies Collaboration (FHSC) registry between Oct 1, 2015, and Jan 31, 2021. Data in the registry were collected from 55 regional or national registries in 48 countries. Diagnoses relying on self-reported history of familial hypercholesterolaemia and suspected secondary hypercholesterolaemia were excluded from the registry; people with untreated LDL cholesterol (LDL-C) of at least 13·0 mmol/L were excluded from this study. Data were assessed overall and by WHO region, World Bank country income status, age, diagnostic criteria, and index-case status. The main outcome of this study was to assess current identification and management of children and adolescents with familial hypercholesterolaemia. Findings: Of 63 093 individuals in the FHSC registry, 11 848 (18·8%) were children or adolescents younger than 18 years with HeFH and were included in this study; 5756 (50·2%) of 11 476 included individuals were female and 5720 (49·8%) were male. Sex data were missing for 372 (3·1%) of 11 848 individuals. Median age at registry entry was 9·6 years (IQR 5·8-13·2). 10 099 (89·9%) of 11 235 included individuals had a final genetically confirmed diagnosis of familial hypercholesterolaemia and 1136 (10·1%) had a clinical diagnosis. Genetically confirmed diagnosis data or clinical diagnosis data were missing for 613 (5·2%) of 11 848 individuals. Genetic diagnosis was more common in children and adolescents from high-income countries (9427 [92·4%] of 10 202) than in children and adolescents from non-high-income countries (199 [48·0%] of 415). 3414 (31·6%) of 10 804 children or adolescents were index cases. Familial-hypercholesterolaemia-related physical signs, cardiovascular risk factors, and cardiovascular disease were uncommon, but were more common in non-high-income countries. 7557 (72·4%) of 10 428 included children or adolescents were not taking lipid-lowering medication (LLM) and had a median LDL-C of 5·00 mmol/L (IQR 4·05-6·08). Compared with genetic diagnosis, the use of unadapted clinical criteria intended for use in adults and reliant on more extreme phenotypes could result in 50-75% of children and adolescents with familial hypercholesterolaemia not being identified. Interpretation: Clinical characteristics observed in adults with familial hypercholesterolaemia are uncommon in children and adolescents with familial hypercholesterolaemia, hence detection in this age group relies on measurement of LDL-C and genetic confirmation. Where genetic testing is unavailable, increased availability and use of LDL-C measurements in the first few years of life could help reduce the current gap between prevalence and detection, enabling increased use of combination LLM to reach recommended LDL-C targets early in life

    DetecciĂłn de impacto para instrumentos de percusiĂłn basado en agrupaciĂłn de sensores

    No full text
    En la actualidad las baterĂ­as electrĂłnicas solamente extraen informaciĂłn de la intensidad de los golpes para posteriormente sintetizar el sonido; solamente algunas de gama alta incluyen informaciĂłn de la distancia entre el golpe y el centro del tambor. En ambos casos se basan en el uso de un sensor piezoelĂ©ctrico, ya sea bajo un taco de goma o bajo un parche de poliĂ©ster similar (o igual) al de las baterĂ­as acĂșsticas tradicionales. En este trabajo se propone un nuevo sistema, basado en el uso de varios sensores piezoelĂ©ctricos bajo un parche de poliĂ©ster, que permite obtener la posiciĂłn en que se ha golpeado el parche; no solo como distancia al centro, sino tambiĂ©n en que ĂĄngulo respecto a la horizontal, obteniendo por tanto las coordenadas circulares completas. Si bien resulta evidente que la coordenada angular no aporta informaciĂłn relevante a la hora de sintetizar el sonido de un golpe aislado en una membrana circular, esta informaciĂłn pasa a ser relevante cuando nos encontramos ante varios golpes consecutivos, de forma que no interesa tanto su valor absoluto sino la posiciĂłn relativa de los distintos golpes. En primer lugar, en esta memoria se introducen los conceptos bĂĄsicos de una baterĂ­a electrĂłnica y se comenta brevemente el estado del arte actual, comentando las distintas tĂ©cnicas que se usan en las baterĂ­as que podemos encontrar en el mercado. A continuaciĂłn se muestran algunas de las tĂ©cnicas de posicionamiento que se han probado hasta dar con el sistema final. Planteando brevemente sus bases teĂłricas y mostrando los resultados obtenidos mediante simulaciones en MatlabÂź para señales generadas artificialmente siguiendo diversos modelos de propagaciĂłn por el parche. Posteriormente se presenta el prototipo montado para poder capturar las señales reales y se prueban las distintas tĂ©cnicas planteadas en el apartado anterior. Para esto, de nuevo se realizan simulaciones en MatlabÂź, aunque en esta ocasiĂłn con señales reales grabadas con el prototipo. Finalmente se muestran las bases de la implementaciĂłn del sistema final en tiempo real, que es capaz de leer las señales del prototipo y enviar la informaciĂłn a un sintetizador con un retardo lo suficientemente bajo para poderlo usar en una baterĂ­a electrĂłnica real. Para esto se ha optado por una implementaciĂłn en OpenFrameworks, que facilita la integraciĂłn de las distintas partes del sistema (procesado de señal, interfaz grĂĄfica, comunicaciĂłn
); pero que, dado que el programa se escribe en lenguaje C++, permitirĂ­a pasar el algoritmo de procesado a un DSP sin que hubiera que realizar demasiados cambios en el mismo

    The impact of surgical delay on resectability of colorectal cancer: An international prospective cohort study

    Get PDF
    AimThe SARS-CoV-2 pandemic has provided a unique opportunity to explore the impact of surgical delays on cancer resectability. This study aimed to compare resectability for colorectal cancer patients undergoing delayed versus non-delayed surgery.MethodsThis was an international prospective cohort study of consecutive colorectal cancer patients with a decision for curative surgery (January-April 2020). Surgical delay was defined as an operation taking place more than 4 weeks after treatment decision, in a patient who did not receive neoadjuvant therapy. A subgroup analysis explored the effects of delay in elective patients only. The impact of longer delays was explored in a sensitivity analysis. The primary outcome was complete resection, defined as curative resection with an R0 margin.ResultsOverall, 5453 patients from 304 hospitals in 47 countries were included, of whom 6.6% (358/5453) did not receive their planned operation. Of the 4304 operated patients without neoadjuvant therapy, 40.5% (1744/4304) were delayed beyond 4 weeks. Delayed patients were more likely to be older, men, more comorbid, have higher body mass index and have rectal cancer and early stage disease. Delayed patients had higher unadjusted rates of complete resection (93.7% vs. 91.9%, P = 0.032) and lower rates of emergency surgery (4.5% vs. 22.5%, P ConclusionOne in 15 colorectal cancer patients did not receive their planned operation during the first wave of COVID-19. Surgical delay did not appear to compromise resectability, raising the hypothesis that any reduction in long-term survival attributable to delays is likely to be due to micro-metastatic disease
    corecore