8 research outputs found

    Classification of Sound Scenes and Events in Real-World Scenarios with Deep Learning Techniques

    Get PDF
    La clasificación de los eventos sonoros es un campo de la audición por computador que se está volviendo cada vez más interesante debido al gran número de aplicaciones que podrían beneficiarse de esta tecnología. A diferencia de otros campos de la audición por computador relacionados con la recuperación de información musical o el reconocimiento del habla, la clasificación de eventos sonoros tiene una serie de problemas intrínsecos. Estos problemas son la naturaleza polifónica de la mayoría de las grabaciones de sonido ambiental, la diferencia en la naturaleza de cada sonido, la falta de estructura temporal y la adición de ruido de fondo y reverberación en el proceso de grabación. Estos problemas son campos de estudio para la comunidad científica a día de hoy. Sin embargo, cabe señalar que cuando se despliega una solución de audición por computador en entornos reales, pueden surgir una serie de problemas adicionales. Estos problemas son el Reconocimiento de Conjunto Abierto (OSR), el Aprendizaje de Pocos Disparos (FSL) y la consideración del tiempo de ejecución del sistema (baja complejidad). El OSR se define como el problema que aparece cuando un sistema de inteligencia artificial tiene que enfrentarse a una situación desconocida en la que clases no vistas durante la etapa de entrenamiento están presentes en una etapa de inferencia. El FSL corresponde al problema que se produce cuando hay muy pocas muestras disponibles para cada clase considerada. Por último, dado que estos sistemas se despliegan normalmente en dispositivos de borde, hay que tener en cuenta el tiempo de ejecución, ya que cuanto menos tiempo tarde el sistema en dar una respuesta, mejor será la experiencia percibida por los usuarios. Las soluciones basadas en las técnicas de aprendizaje en profundidad para problemas similares en el dominio de la imagen han mostrado resultados prometedores. Las soluciones más difundidas son las que implementan Redes Neuronales Convolucionales (CNN). Por lo tanto, muchos sistemas de audio de última generación proponen convertir las señales de audio en una representación bidimensional que puede ser tratada como una imagen. La generación de mapas internos se realiza a menudo por las capas convolucionales de las CNN. Sin embargo, estas capas tienen una serie de limitaciones que deben ser estudiadas para poder proponer técnicas para mejorar los mapas de características resultantes. Con este fin, se han propuesto novedosas redes que fusionan dos métodos diferentes, como el aprendizaje residual y las técnicas de excitación y compresión. Los resultados muestran una mejora de la precisión del sistema con la adición de un número reducido de parámetros adicionales. Por otra parte, estas soluciones basadas en entradas bidimensionales pueden mostrar un cierto sesgo, ya que la elección de la representación de audio puede ser específica para una tarea concreta. Por lo tanto, se ha realizado un estudio comparativo de diferentes redes residuales alimentadas directamente por la señal de audio en bruto. Estas soluciones se conocen como de extremo a extremo. Si bien se han realizado estudios similares en la literatura en el dominio de la imagen, los resultados sugieren que los bloques residuales de mejor rendimiento para las tareas de visión artificial pueden no ser los mismos que los de la clasificación de audio. En cuanto a los problemas de FSL y OSR, se propone un marco basado en un autoencoder capaz de mitigar ambos problemas juntos. Esta solución es capaz de crear representaciones robustas de estos patrones de audio a partir de sólo unas pocas muestras, al tiempo que es capaz de rechazar las clases de audio no deseadas.The classification of sound events is a field of machine listening that is becoming increasingly interesting due to the large number of applications that could benefit from this technology. Unlike other fields of machine listening related to music information retrieval or speech recognition, sound event classification has a number of intrinsic problems. These problems are the polyphonic nature of most environmental sound recordings, the difference in the nature of each sound, the lack of temporal structure and the addition of background noise and reverberation in the recording process. These problems are fields of study for the scientific community today. However, it should be noted that when a machine listening solution is deployed in real environments, a number of extra problems may arise. These problems are Open-Set Recognition (OSR), Few-Shot Learning (FSL) and consideration of system runtime (low-complexity). OSR is defined as the problem that appears when an artificial intelligence system has to face an unknown situation where classes unseen during the training stage are present at a usage stage. FSL corresponds to the problem that occurs when there are very few samples available for each considered class. Finally, since these systems are normally deployed in edge devices, the consideration of the execution time must be taken into account, as the less time the system takes to give a response, the better the experience perceived by the users. Solutions based on Deep Learning techniques for similar problems in the image domain have shown promising results. The most widespread solutions are those that implement Convolutional Neural Networks (CNNs). Therefore, many state-of-the-art audio systems propose to convert audio signals into a two-dimensional representation that can be treated as an image. The generation of internal maps is often done by the convolutional layers of the CNNs. However, these layers have a series of limitations that must be studied in order to be able to propose techniques for improving the resulting feature maps. To this end, novel networks have been proposed that merge two different methods such as residual learning and squeeze-excitation techniques. The results show an improvement in the accuracy of the system with the addition of few number of extra parameters. On the other hand, these solutions based on two-dimensional inputs can show a certain bias since the choice of audio representation can be specific to a particular task. Therefore, a comparative study of different residual networks directly fed by the raw audio signal has been carried out. These solutions are known as end-to-end. While similar studies have been carried out in the literature in the image domain, the results suggest that the best performing residual blocks for computer vision tasks may not be the same as those for audio classification. Regarding the FSL and OSR problems, an autoencoder-based framework capable of mitigating both problems together is proposed. This solution is capable of creating robust representations of these audio patterns from just a few samples while being able to reject unwanted audio classes

    An Open-set Recognition and Few-Shot Learning Dataset for Audio Event Classification in Domestic Environments

    Get PDF
    The problem of training a deep neural network with a small set of positive samples is known as few-shot learning (FSL). It is widely known that traditional deep learning (DL) algorithms usually show very good performance when trained with large datasets. However, in many applications, it is not possible to obtain such a high number of samples. In the image domain, typical FSL applications are those related to face recognition. In the audio domain, music fraud or speaker recognition can be clearly benefited from FSL methods. This paper deals with the application of FSL to the detection of specific and intentional acoustic events given by different types of sound alarms, such as door bells or fire alarms, using a limited number of samples. These sounds typically occur in domestic environments where many events corresponding to a wide variety of sound classes take place. Therefore, the detection of such alarms in a practical scenario can be considered an open-set recognition (OSR) problem. To address the lack of a dedicated public dataset for audio FSL, researchers usually make modifications on other available datasets. This paper is aimed at providing the audio recognition community with a carefully annotated dataset for FSL and OSR comprised of 1360 clips from 34 classes divided into pattern sounds and unwanted sounds. To facilitate and promote research in this area, results with two baseline systems (one trained from scratch and another based on transfer learning), are presented.Comment: To be submitted to Expert System with Application

    Mortality from gastrointestinal congenital anomalies at 264 hospitals in 74 low-income, middle-income, and high-income countries: a multicentre, international, prospective cohort study

    Get PDF
    Summary Background Congenital anomalies are the fifth leading cause of mortality in children younger than 5 years globally. Many gastrointestinal congenital anomalies are fatal without timely access to neonatal surgical care, but few studies have been done on these conditions in low-income and middle-income countries (LMICs). We compared outcomes of the seven most common gastrointestinal congenital anomalies in low-income, middle-income, and high-income countries globally, and identified factors associated with mortality. Methods We did a multicentre, international prospective cohort study of patients younger than 16 years, presenting to hospital for the first time with oesophageal atresia, congenital diaphragmatic hernia, intestinal atresia, gastroschisis, exomphalos, anorectal malformation, and Hirschsprung’s disease. Recruitment was of consecutive patients for a minimum of 1 month between October, 2018, and April, 2019. We collected data on patient demographics, clinical status, interventions, and outcomes using the REDCap platform. Patients were followed up for 30 days after primary intervention, or 30 days after admission if they did not receive an intervention. The primary outcome was all-cause, in-hospital mortality for all conditions combined and each condition individually, stratified by country income status. We did a complete case analysis. Findings We included 3849 patients with 3975 study conditions (560 with oesophageal atresia, 448 with congenital diaphragmatic hernia, 681 with intestinal atresia, 453 with gastroschisis, 325 with exomphalos, 991 with anorectal malformation, and 517 with Hirschsprung’s disease) from 264 hospitals (89 in high-income countries, 166 in middleincome countries, and nine in low-income countries) in 74 countries. Of the 3849 patients, 2231 (58·0%) were male. Median gestational age at birth was 38 weeks (IQR 36–39) and median bodyweight at presentation was 2·8 kg (2·3–3·3). Mortality among all patients was 37 (39·8%) of 93 in low-income countries, 583 (20·4%) of 2860 in middle-income countries, and 50 (5·6%) of 896 in high-income countries (p<0·0001 between all country income groups). Gastroschisis had the greatest difference in mortality between country income strata (nine [90·0%] of ten in lowincome countries, 97 [31·9%] of 304 in middle-income countries, and two [1·4%] of 139 in high-income countries; p≤0·0001 between all country income groups). Factors significantly associated with higher mortality for all patients combined included country income status (low-income vs high-income countries, risk ratio 2·78 [95% CI 1·88–4·11], p<0·0001; middle-income vs high-income countries, 2·11 [1·59–2·79], p<0·0001), sepsis at presentation (1·20 [1·04–1·40], p=0·016), higher American Society of Anesthesiologists (ASA) score at primary intervention (ASA 4–5 vs ASA 1–2, 1·82 [1·40–2·35], p<0·0001; ASA 3 vs ASA 1–2, 1·58, [1·30–1·92], p<0·0001]), surgical safety checklist not used (1·39 [1·02–1·90], p=0·035), and ventilation or parenteral nutrition unavailable when needed (ventilation 1·96, [1·41–2·71], p=0·0001; parenteral nutrition 1·35, [1·05–1·74], p=0·018). Administration of parenteral nutrition (0·61, [0·47–0·79], p=0·0002) and use of a peripherally inserted central catheter (0·65 [0·50–0·86], p=0·0024) or percutaneous central line (0·69 [0·48–1·00], p=0·049) were associated with lower mortality. Interpretation Unacceptable differences in mortality exist for gastrointestinal congenital anomalies between lowincome, middle-income, and high-income countries. Improving access to quality neonatal surgical care in LMICs will be vital to achieve Sustainable Development Goal 3.2 of ending preventable deaths in neonates and children younger than 5 years by 2030

    Método automático de análisis y segmentación de imágenes para la detección de nódulo pulmonares a partir de radiografías de tórax

    Full text link
    El cáncer de pulmón es una de las principales causas de muerte relacionada con cáncer, con más de un millón de casos al año en todo el mundo. La detección temprana de la enfermedad puede reducir la mortalidad de forma muy significativa, por lo que es necesario poder detectar pequeños nódulos tumorales que pueden evolucionar hacia tumores de pulmón. La radiografía de tórax es la técnica de imagen más habitual para evaluar el pulmón en la práctica clínica. Está indicada para la detección de varias enfermedades y es una prueba rápida, barata, no invasiva y muy accesible, con una exposición a la radiación muy baja. Sin embargo, no está exenta de problemas, ya que los nódulos pulmonares con frecuencia pasan desapercibidos, incluso para radiólogos especializados, y muchos se detectan retrospectivamente. Por otro lado, el volumen de trabajo de los servicios de radiología dificulta que todas las radiografías de tórax se estudien e informen por el personal más especializado, con lo que se hace necesario disponer de sistemas de ayuda al médico que faciliten el análisis automático de las radiografías. De esta forma, se podría realizar un cribado de las mismas, de forma que sólo lleguen al radiólogo aquellas que muestren cierta probabilidad de presentar nódulos. Las herramientas de detección por computador (computer-aided detection, CAD) se utilizan en múltiples escenarios clínicos de cribado por imagen (como en mamografía), donde se realizan estudios serializados a grupos poblacionales importantes. En la actualidad existen CADs de nódulo pulmonar, pero los resultados que muestran no son concluyentes y no está aún claro el beneficio que pueden aportar en términos de sensibilidad y especificidad para detectar la enfermedad de forma precoz. Esto origina que sea un tema actual de investigación, en el que caben nuevas aproximaciones, ya que a medida que la tecnología avanza se desarrollan nuevos algoritmos y posibilidades de aplicación. Generalmente, la manera de abordar el problema de la detección automática de estructuras anatómicas en imágenes médicas sigue un patrón similar. Básicamente, los pasos a seguir son los siguientes: ¿ Obtener las imágenes: se trata de imágenes en formato DICOM, un formato estandarizado para imágenes médicas. Están almacenadas en sistemas específicos denominados PACS (por sus siglas en inglés, Picture Archiving and Communication System). ¿ Leer las imágenes: actualmente las principales plataformas de desarrollo software disponen de librerías con funciones para leer estas imágenes (Matlab, Java, c++, etc.). ¿ Mejorar las imágenes: mediante la aplicación de los filtros de imagen más adecuados a la aplicación concreta. ¿ Segmentar las estructuras de interés: realizar una extracción virtual del órgano o tejido de interés, como los pulmones en el caso de este trabajo. ¿ Caracterizar las estructuras de interés: realizar las medidas o sub-segmentaciones necesarias para obtener información cuantitativa relevante para el diagnóstico, como la detección y segmentación de un nódulo pulmonar, si lo hubiera, descriptores de tamaño y forma y otra información medible que pueda ser de interés. ¿ Presentar los resultados en un informe estructurado. El objetivo de este proyecto es aplicar este flujo de trabajo, estudiar diferentes aproximaciones de tratamiento digital de la imagen que puedan solucionar el problema y proponer aquellas que tengan mayor posibilidad de éxito en base a los resultados. Para ello se dispondrá de un conjunto de imágenes médicas originales debidamente anonimizadas, Matlab como herramienta base para el manejo de las imágenes y apoyo por parte del Servicio de Radiología del Hospital Quirón Valencia.Naranjo Alcázar, J. (2016). Método automático de análisis y segmentación de imágenes para la detección de nódulo pulmonares a partir de radiografías de tórax. http://hdl.handle.net/10251/80434.TFG

    Análisis de movimiento en imágenes para localización de cápsula endoscópica en el intestino

    Full text link
    La cápsula endoscópica es una cápsula con una camera que se usa para grabar imágenes internas del tracto gastrointestinal, específicamente el esófago, el estómago, el duodeno y el intestino delgado. Usando esta técnica, médicos pueden analizar el parte del intestino no accesible con endoscopia tradicional. Sin embargo, patologías encontradas durante el análisis del video son difíciles de localizar exactamente en el intestino. Aunque los modelos más nuevos tienen sensores de radiofrecuencia para grabar las coordenadas, no suelen aportar suficiente información, porque que el intestino se mueve continuamente y por la estructura entrelazado del intestino. El objetivo de este TFM es desarrollar técnicas basadas en análisis de imágenes que pueden contribuir a la localización de la cápsula, estimando la posición y las distancias de ciertos puntos conocidos, como por ejemplo la salida del estómago. En este proyecto se detectará automáticamente en las imágenes el túnel, usando diferentes métodos de segmentación de imagen y extracción de características y clasificación, y se programarán métodos para su seguimiento. Las imágenes y los vídeos requeridos para la implementación y para testear los algoritmos desarrollados serán obtenidos tras cooperación con hospital La Fe.The wireless endoscopic capusle (known as WCE) offers an investigation of the small intestine by a non-invasive, non-painful and patient-friendly method. One of the most critical components at the time of examination of the intestine, by the capsule, is the location of the same. This information would facilitate the exact position of an injury once it has been detected in the video. To define the position of the capsule it is necessart to make an internal map of the body. For this purpose, it is necessary to merge two sources of information: the images from the camera embedded in the capsule and RF signal emitted by it. This Master Final Project focuses on the study of the first source of information. The work can be structured in two large blocks: location images, which involve the movement of the capsule, and the estimation of movement between two consecutive images that satisfy the first condition. In the first block we have studied different types of descriptors that better differentiate the images that involve movement of the capsule and those that do not. Subsequently, a Machine Learning algorithm has been implemented to determinate whether a new image corresponds to one class or another. In the second block, we have studied the features with which you can best describe the amount of movement betweeen two consecutive images and thus, predict the speed at which the capsule moves. All the tests have been done with videos provided by the La Fe Hospital in València.Naranjo Alcázar, J. (2018). Análisis de movimiento en imágenes para localización de cápsula endoscópica en el intestino. http://hdl.handle.net/10251/109382TFG

    Libro de Actas de las III Jornadas ScienCity 2020: Fomento de la Cultura Científica, Tecnológica y de Innovación en Ciudades Inteligentes

    No full text
    Editorial: Kindle Direct Publishing, Seattle, WS (USA)Actualmente, nuestras ciudades están experimentando una verdadera transformación digital que requiere una atención inmediata en energía, transporte, movilidad, comunicación, seguridad, educación, turismo y aspectos sociales, así como fomentar todas aquellas actuaciones que persigan mejorar la calidad de vida y el desarrollo económico-ambiental sostenible. ScienCity es un foro científico-tecnológico que pretende dar a conocer a la sociedad los conocimientos y tecnologías emergentes siendo investigados en las universidades, informar de experiencias, servicios e iniciativas puestas ya en marcha por instituciones y empresas, llegar hasta decisores políticos que podrían crear sinergias, incentivar la creación de ideas y posibilidades de desarrollo conjuntas, implicar y provocar la participación ciudadana.Junta de Andalucía, Universidad de Huelva y Consejo Social de la Universidad de Huelv

    Biodiversidad en la cuenca del Orinoco. Bases científicas para la identificación de áreas prioritarias para la conservación y uso sostenible de la biodiversidad

    No full text
    Es un placer para el Instituto de Investigación de Recursos Biológicos Alexander von Humboldt presentar a la comunidad científica, conservacionista y autoridades ambientales de Colombia y Venezuela la obra Biodiversidad de la cuenca del Orinoco: bases científicas para la identificación de áreas prioritarias para la conservación y el uso sostenible de la biodiversidad. Este libro es fruto de un esfuerzo de una década de trabajo y recoge numerosos proyectos de carácter institucional que han venido desarrollándose en la Orinoquia, incluyendo el Plan de acción en biodiversidad para la cuenca del Orinoco (2005-2015), además de los resultados de reuniones técnicas de carácter binacional
    corecore