Search CORE

5 research outputs found

CnnSound: Convolutional Neural Networks for the Classification of Environmental Sounds

Author: inik ozkan
SEKER Huseyin
Publication venue: 'American College of Medical Physics (ACMP)'
Publication date
Field of study

The classification of environmental sounds (ESC) has been increasingly studied in recent years. The main reason is that environmental sounds are part of our daily life, and associating them with our environment that we live in is important in several aspects as ESC is used in areas such as managing smart cities, determining location from environmental sounds, surveillance systems, machine hearing, environment monitoring. The ESC is however more difficult than other sounds because there are too many parameters that generate background noise in the ESC, which makes the sound more difficult to model and classify. The main aim of this study is therefore to develop more robust convolution neural networks architecture (CNN). For this purpose, 150 different CNN-based models were designed by changing the number of layers and values of their tuning parameters used in the layers. In order to test the accuracy of the models, the Urbansound8k environmental sound database was used. The sounds in this data set were first converted into an image format of 32x32x3. The proposed CNN model has yielded an accuracy of as much as 82.5% being higher than its classical counterpart. As there was not that much fine-tuning, the obtained accuracy has been found to be better and satisfactory compared to other studies on the Urbansound8k when both accuracy and computational complexity are considered. The results also suggest further improvement possible due to low complexity of the proposed CNN architecture and its applicability in real-world settings

STORE - Staffordshire Online Repository

Transfer Learning for Improved Audio-Based Human Activity Recognition

Author: I. Potamitis
S. Ntalampiras
Publication venue: 'MDPI AG'
Publication date: 01/06/2018
Field of study

Human activities are accompanied by characteristic sound events, the processing of which might provide valuable information for automated human activity recognition. This paper presents a novel approach addressing the case where one or more human activities are associated with limited audio data, resulting in a potentially highly imbalanced dataset. Data augmentation is based on transfer learning; more specifically, the proposed method: (a) identifies the classes which are statistically close to the ones associated with limited data; (b) learns a multiple input, multiple output transformation; and (c) transforms the data of the closest classes so that it can be used for modeling the ones associated with limited data. Furthermore, the proposed framework includes a feature set extracted out of signal representations of diverse domains, i.e., temporal, spectral, and wavelet. Extensive experiments demonstrate the relevance of the proposed data augmentation approach under a variety of generative recognition schemes

AIR Universita degli studi di Milano

Directory of Open Access Journals

Traffic data collection framework:freight traffic data in the city of Eindhoven

Author: Perez Martinez A.
Publication venue
Publication date: 31/08/2015
Field of study

Pure OAI Repository

Caracterització de l'impacte dels esdeveniments acústics en els nivells equivalents sonors i en la percepció dels ciutadans per a la confecció de mapes dinàmics de soroll

Author: Orga Vidal Ferran
Publication venue: Blanquerna - Universitat Ramon Llull
Publication date: 25/05/2022
Field of study

La contaminació acústica ha esdevingut un greu problema de salut pública, provocant diversos tipus de malalties i trastorns en les persones. Segons l'Organització Mundial de la Salut, cada any es perden a l'Europa occidental, un milió d'anys de vida saludables per culpa de l'exposició al soroll ambiental. Per tal d'avaluar i gestionar el soroll ambiental a la Unió Europea, la directiva END 2002/49/CE requereix als estats membres la preparació i publicació de mapes de soroll actualitzats i els plans d'acció relatius, cada cinc anys. Això inclou aglomeracions de més de 100.000 habitants i les principals carreteres, vies de tren i aeroports. Gràcies als avanços tecnològics recents, el paradigma de creació de mapes de soroll ha canviat substancialment, permetent l'automatització de les mesures dels nivells sonors utilitzant xarxes de sensors acústics sense fils per a la generació de mapes de soroll en temps real. Així i tot, aquestes xarxes no poden prevenir una sèrie de situacions que esbiaixarien la mesura real dels nivells equivalents sonors, ocasionant que el mapa no sigui fidel a la realitat que percep el ciutadà, p. ex., el so de les aus, de la indústria, els clàxons, les sirenes, les converses que ocorren prop dels sensors o fenòmens meteorològics com la pluja i el vent. Aquesta tesi estudia la caracterització dels esdeveniments acústics per a la confecció de mapes dinàmics de soroll de trànsit. L'estudi comença presentant el context de la tesi, el projecte LIFE DYNAMAP, que pretén mesurar els nivells de soroll de trànsit en dues àrees pilot i integrar-los dinàmicament en un mapa de soroll que s'actualitza a temps real. A continuació, es presenta una anàlisi exhaustiva dels esdeveniments que es troben en les dues àrees, la urbana i la suburbana, i s'hi apliquen diverses caracteritzacions. Una de les mesures que es presenta és la de l'impacte en el nivell equivalent sonor (Leq), que permet mesurar el biaix que provoca la presència de certs esdeveniments acústics en la confecció dels mapes de soroll de trànsit. També es planteja l'ús de tests perceptius mitjançant mètriques psicoacústiques per tal d'adaptar la caracterització d'aquests esdeveniments a la percepció ciutadana. L'objectiu principal de la tesi és caracteritzar els esdeveniments d'entorns urbans i suburbans per oferir mapes de soroll més fidels a la realitat percebuda pel ciutadà en relació amb el paisatge sonor on es troba. I durant la tesi es mostra la importància de la detecció de sons en una xarxa de sensors acústics per tal de prevenir errors de mesura en els nivells equivalents i la necessitat d'entrenar el sistema de detecció amb dades obtingudes en els mateixos sensors de la xarxa.La contaminación acústica se ha convertido en un grave problema de salud pública, provocando varios tipos de enfermedades y trastornos en las personas. Según la Organización Mundial de la Salud, cada año se pierden en la Europa occidental, un millón de años de vida saludables por culpa de la exposición al ruido ambiental. Para evaluar y gestionar el ruido ambiental en la Unión Europea, la directiva END 2002/49/CE requiere a los estados miembros la preparación y publicación de mapas de ruido actualizados y los planes de acción relativos, cada cinco años. Esto incluye aglomeraciones de más de 100.000 habitantes y las principales carreteras, vías de tren y aeropuertos. Gracias a los avances tecnológicos recientes, el paradigma de creación de mapas de ruido ha cambiado sustancialmente, permitiendo la automatización de las medidas de los niveles sonoros utilizando redes de sensores acústicos inalámbricos para la generación de mapas de ruido en tiempo real. Aun así, estas redes no pueden prevenir una serie de situaciones que sesgarían la medida real de los niveles equivalentes sonoros, ocasionando que el mapa no sea fiel a la realidad que percibe el ciudadano, p. ej., el sonido de las aves, de la industria, los cláxones, las sirenas, las conversaciones que ocurren cerca de los sensores o fenómenos meteorológicos como la lluvia y el viento. Esta tesis estudia la caracterización de los eventos acústicos para la confección de mapas dinámicos de ruido de tráfico. El estudio empieza presentando el contexto de la tesis, el proyecto LIFE DYNAMAP, que pretende mesurar los niveles de ruido de tráfico en dos áreas piloto e integrarlos dinámicamente en un mapa de ruido que se actualiza a tiempo real. A continuación, se presenta un análisis exhaustivo de los acontecimientos que se encuentran en las dos áreas, la urbana y la suburbana, y se aplican varias caracterizaciones. Una de las medidas que se presenta es la del impacto en el nivel equivalente sonoro (Leq), que permite mesurar el sesgo que provoca la presencia de ciertos acontecimientos acústicos en la confección de los mapas de ruido de tráfico. También se plantea el uso de macetas perceptivas mediante métricas psicoacústicas para adaptar la caracterización de estos eventos a la percepción ciudadana. El objetivo principal de la tesis es caracterizar los acontecimientos de entornos urbanos y suburbanos para ofrecer mapas de ruido más fieles a la realidad percibida por el ciudadano en relación con el paisaje sonoro donde se encuentra. Y durante la tesis se muestra la importancia de la detección de sonidos en una red de sensores acústicos para prevenir errores de medida en los niveles equivalentes y la necesidad de entrenar el sistema de detección con datos obtenidos en los mismos sensores de la red.Acoustic pollution has become a serious public health problem, causing various types of disease and disorders in people. According to the World Health Organisation, one million years of healthy life are lost in Western Europe every year due to exposure to environmental noise. In order to evaluate and manage environmental noise in the European Union, Directive END 2002/49/EC requires Member States to prepare and publish updated noise maps and relative action plans every five years. This includes agglomerations of more than 100,000 inhabitants and major roads, train tracks and airports. Thanks to recent technological advances, the noise map creation paradigm has changed substantially, allowing noise level measurements to be automated using wireless acoustic sensor networks for real-time noise map generation. However, these networks cannot prevent a series of situations that would bias the actual measurement of sound equivalent levels, causing the map not to be true to the reality perceived by the citizen, e.g., the sound of birds, the industry, the claxons, the mermaids, conversations that occur near sensors or weather phenomena such as rain and wind. This thesis studies the characterization of acoustic events for the tailoring of dynamic traffic noise maps. The study begins by presenting the context of the thesis, the LIFE DYNAMAP project, which aims to measure traffic noise levels in two pilot areas and dynamically integrate them into a noise map that is updated in real time. After that, a detailed analysis is presented for the events in the two areas, urban and suburban, and various characterizations are applied. One of the presented measures is the impact on the equivalent sound level (Leq), which allows the measurement of bias resulting from the presence of certain acoustic events in the making of traffic noise maps. The use of perceptual tests using psychoacoustic metrics is also considered in order to adapt the characterization of these events to citizen perception. The main purpose of the thesis is to characterize the events of urban and suburban environments to offer noise maps more faithful to the reality perceived by the citizen in relation to the sound environment where it is found. And during the thesis, the importance of sound detection on a network of acoustic sensors is shown in order to prevent measurement errors at equivalent levels and the need to train the detection system with data obtained from the same sensors on the network

Tesis Doctorals en Xarxa

Universal background modeling for acoustic surveillance of urban traffic

Author: Ntalampiras Stavros
Publication venue: 'Elsevier BV'
Publication date: 01/01/2014
Field of study

Traffic congestion in modern cities is an increasing problem having significant consequences in our daily lives. This work proposes a non-intrusive, passive monitoring framework based on the acoustic modality which can be used either autonomously or as a part of a multimodal system and provide valuable information to an intelligent transportation system. We consider a large number of audio classes which are typically encountered in urban areas. We introduce a combination of a powerful audio representation mechanism based on time, frequency and wavelet domain features with universal background modeling which leads to higher recognition accuracies and detection rates (in terms of false alarm and miss probability rates) with respect to commonly employed methodologies. The basic advantage of a class-specific model derived using the universal background modeling logic is its tolerance to data which belong to other sound classes. Another important feature of the proposed system is its ability to detect crash incidents, which apart from their catastrophic impact on human life and property, have negative consequences on the traffic flow. Our experiments are based on the concurrent usage of professional sound effect collections which include audio recordings of high quality. We thoroughly examine the performance of the proposed system on isolated sound events as well as continuous audio streams using confusion matrices and detection error trade-off curves

Archivio istituzionale della ricerca - Politecnico di Milano

Crossref

AIR Universita degli studi di Milano