563 research outputs found

    Identificação automática de aves a partir de áudio

    Get PDF
    Bird classification from audio is mainly useful for ornithologists and ecologists. With growing amounts of data, manual bird classification is time-consuming, which makes it a costly method. Birds react quickly to environmental changes, which makes their analysis an important problem in ecology, as analyzing bird behaviour and population trends helps detect other organisms in the environment. A reliable methodology that automatically identifies bird species from audio would be a valuable tool for the experts in the area. The main purpose of this work is to propose a methodology able to identify a bird species by its chirp. There are many techniques that can be used to process the audio data, and to classify the audio data. This thesis explores the deep learning techniques that are being used in this domain, such as using Convolutional Neural Networks and Recurrent Neural Networks to classify the data. Audio problems in deep learning are commonly approached by converting them into images using feature extraction techniques such as Mel Spectrograms and Mel Frequency Cepstral Coefficients. Multiple deep learning and feature extraction combinations are used and compared in this thesis in order to find the most suitable approach to this problem.Classificação de pássaros a partir de áudio é principalmente útil para ornitólogos e ecologistas. Com o aumento da quantidade de dados disponível, classificar a espécie dos pássaros manualmente acaba por consumir muito tempo. Os pássaros reagem rapidamente às alterações climáticas, o que faz com que a análise de pássaros seja um problema interessante na ecologia, porque ao analisar o comportamento das aves e a tendência populacional, outros organismos podem ser detetados no meio ambiente. Devido a estes factos, a criação de uma metodologia que identifique a espécie dos pássaros fiavelmente seria uma ferramenta bastante útil para os especialistas na área. O objetivo principal do trabalho nesta dissertação é propor uma metodologia que identifique a espécie de uma ave através do seu canto. Existem diversas técnicas que podem ser usadas para processar os dados sonoros que contêm os cantos das aves, e que podem ser usadas para classificar as espécies das aves. Esta dissertação explora as principais técnicas de deep learning que são usadas neste domínio, tais como as redes neuronais convolucionais e as redes neuronais recorrentes que são usadas para classificar os dados. Os problemas relacionados com som no deep learning, são normalmente abordados por converter os dados sonoros em imagens utilizando técnicas de extração de atributos, para depois serem classificados utilizando modelos de deep learning tipicamente utilizados para classificar imagens. Dois exemplos destas técnicas de extração de atributos normalmente utilizadas são os Espectrogramas de Mel e os Coeficientes Cepstrais da Frequência de Mel. Nesta dissertação, são feitas múltiplas combinações de técnicas de deep learning com técnicas de extração de atributos do som. Estas combinações são utilizadas para serem comparadas com o âmbito de encontrar a abordagem mais apropriada para o problema

    CLASSIFICATION OF CAT SOUNDS USING CONVOLUTIONAL NEURAL NETWORK (CNN) AND LONG SHORT-TERM MEMORY (LSTM) METHODS

    Get PDF
    Cats become pets who are very close to humans, and they convey messages by producing identical sounds. Therefore, analysis of pet voices is important for a better relationship between cats and human. Animal communication through sound, especially in cats, depends on the situation or context in which the sound is made such as in a state of danger. Based on these problems, a classification method is needed to classify the similarity of characteristics in the resulting sound pattern. The classification methods used are Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) which can remember information for a long time and are used for a long time period. This study aimed to determine feelings or moods based on the sound produced into 4 categories: The Purr, The Meow, The Mating Call, and The Howl. The result of this study is that the best architectural model is to use 4 CNN convolution layers measuring 8-8-8-8 and 2 LSTM layers measuring 8-8. The precision value in this architecture is 0.68, the recall value is 1.00, the accurary value is 0.5625 and the f1-score value is 0.77. The small value of the confusion matrix is ​​caused by the lack of dataset duration in the training process, resulting in underfitting
    corecore