4,654 research outputs found

    Noise reduction optimization of sound sensor based on a Conditional Generation Adversarial Network

    Get PDF
    To address the problems in the traditional speech signal noise elimination methods, such as the residual noise, poor real-time performance and narrow applications a new method is proposed to eliminate network voice noise based on deep learning of conditional generation adversarial network. In terms of the perceptual evaluation of speech quality (PESQ) and shorttime objective intelligibility measure (STOI) functions used as the loss function in the neural network, which were used as the loss function in the neural network, the flexibility of the whole network was optimized, and the training process of the model simplified. The experimental results indicate that, under the noisy environment, especially in a restaurant, the proposed noise reduction scheme improves the STOI score by 26.23% and PESQ score by 17.18%, respectively, compared with the traditional Wiener noise reduction algorithm. Therefore, the sound sensor\u27s noise reduction scheme through our approach has achieved a remarkable noise reduction effect, more useful information transmission, and stronger practicability

    Affective Music Information Retrieval

    Full text link
    Much of the appeal of music lies in its power to convey emotions/moods and to evoke them in listeners. In consequence, the past decade witnessed a growing interest in modeling emotions from musical signals in the music information retrieval (MIR) community. In this article, we present a novel generative approach to music emotion modeling, with a specific focus on the valence-arousal (VA) dimension model of emotion. The presented generative model, called \emph{acoustic emotion Gaussians} (AEG), better accounts for the subjectivity of emotion perception by the use of probability distributions. Specifically, it learns from the emotion annotations of multiple subjects a Gaussian mixture model in the VA space with prior constraints on the corresponding acoustic features of the training music pieces. Such a computational framework is technically sound, capable of learning in an online fashion, and thus applicable to a variety of applications, including user-independent (general) and user-dependent (personalized) emotion recognition and emotion-based music retrieval. We report evaluations of the aforementioned applications of AEG on a larger-scale emotion-annotated corpora, AMG1608, to demonstrate the effectiveness of AEG and to showcase how evaluations are conducted for research on emotion-based MIR. Directions of future work are also discussed.Comment: 40 pages, 18 figures, 5 tables, author versio

    A survey on artificial intelligence-based acoustic source identification

    Get PDF
    The concept of Acoustic Source Identification (ASI), which refers to the process of identifying noise sources has attracted increasing attention in recent years. The ASI technology can be used for surveillance, monitoring, and maintenance applications in a wide range of sectors, such as defence, manufacturing, healthcare, and agriculture. Acoustic signature analysis and pattern recognition remain the core technologies for noise source identification. Manual identification of acoustic signatures, however, has become increasingly challenging as dataset sizes grow. As a result, the use of Artificial Intelligence (AI) techniques for identifying noise sources has become increasingly relevant and useful. In this paper, we provide a comprehensive review of AI-based acoustic source identification techniques. We analyze the strengths and weaknesses of AI-based ASI processes and associated methods proposed by researchers in the literature. Additionally, we did a detailed survey of ASI applications in machinery, underwater applications, environment/event source recognition, healthcare, and other fields. We also highlight relevant research directions

    EmoEEG - recognising people's emotions using electroencephalography

    Get PDF
    Tese de mestrado integrado em Engenharia Biomédica e Biofísica (Sinais e Imagens Médicas), Universidade de Lisboa, Faculdade de Ciências, 2020As emoções desempenham um papel fulcral na vida humana, estando envolvidas numa extensa variedade de processos cognitivos, tais como tomada de decisão, perceção, interações sociais e inteligência. As interfaces cérebro-máquina (ICM) são sistemas que convertem os padrões de atividade cerebral de um utilizador em mensagens ou comandos para uma determinada aplicação. Os usos mais comuns desta tecnologia permitem que pessoas com deficiência motora controlem braços mecânicos, cadeiras de rodas ou escrevam. Contudo, também é possível utilizar tecnologias ICM para gerar output sem qualquer controle voluntário. A identificação de estados emocionais é um exemplo desse tipo de feedback. Por sua vez, esta tecnologia pode ter aplicações clínicas tais como a identificação e monitorização de patologias psicológicas, ou aplicações multimédia que facilitem o acesso a músicas ou filmes de acordo com o seu conteúdo afetivo. O interesse crescente em estabelecer interações emocionais entre máquinas e pessoas, levou à necessidade de encontrar métodos fidedignos de reconhecimento emocional automático. Os autorrelatos podem não ser confiáveis devido à natureza subjetiva das próprias emoções, mas também porque os participantes podem responder de acordo com o que acreditam que os outros responderiam. A fala emocional é uma maneira eficaz de deduzir o estado emocional de uma pessoa, pois muitas características da fala são independentes da semântica ou da cultura. No entanto, a precisão ainda é insuficiente quando comparada com outros métodos, como a análise de expressões faciais ou sinais fisiológicos. Embora o primeiro já tenha sido usado para identificar emoções com sucesso, ele apresenta desvantagens, tais como o fato de muitas expressões faciais serem "forçadas" e o fato de que as leituras só são possíveis quando o rosto do sujeito está dentro de um ângulo muito específico em relação à câmara. Por estes motivos, a recolha de sinais fisiológicos tem sido o método preferencial para o reconhecimento de emoções. O uso do EEG (eletroencefalograma) permite-nos monitorizar as emoções sentidas sob a forma de impulsos elétricos provenientes do cérebro, permitindo assim obter uma ICM para o reconhecimento afetivo. O principal objetivo deste trabalho foi estudar a combinação de diferentes elementos para identificar estados afetivos, estimando valores de valência e ativação usando sinais de EEG. A análise realizada consistiu na criação de vários modelos de regressão para avaliar como diferentes elementos afetam a precisão na estimativa de valência e ativação. Os referidos elementos foram os métodos de aprendizagem automática, o género do indivíduo, o conceito de assimetria cerebral, os canais de elétrodos utilizados, os algoritmos de extração de características e as bandas de frequências analisadas. Com esta análise foi possível criarmos o melhor modelo possível, com a combinação de elementos que maximiza a sua precisão. Para alcançar os nossos objetivos, recorremos a duas bases de dados (AMIGOS e DEAP) contendo sinais de EEG obtidos durante experiências de desencadeamento emocional, juntamente com a autoavaliação realizada pelos respetivos participantes. Nestas experiências, os participantes visionaram excertos de vídeos de conteúdo afetivo, de modo a despoletar emoções sobre eles, e depois classificaram-nas atribuindo o nível de valência e ativação experienciado. Os sinais EEG obtidos foram divididos em epochs de 4s e de seguida procedeu-se à extração de características através de diferentes algoritmos: o primeiro, segundo e terceiro parâmetros de Hjorth; entropia espectral; energia e entropia de wavelets; energia e entropia de FMI (funções de modos empíricos) obtidas através da transformada de Hilbert-Huang. Estes métodos de processamento de sinal foram escolhidos por já terem gerado resultados bons noutros trabalhos relacionados. Todos estes métodos foram aplicados aos sinais EEG dentro das bandas de frequência alfa, beta e gama, que também produziram bons resultados de acordo com trabalhos já efetuados. Após a extração de características dos sinais EEG, procedeu-se à criação de diversos modelos de estimação da valência e ativação usando as autoavaliações dos participantes como “verdade fundamental”. O primeiro conjunto de modelos criados serviu para aferir quais os melhores métodos de aprendizagem automática a utilizar para os testes vindouros. Após escolher os dois melhores, tentámos verificar as diferenças no processamento emocional entre os sexos, realizando a estimativa em homens e mulheres separadamente. O conjunto de modelos criados a seguir visou testar o conceito da assimetria cerebral, que afirma que a valência emocional está relacionada com diferenças na atividade fisiológica entre os dois hemisférios cerebrais. Para este teste específico, foram consideradas a assimetria diferencial e racional segundo pares de elétrodos homólogos. Depois disso, foram criados modelos de estimação de valência e ativação considerando cada um dos elétrodos individualmente. Ou seja, os modelos seriam gerados com todos os métodos de extração de características, mas com os dados obtidos de um elétrodo apenas. Depois foram criados modelos que visassem comparar cada um dos algoritmos de extração de características utilizados. Os modelos gerados nesta fase incluíram os dados obtidos de todos os elétrodos, já que anteriormente se verificou que não haviam elétrodos significativamente melhores que outros. Por fim, procedeu-se à criação dos modelos com a melhor combinação de elementos possível, otimizaram-se os parâmetros dos mesmos, e procurámos também aferir a sua validação. Realizámos também um processo de classificação emocional associando cada par estimado de valores de valência e ativação ao quadrante correspondente no modelo circumplexo de afeto. Este último passo foi necessário para conseguirmos comparar o nosso trabalho com as soluções existentes, pois a grande maioria delas apenas identificam o quadrante emocional, não estimando valores para a valência e ativação. Em suma, os melhores métodos de aprendizagem automática foram RF (random forest) e KNN (k-nearest neighbours), embora a combinação dos melhores métodos de extração de características fosse diferente para os dois. KNN apresentava melhor precisão considerando todos os métodos de extração menos a entropia espectral, enquanto que RF foi mais preciso considerando apenas o primeiro parâmetro de Hjorth e a energia de wavelets. Os valores dos coeficientes de Pearson obtidos para os melhores modelos otimizados ficaram compreendidos entre 0,8 e 0,9 (sendo 1 o valor máximo). Não foram registados melhoramentos nos resultados considerando cada género individualmente, pelo que os modelos finais foram criados usando os dados de todos os participantes. É possível que a diminuição da precisão dos modelos criados para cada género seja resultado da menor quantidade de dados envolvidos no processo de treino. O conceito de assimetria cerebral só foi útil nos modelos criados usando a base de dados DEAP, especialmente para a estimação de valência usando as características extraídas segundo a banda alfa. Em geral, as nossas abordagens mostraram-se a par ou mesmo superiores a outros trabalhos, obtendo-se valores de acurácia de 86.5% para o melhor modelo de classificação gerado com a base de dados AMIGOS e 86.6% usando a base de dados DEAP.Emotion recognition is a field within affective computing that is gaining increasing relevance and strives to predict an emotional state using physiological signals. Understanding how these biological factors are expressed according to one’s emotions can enhance the humancomputer interaction (HCI). This knowledge, can then be used for clinical applications such as the identification and monitoring of psychiatric disorders. It can also be used to provide better access to multimedia content, by assigning affective tags to videos or music. The goal of this work was to create several models for estimating values of valence and arousal, using features extracted from EEG signals. The different models created were meant to compare how various elements affected the accuracy of the model created. These elements were the machine learning techniques, the gender of the individual, the brain asymmetry concept, the electrode channels, the feature extraction methods and the frequency of the brain waves analysed. The final models contained the best combination of these elements and achieved PCC values over 0.80. As a way to compare our work with previous approaches, we also implemented a classification procedure to find the correspondent quadrant in the valence and arousal space according to the circumplex model of affect. The best accuracies achieved were over 86%, which was on par or even superior to some of the works already done

    Towards soundscape fingerprinting: development, analysis and assessment of underlying acoustic dimensions to describe acoustic environments

    Get PDF
    Soundscape according to the definition in ISO 12913-1 describes an acoustic environment as perceived by humans in context. In order to be able to assess a soundscape holistically, the components acoustic environment, person and context should be described sufficiently to enable triangulation. Person-based soundscape assessment has been the subject of extensive research over the past decades to date, leading to a good understanding of the main emotional dimensions. On the acoustic side, e.g., in modeling emotional responses by acoustic features, parameters describing loudness are widely used, also from the point of view of legal regulations. These parameters are often complemented by established psychoacoustic measures. However, it is unknown to what extent these parameters are suitable to adequately describe and compare acoustic environments for hypotheses concerning humans. The presented dissertation aims to contribute to this field by means of an exploratory, empirical, and data-based approach. First, the general requirements of the aim – the description of acoustic environments – are defined and accompanied with concepts and findings from current research areas. Subsequently a methodology is developed that allows for the identification of underlying acoustic dimensions on the basis of empirical observational data of real world acoustic environments by means of multivariate statistical methods. It contains considerations on the physical sound field, the human auditory system, as well as appropriate signal processing techniques. The methodology is then applied to an exemplary extensive dataset of various Ambisonics soundscape recordings. The resulting expressions of the acoustic dimensions are evaluated and discussed with respect to plausibility and perceptual consistency. Finally, two application examples are presented to further validate the methodology and to test the applicability of acoustic dimensions in concrete research scenarios. It was found that the presented methodology is suitable to identify dimensions for the description of acoustic environments. Furthermore, the dimensions found form a suitable basis for further soundscape analyses.Soundscape (nach ISO 12913-1) beschreibt eine akustische Umgebung, wie sie von Menschen im Kontext wahrgenommen wird. Eine ganzheitliche Beurteilung einer Soundscape wird demnach durch Triangulation der Aspekte akustische Umgebung, Person und Kontext hergestellt. Die personenbezogene Bewertung von Soundscapes war und ist bis heute Gegenstand umfangreicher Forschungsarbeiten, die zu einem weitreichendem Verständnis der wichtigsten emotionalen Dimensionen geführt haben. Auf der akustischen Seite sind Parameter weit verbreitet, die die Lautstärke beschreiben. Ergänzt werden diese Parameter oft durch etablierte psychoakustische Größen. Unbekannt ist jedoch, inwieweit diese (psycho-)akustischen Parameter tatsächlich geeignet sind, Soundscapes zu beschreiben und zu vergleichen hinsichtlich den Menschen betreffender Hypothesen. Hierzu soll diese Dissertation einen Beitrag leisten. Der dabei verfolgte Ansatz ist explorativ, empirisch und datenbasiert. Zunächst werden Anforderungen an das Ziel – die Beschreibung akustischer Umgebungen – definiert und mit Konzepten aus aktuellen Forschungsgebieten ergänzt. Anschließend wird eine Methodik entwickelt, die es erlaubt, fundamentale akustische Dimensionen zu identifizieren auf der Basis empirischer Beobachtungsdaten realer akustischer Umgebungen und mit Hilfe multivariater statistischer Methoden. Sie enthält Überlegungen zum physikalischen Schallfeld, zur menschlichen Hörwahrnehmung sowie zu geeigneten Signalverarbeitungstechniken. Die Methodik wird anschließend auf einen beispielhaften Datensatz von Ambisonics Soundscape-Aufnahmen angewandt. Die resultierenden akustischen Dimensionen werden hinsichtlich ihrer Plausibilität und wahrnehmungsbezogenen Konsistenz diskutiert. Schließlich werden zwei Anwendungsbeispiele vorgestellt, um die Methodik weiter zu validieren und um die Anwendbarkeit der akustischen Dimensionen in konkreten Forschungsszenarien zu testen. Hierbei kann festgestellt werden, dass die gefundenen Dimensionen einen hohen Grad an Varianz akustischer Umgebungen erklären können und gut interpretierbar sind. Sie bilden somit eine geeignete Grundlage für die hier dargestellte Analyse von Soundscapes. Die Methodik ist dabei variabel erweiterbar, sodass vielfältige Anwendungen und Forschungsarbeiten bzgl. akustischer Umgebungen ermöglicht werden

    Detection, identification and localization of R/C electronic devices through their unintended emissions

    Get PDF
    The accurate and reliable detection of unintended emissions from radio receivers has a broad range of commercial and security applications. This thesis presents detection, identification, and localization methods for multiple RC electronic devices in a realistic environment. First, a Hurst parameter based detection method for super-regenerative receivers (SRR) has been used for detection. Hurst parameter based detection method exploits a self-similarity property of the SRR receiver emissions to distinguish it from background noise. Second paper presents a novel detection and localization scheme of multiple RC electronic devices called Edge-Synthetic Aperture Radar (Edge-SAR). It employs cost-effective, mobile antenna-array detectors. Two types of RC devices are considered: SRR with H parameter method and super heterodyne receivers (SHR) with peak detection method. Third paper improves detection of multiple devices by proposing a dynamic antenna-array processing method called VIVEK-MVDR-GA. It combines multi-constrained genetic algorithm (GA) and minimum variance distortion-less response (MVDR) method to increase accuracy of detection and localization of multiple devices. Finally, a 4-element array mounted on an unmanned aerial vehicle (UAV) is proposed to overcome multipath and reflection due to environmental surroundings and improve the response time in compromised scenarios. Also, a time based correlation method is proposed for array detectors to identify the line of sight (LOS) and non-line of sight (N-LOS) signals. A normalized error correlation function has been implemented to improve the estimation of angle of arrival (AOA) in the presence of strong non-line of sight (N-LOS) signals --Abstract, page iv
    corecore