231 research outputs found

    Emotion Recognition based on Multimodal Information

    Attention-Inspired Artificial Neural Networks for Speech Processing: A Systematic Review

    Artificial Neural Networks (ANNs) were created inspired by the neural networks in the human brain and have been widely applied in speech processing. The application areas of ANN include: Speech recognition, speech emotion recognition, language identification, speech enhancement, and speech separation, amongst others. Likewise, given that speech processing performed by humans involves complex cognitive processes known as auditory attention, there has been a growing amount of papers proposing ANNs supported by deep learning algorithms in conjunction with some mechanism to achieve symmetry with the human attention process. However, while these ANN approaches include attention, there is no categorization of attention integrated into the deep learning algorithms and their relation with human auditory attention. Therefore, we consider it necessary to have a review of the different ANN approaches inspired in attention to show both academic and industry experts the available models for a wide variety of applications. Based on the PRISMA methodology, we present a systematic review of the literature published since 2000, in which deep learning algorithms are applied to diverse problems related to speech processing. In this paper 133 research works are selected and the following aspects are described: (i) Most relevant features, (ii) ways in which attention has been implemented, (iii) their hypothetical relationship with human attention, and (iv) the evaluation metrics used. Additionally, the four publications most related with human attention were analyzed and their strengths and weaknesses were determined

    Pattern Recognition

    Pattern recognition is a very wide research field. It involves factors as diverse as sensors, feature extraction, pattern classification, decision fusion, applications and others. The signals processed are commonly one, two or three dimensional, the processing is done in real- time or takes hours and days, some systems look for one narrow object class, others search huge databases for entries with at least a small amount of similarity. No single person can claim expertise across the whole field, which develops rapidly, updates its paradigms and comprehends several philosophical approaches. This book reflects this diversity by presenting a selection of recent developments within the area of pattern recognition and related fields. It covers theoretical advances in classification and feature extraction as well as application-oriented works. Authors of these 25 works present and advocate recent achievements of their research related to the field of pattern recognition

    Recent Advances in Signal Processing

    The signal processing task is a very critical issue in the majority of new technological inventions and challenges in a variety of applications in both science and engineering fields. Classical signal processing techniques have largely worked with mathematical models that are linear, local, stationary, and Gaussian. They have always favored closed-form tractability over real-world accuracy. These constraints were imposed by the lack of powerful computing tools. During the last few decades, signal processing theories, developments, and applications have matured rapidly and now include tools from many areas of mathematics, computer science, physics, and engineering. This book is targeted primarily toward both students and researchers who want to be exposed to a wide variety of signal processing techniques and algorithms. It includes 27 chapters that can be categorized into five different areas depending on the application at hand. These five categories are ordered to address image processing, speech processing, communication systems, time-series analysis, and educational packages respectively. The book has the advantage of providing a collection of applications that are completely independent and self-contained; thus, the interested reader can choose any chapter and skip to another without losing continuity

    Modulation spectral features for speech emotion recognition using deep neural networks

    International audienceThis work explores the use of constant-Q transform based modulation spectral features (CQT-MSF) for speech emotion recognition (SER). The human perception and analysis of sound comprise of two important cognitive parts: early auditory analysis and cortex-based processing. The early auditory analysis considers spectrogram-based representation whereas cortex-based analysis includes extraction of temporal modulations from the spectrogram. This temporal modulation representation of spectrogram is called modulation spectral feature (MSF). As the constant-Q transform (CQT) provides higher resolution at emotion salient low-frequency regions of speech, we find that CQTbased spectrogram, together with its temporal modulations, provides a representation enriched with emotion-specific information. We argue that CQT-MSF when used with a 2-dimensional convolutional network can provide a time-shift invariant and deformation insensitive representation for SER. Our results show that CQT-MSF outperforms standard mel-scale based spectrogram and its modulation features on two popular SER databases, Berlin EmoDB and RAVDESS. We also show that our proposed feature outperforms the shift and deformation invariant scattering transform coefficients, hence, showing the importance of joint hand-crafted and self-learned feature extraction instead of reliance on complete hand-crafted features. Finally, we perform Grad-CAM analysis to visually inspect the contribution of constant-Q modulation features over SER

    Reconnaissance des expressions faciales pour l’assistance ambiante

    Au cours de ces dernières décennies, le monde a connu d’importants changements démographiques et notamment au niveau de la population âgée qui a fortement augmenté. La prise d’âge a comme conséquence directe non seulement une perte progressive des facultés cognitives, mais aussi un risque plus élevé d’être atteint de maladies neurodégénératives telles qu’Alzheimer et Parkinson. La perte des facultés cognitives cause une diminution de l’autonomie et par conséquent, une assistance quotidienne doit être fournie à ces individus afin d’assurer leur bien-être. Les établissements ainsi que le personnel spécialisé censés les prendre en charge représentent un lourd fardeau pour l’économie. Pour cette raison, d’autres solutions moins coûteuses et plus optimisées doivent être proposées. Avec l’avènement des nouvelles technologies de l’information et de la communication, il est devenu de plus en plus aisé de développer des solutions permettant de fournir une assistance adéquate aux personnes souffrant de déficiences cognitives. Les maisons intelligentes représentent l’une des solutions les plus répandues. Elles exploitent différents types de capteurs pour la collecte de données, des algorithmes et méthodes d’apprentissage automatique pour l’extraction/traitement de l’information et des actionneurs pour le déclenchement d’une réponse fournissant une assistance adéquate. Parmi les différentes sources de données qui sont exploitées, les images/vidéos restent les plus riches en termes de quantité. Les données récoltées permettent non seulement la reconnaissance d’activités, mais aussi la détection d’erreur durant l’exécution de tâches/activités de la vie quotidienne. La reconnaissance automatique des émotions trouve de nombreuses applications dans notre vie quotidienne telles que l’interaction homme-machine, l’éducation, la sécurité, le divertissement, la vision robotique et l’assistance ambiante. Cependant, les émotions restent un sujet assez complexe à cerner et de nombreuses études en psychologie et sciences cognitives continuent d’être effectuées. Les résultats obtenus servent de base afin de développer des approches plus efficaces. Les émotions humaines peuvent être perçues à travers différentes modalités telle que la voix, la posture, la gestuelle et les expressions faciales. En se basant sur les travaux de Mehrabian, les expressions faciales représentent la modalité la plus pertinente pour la reconnaissance automatique des émotions. Ainsi, l’un des objectifs de ce travail de recherche consistera à proposer des méthodes permettant l’identification des six émotions de base à savoir : la joie, la peur, la colère, la surprise, le dégoût et la tristesse. Les méthodes proposées exploitent des données d’entrée statiques et dynamiques, elles se basent aussi sur différents types de descripteurs/représentations (géométrique, apparence et hybride). Après avoir évalué les performances des méthodes proposées avec des bases de données benchmark à savoir : JAFFE, KDEF, RaFD, CK+, MMI et MUG. L’objectif principal de ce travail de recherche réside dans l’utilisation des expressions faciales afin d’améliorer les performances des systèmes d’assistance existants. Ainsi, des expérimentations ont été conduites au sein de l’environnement intelligent LIARA afin de collecter des données de validation, et ce, en suivant un protocole d’expérimentation spécifique. Lors de l’exécution d’une tâche de la vie quotidienne (préparation du café), deux types de données ont été récoltés. Les données RFID ont permis de valider la méthode de reconnaissance automatique des actions utilisateurs ainsi que la détection automatique d’erreurs. Quant aux données faciales, elles ont permis d’évaluer la contribution des expressions faciales afin d’améliorer les performances du système d’assistance en termes de détection d’erreurs. Avec une réduction du taux de fausses détections dépassant les 20%, l’objectif fixé a été atteint avec succè
