27 research outputs found
Bi-class classification of humpback whale sound units against complex background noise with Deep Convolution Neural Network
Automatically detecting sound units of humpback whales in complex
time-varying background noises is a current challenge for scientists. In this
paper, we explore the applicability of Convolution Neural Network (CNN) method
for this task. In the evaluation stage, we present 6 bi-class classification
experimentations of whale sound detection against different background noise
types (e.g., rain, wind). In comparison to classical FFT-based representation
like spectrograms, we showed that the use of image-based pretrained CNN
features brought higher performance to classify whale sounds and background
noise.Comment: arXiv admin note: text overlap with arXiv:1702.02741 by other author
Codage discriminant appliqué à la reconnaissance de phonèmes
Nous proposons dans cet article une nouvelle méthode de codage appliquée à la reconnaissance de phonèmes. Le modèle en question est une extension au domaine non linéaire des méthodes de codage adaptatives habituellement utilisées en reconnaissance de la parole. Il est basé sur l'utilisation d'un réseau de neurones perceptron multicouches en prédiction. Nous montrons qu'il est possible d'introduire des informations de classe d'appartenance des signaux dès l'étape de codage, ce qui permet d'améliorer significativement les résultats en reconnaissance. Afin d'évaluer les performances du codeur NPC (Codeur Prédictif Neuronal), nous présentons une étude expérimentale à partir de phonèmes issus de la base Darpa-Ntimit. Les simulations présentées mettent en évidence une amélioration des taux de classification relativement aux codages classiques
Realisation d'une loupe par filtrage frequentiel et d'un transformateur de Fourier rapide a fonctionnement ping-pong
SIGLECNRS T Bordereau / INIST-CNRS - Institut de l'Information Scientifique et TechniqueFRFranc
Codeur neuronal prédictif (application au codage de phonèmes)
PARIS-BIUSJ-Thèses (751052125) / SudocPARIS-BIUSJ-Physique recherche (751052113) / SudocSudocFranceF
Algorithmes évolutionnistes appliqués à l'extraction de caractéristiques pour la reconnaissance du locuteur
L'étape d'extraction de caractéristiques occupe une place fondamentale dans les systèmes de reconnaissance des formes. Ces travaux de thèse portent sur l optimisation de ce module de traitement pour la tâche de reconnaissance du locuteur par Algorithmes Evolutionnistes (AEs). Nous avons évalué cette approche pour la tâche de segmentation et le regroupement du locuteur (SRL) ainsi que pour la tâche de vérification automatique du locuteur, dans le cadre des campagnes d'évaluation ESTER 2005 et Nist 2006.Les différentes études réalisées montrent que l'utilisation d'AE pour l'optimisation du module de codage permet d'améliorer les performances des systèmes. De plus ces travaux montrent qu'une amélioration significative des résultats est possible par l'utilisation de deux codeurs complémentaires. Nous avons, dans ce contexte, développé un algorithme évolutionniste permettant d'optimiser la complémentarité des extracteurs de caractéristiques.PARIS-BIUSJ-Mathématiques rech (751052111) / SudocSudocFranceF
DĂ©tection automatique de langue par discrimination d'experts
PARIS-BIUSJ-Thèses (751052125) / SudocPARIS-BIUSJ-Physique recherche (751052113) / SudocSudocFranceF
Analyse de signaux sociaux pour la modélisation de l'interaction face à face
Cette thèse se situe à la frontière des domaines de la reconnaissance de signaux émotionnels et de l'analyse de l'interaction sociale. Dans un premier temps, nous avons étudié une émotion non prototypique, appelée motherese, qui joue un rôle important dans l'interaction parent-enfant. Afin d'étudier cette émotion, nous avons développé un système de détection automatique des émotions basé d'abord sur l'apprentissage supervisé. Ensuite pour pallier au manque de données étiquetées, nous avons développé une approche semi-supervisée permettant une meilleure qualité de classification avec un coût inférieur. Cette approche permet de combiner des exemples étiquetés et non étiquetés pour l'apprentissage. Le système proposé est une extension de l'algorithme de co-apprentissage. Cette approche est dite multi-vue car elle consiste à combiner différentes vues (descripteur+classifieur) afin d'obtenir une prédiction unique par exemple de test. Au-delà de la reconnaissance de signaux émotionnels, il s'agit de structurer et d'interpréter les différents signaux de communication dans un contexte d'interaction face à face. Nous avons proposé un modèle computationnel de l'interaction parent-enfant. Il consiste à modéliser les réponses des enfants par rapport aux stimulations des parents. Nous avons proposé ainsi des analyses quantitative et statistique afin d'étudier l'interdépendance des signaux d'interaction et les comportements humains, en particulier le rôle de motherese pour l'engagement de l'interaction parent-enfant. Enfin, dans le but d identifier les groupes de comportements les plus pertinents, nous avons développé une technique de regroupement automatique de signaux qui permet d extraire les différents patterns interactifs. Cette extraction de comportements interactifs permet de discriminer différents groupes: enfants avec développement typique, autistique et avec retard mental. Mots-clés : apprentissage automatique, classification semi-supervisée, co-apprentissage, fusion, signaux émotionnels, motherese, films familiaux, interaction affectivePARIS-BIUSJ-Physique recherche (751052113) / SudocSudocFranceF
Codage neuro-prédictif pour l'extraction de caractéristiques de signaux de parole
PARIS-BIUSJ-Thèses (751052125) / SudocPARIS-BIUSJ-Mathématiques rech (751052111) / SudocSudocFranceF