53 research outputs found

    Détection de jingles dans les documents sonores

    Get PDF
    Dans cet article, une nouvelle approche relative à l'indexation de la bonde sonore de documents audiovisuels est proposée, son but est de détecter et d'identifier des sons clés (jingles). La localisation de ces unités sonores permet, par exemple, de structurer le flux sonore en émissions (programmes). Chaque jingle, d'une longueur de une à quatre secondes ici, est représenté par une suite de vecteurs spectraux que nous nommerons "signature" par la suite. La détection de candidats potentiels est effectuée en comparant la signature de chacun des jingles au flux de données. Ce calcul de dissimilarité est réalisé avec la distance Euclidienne. Des règles heuristiques (basées sur des seuils) valident (confirment ou annulent) le choix des candidats potentiels préalablement sélectionnés. Afin de vérifier la faisabilité de notre système et de valider notre approche, des expériences sont réalisées sur des émissions télévisées et radiophoniques. Le volume de données, correspondant à trois chaînes de télévision et trois stations de radio, est de l'ordre d'une dizaine d'heures. Le système est efficace car les premiers résultats sont très encourageants. En effet, nous avons reconnu 130 jingles sur 132 avec un catalogue (tableau des jingles de référence) contenant 32 sons clés

    Caractérisation de la voix chantée dans un contexte d'indexation audio

    Get PDF
    Dans un processus de classification ou d'indexation de documents audio, la première étape est souvent la segmentation du signal en composantes primaires : la plupart du temps musique et parole. Très peu de travaux ont cependant été jusqu'alors consacrés à la détection du chant, qu'il soit accompagné ou non. Nous proposons ici d'utiliser des paramètres simples (vibrato et coefficient harmonique), ainsi qu'une nouvelle segmentation du signal pour caractériser le chant. Nous fusionnons ensuite les résultats avec ceux d'une segmentation classique parole/musique. Les tests sont réalisés sur un corpus que nous avons composé nous même, de façon à avoir la plus grande diversité possible. Nous testons d'abord notre système sur une tâche d'identification, puis sur une tâche de détection. Dans les deux cas, les résultats sont satisfaisants. Notre système de classification est presque parfait, les seules erreurs sont dues à des styles musicaux anecdotiques. Pour la tâche de détection, nous avons des non-détections, mais très peu de fausses-détections

    Détection de la parole et de la musique dans les documents sonores : fusion de deux approches

    Get PDF
    Dans cet article, une segmentation de la bande sonore est effectuée en détectant les composantes parole et musique. Cette segmentation résulte de la fusion de deux approches de classification. La première, classique, est basée sur une analyse spectrale et des Modèles de Mélanges de Gaussiennes (MMG). La seconde, originale, utilise des paramètres "simples" et robustes: la modulation de l'énergie à quatre hertz, la modulation de l'entropie, la durée des segments (issus d'une segmentation automatique) et le nombre de ces segments par seconde. Notre système global se décompose en deux sous-systèmes de classification (Parole/NonParole et Musique/NonMusique). Il atteint respectivement 94 % d'accuracy pour la parole et 90 % pour la musique sachant qu'une décision est prise sur chaque seconde du signal. Il apparaît très intéressant d'améliorer un système classique, basé sur une analyse spectrale et des MMG, par des paramètres "simples" et robustes

    Automatic extraction of prosodic features for automatic language identification

    Get PDF
    The aim of this study is to propose a new approach to Automatic Language Identification: it is based on rhythmic modelling and fundamental frequency modelling and does not require any hand labelled data. First we need to investigate how prosodic or rhythmic information can be taken into account for Automatic Language Identification. A new automatically extracted unit, the pseudo syllable, is introduced. Rhythmic and intonative features are then automatically extracted from this unit. Elementary decision modules are defined with gaussian mixture models. These prosodic modellings are combined with a more classical approach, a vocalic system acoustic modelling. Experiments are conducted on the five European languages of the MULTEXT corpus: English, French, German, Italian and Spanish. The relevance of the rhythmic parameters and the efficiency of each system (rhythmic model, fundamental frequency model and vowel system model) are evaluated. The influence of these approaches on the performances of automatic language identification system is addressed. We obtain 91 % of correct identification with 21 s. utterances using all the information sources.Le but de cette étude est de proposer une nouvelle approche pour l’identification automatique des langues, basée sur une modélisation du rythme, ne nécessitant pas de données étiquetées manuellement. Il faut tout d’abord savoir comment apporter des informations sur la prosodie, le rythme pour l’identification automatique des langues. Pour répondre à cette question nous avons introduit une nouvelle unité, la pseudo-syllabe, qui est automatiquement extraite. Des paramètres rythmiques et intonatifs sont alors calculés à partir de cette unité. Des modèles élémentaires pour chaque type de paramètres sont définis en utilisant des mélanges de lois gaussiennes. Ces modélisations de la prosodie sont couplées à une approche plus classique utilisant une modélisation acoustique des systèmes vocaliques. Les expériences sont menées sur les cinq langues européennes du corpus MULTEXT. L’intérêt des paramètres rythmiques, et l’efficacité de chaque système (modèle rythmique, modèle de la fréquence fondamentale et modèle vocalique) sont évalués. L’impact de ces approches sur les performances d’identification est analysé. Nous obtenons des résultats de 91% d’identification correcte avec des fichiers de 21 secondes

    Bayesian off-line detection of multiple change-points corrupted by multiplicative noise : application to SAR image edge detection

    Get PDF
    This paper addresses the problem of Bayesian off-line change-point detection in synthetic aperture radar images. The minimum mean square error and maximum a posteriori estimators of the changepoint positions are studied. Both estimators cannot be implemented because of optimization or integration problems. A practical implementation using Markov chain Monte Carlo methods is proposed. This implementation requires a priori knowledge of the so-called hyperparameters. A hyperparameter estimation procedure is proposed that alleviates the requirement of knowing the values of the hyperparameters. Simulation results on synthetic signals and synthetic aperture radar images are presented

    A Unified Multi-Functional Dynamic Spectrum Access Framework: Tutorial, Theory and Multi-GHz Wideband Testbed

    Get PDF
    Dynamic spectrum access is a must-have ingredient for future sensors that are ideally cognitive. The goal of this paper is a tutorial treatment of wideband cognitive radio and radar—a convergence of (1) algorithms survey, (2) hardware platforms survey, (3) challenges for multi-function (radar/communications) multi-GHz front end, (4) compressed sensing for multi-GHz waveforms—revolutionary A/D, (5) machine learning for cognitive radio/radar, (6) quickest detection, and (7) overlay/underlay cognitive radio waveforms. One focus of this paper is to address the multi-GHz front end, which is the challenge for the next-generation cognitive sensors. The unifying theme of this paper is to spell out the convergence for cognitive radio, radar, and anti-jamming. Moore’s law drives the system functions into digital parts. From a system viewpoint, this paper gives the first comprehensive treatment for the functions and the challenges of this multi-function (wideband) system. This paper brings together the inter-disciplinary knowledge

    Segmentation automatique du signal de parole, sans reconnaissance

    No full text
    SIGLECNRS T 58273 / INIST-CNRS - Institut de l'Information Scientifique et TechniqueFRFranc

    Description analytique de la posture du corps humain pour l'indexation vidéo

    No full text
    TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF

    Indexation de la vidéo par le costume

    No full text
    TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF
    corecore