34 research outputs found

    DĂ©tection de jingles dans les documents sonores

    Get PDF
    Dans cet article, une nouvelle approche relative à l'indexation de la bonde sonore de documents audiovisuels est proposée, son but est de détecter et d'identifier des sons clés (jingles). La localisation de ces unités sonores permet, par exemple, de structurer le flux sonore en émissions (programmes). Chaque jingle, d'une longueur de une à quatre secondes ici, est représenté par une suite de vecteurs spectraux que nous nommerons "signature" par la suite. La détection de candidats potentiels est effectuée en comparant la signature de chacun des jingles au flux de données. Ce calcul de dissimilarité est réalisé avec la distance Euclidienne. Des règles heuristiques (basées sur des seuils) valident (confirment ou annulent) le choix des candidats potentiels préalablement sélectionnés. Afin de vérifier la faisabilité de notre système et de valider notre approche, des expériences sont réalisées sur des émissions télévisées et radiophoniques. Le volume de données, correspondant à trois chaînes de télévision et trois stations de radio, est de l'ordre d'une dizaine d'heures. Le système est efficace car les premiers résultats sont très encourageants. En effet, nous avons reconnu 130 jingles sur 132 avec un catalogue (tableau des jingles de référence) contenant 32 sons clés

    Caractérisation de la voix chantée dans un contexte d'indexation audio

    Get PDF
    Dans un processus de classification ou d'indexation de documents audio, la première étape est souvent la segmentation du signal en composantes primaires : la plupart du temps musique et parole. Très peu de travaux ont cependant été jusqu'alors consacrés à la détection du chant, qu'il soit accompagné ou non. Nous proposons ici d'utiliser des paramètres simples (vibrato et coefficient harmonique), ainsi qu'une nouvelle segmentation du signal pour caractériser le chant. Nous fusionnons ensuite les résultats avec ceux d'une segmentation classique parole/musique. Les tests sont réalisés sur un corpus que nous avons composé nous même, de façon à avoir la plus grande diversité possible. Nous testons d'abord notre système sur une tâche d'identification, puis sur une tâche de détection. Dans les deux cas, les résultats sont satisfaisants. Notre système de classification est presque parfait, les seules erreurs sont dues à des styles musicaux anecdotiques. Pour la tâche de détection, nous avons des non-détections, mais très peu de fausses-détections

    DĂ©tection de la parole et de la musique dans les documents sonores : fusion de deux approches

    Get PDF
    Dans cet article, une segmentation de la bande sonore est effectuée en détectant les composantes parole et musique. Cette segmentation résulte de la fusion de deux approches de classification. La première, classique, est basée sur une analyse spectrale et des Modèles de Mélanges de Gaussiennes (MMG). La seconde, originale, utilise des paramètres "simples" et robustes: la modulation de l'énergie à quatre hertz, la modulation de l'entropie, la durée des segments (issus d'une segmentation automatique) et le nombre de ces segments par seconde. Notre système global se décompose en deux sous-systèmes de classification (Parole/NonParole et Musique/NonMusique). Il atteint respectivement 94 % d'accuracy pour la parole et 90 % pour la musique sachant qu'une décision est prise sur chaque seconde du signal. Il apparaît très intéressant d'améliorer un système classique, basé sur une analyse spectrale et des MMG, par des paramètres "simples" et robustes

    Description analytique de la posture du corps humain pour l'indexation vidéo

    No full text
    TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF

    Synthèse vocale de textes arabes voyellés

    No full text
    TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF

    Indexation de la vidéo par le costume

    No full text
    TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF

    Etude des segments transitoires en parole a l'aide de modèles AR evolutifs et du critere d'Akaike

    No full text
    Une segmentation automatique du signal de parole, basée sur la divergence de Kullback permet de mettre en évidence trois différents types d'unités acoustiques : • des zones quasi-stationnaires • des zones transitoires • des zones "événementielles". Alors que les premières correspondent à la réalisation de phonèmes-cibles, et les dernières sont liées à un changement brusque du système de production vocale (telles les variations de l'excitation du conduit vocal, son occlusion...), les zones transitoires sont révélatrices d'une modification articulatoire plus lente synonyme d'une évolution formantique. La reconnaissance phonétique en parole continue passe naturellement par leur détection et leur interprétation. Seule leur localisation fait l'objet de ce papier. L'étude de cette évolution nous a conduit à supposer que chaque segment non événementiel pouvait être modélisé par un modèle autorégressif gaussien satisfaisant à l'une des contraintes suivantes: • les coefficients autorégressifs sont indépendants du temps, le modèle est stationnaire et le segment est stable; • les coefficients autorégressifs dépendent du temps, le modèle est évolutif et le segment est "transitoire". La méthode consiste à identifier sur chaque segment deux modèles autorégressifs, un stationnaire et un évolutif. L'identification du modèle évolutif est effectuée à l'aide des méthodes développées par Y. Grenier à propos de modélisation de signaux non-stationnaires; le critère d'information d'Akaïke est calculé pour chaque modèle; la plus faible des deux valeurs valide l'hypothèse correspondante. Les expérimentations ont été réalisées sur des phrases phonétiquement équilibrées et différentes possibilités de mise en oeuvre ont été étudiées, notamment: • l'ordre de chaque modèle, • le nombre de fonctions sur la base considérée, • un possible fenêtrage du segment d'analyse, • l'utilisation d'un critère théoriquement plus robuste tel que celui de Rissanen. La lecture en parallèle des résultats de ces tests et des spectrogrammes montre la réelle interprétation des segments détectés évolutifs: ils correspondent aux transitoires entre phonèmes voisées, aux noyaux vocaliques durant lesquels la cible phonétique n'a pu être atteinte ou aux voyelles nasales

    Caractérisation de l'environnement musical dans les documents audiovisuels

    No full text
    TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF
    corecore