unknown

Deux niveaux et deux outils d'analyse pour une meilleure segmentation de données audio

Abstract

- Dans cet article, nous abordons le problème de la segmentation de données audio. Nous proposons un processus de segmentation à deux niveaux qui permet de diviser les pistes audio en courtes séquences qui sont étiquetées dans différentes classes. La segmentation est effectuée en calculant différentes caractéristiques pour chaque séquence audio. Ces caractéristiques sont calculées soit sur un segment audio complet, soit sur une trame (ensemble d'échantillons) qui est un sous-ensemble d'un segment audio. L'approche proposée pour la microsegmentation des données audio consiste en une combinaison d'un classifieur K-Means au niveau des segments et d'un système de chaînes de Markov cachées multidimensionnelles utilisant une décomposition du signal en trames. Une première classification est obtenue en utilisant le classifieur K-Means et les caractéristiques relatives aux segments. Le résultat final est alors fourni par l'utilisation des chaînes de Markov cachées multidimensionnelles et les caractéristiques relatives aux trames, en se basant sur les résultats intermédiaires fournis par la première étape. Les chaînes de Markov cachées multidimensionnelles sont une extension des chaînes de Markov cachées classiques qui permet la prise en compte de données multicomposantes. Elles sont particulièrement adaptées dans notre cas où chaque segment audio peut être représenté par plusieurs caractéristiques de différentes natures

    Similar works