unknown

Choice and adaptation of statistical models for single channel singing voice separation

Abstract

The problem of singing voice extraction from mono audio recordings, i.e., one microphone separation of voice and music, is studied. The approach is based on a priori probabilistic models for two sources, more precisely on Gaussian Mixture Models (GMM). A method for model adaptation to the characteristics of the mixed sources is developed and a comparative study of different models and estimators is performed. We show that the adaptation of the model of music from the non-vocal parts of songs yields good results in realistic conditions.Le problème de l’extraction de la voix chantée dans des enregistrements musicaux monophoniques, c’est-à-dire la séparation voix / musique avec un seul capteur, est étudié. Les approches utilisées sont basées sur des modèles statistiques a priori des deux sources (musique et voix), notamment sur des Modèles de Mélange de Gaussiennes (MMG). Une méthode d’adaptation des modèles aux caractéristiques des sources mélangées est proposée, et une étude comparative des différents modèles et estimateurs est effectuée. Les résultats montrent que l’adaptation du modèle de musique sur les parties non-vocales des chansons permet d’obtenir de bonnes performances dans un cadre réaliste

    Similar works