3 research outputs found

    Unsupervised video indexing on audiovisual characterization of persons

    Get PDF
    Cette thèse consiste à proposer une méthode de caractérisation non-supervisée des intervenants dans les documents audiovisuels, en exploitant des données liées à leur apparence physique et à leur voix. De manière générale, les méthodes d'identification automatique, que ce soit en vidéo ou en audio, nécessitent une quantité importante de connaissances a priori sur le contenu. Dans ce travail, le but est d'étudier les deux modes de façon corrélée et d'exploiter leur propriété respective de manière collaborative et robuste, afin de produire un résultat fiable aussi indépendant que possible de toute connaissance a priori. Plus particulièrement, nous avons étudié les caractéristiques du flux audio et nous avons proposé plusieurs méthodes pour la segmentation et le regroupement en locuteurs que nous avons évaluées dans le cadre d'une campagne d'évaluation. Ensuite, nous avons mené une étude approfondie sur les descripteurs visuels (visage, costume) qui nous ont servis à proposer de nouvelles approches pour la détection, le suivi et le regroupement des personnes. Enfin, le travail s'est focalisé sur la fusion des données audio et vidéo en proposant une approche basée sur le calcul d'une matrice de cooccurrence qui nous a permis d'établir une association entre l'index audio et l'index vidéo et d'effectuer leur correction. Nous pouvons ainsi produire un modèle audiovisuel dynamique des intervenants.This thesis consists to propose a method for an unsupervised characterization of persons within audiovisual documents, by exploring the data related for their physical appearance and their voice. From a general manner, the automatic recognition methods, either in video or audio, need a huge amount of a priori knowledge about their content. In this work, the goal is to study the two modes in a correlated way and to explore their properties in a collaborative and robust way, in order to produce a reliable result as independent as possible from any a priori knowledge. More particularly, we have studied the characteristics of the audio stream and we have proposed many methods for speaker segmentation and clustering and that we have evaluated in a french competition. Then, we have carried a deep study on visual descriptors (face, clothing) that helped us to propose novel approches for detecting, tracking, and clustering of people within the document. Finally, the work was focused on the audiovisual fusion by proposing a method based on computing the cooccurrence matrix that allowed us to establish an association between audio and video indexes, and to correct them. That will enable us to produce a dynamic audiovisual model for each speaker

    Segmentation et regroupement en chanteurs. Application aux enregistrements ethnomusicologiques

    Get PDF
    Cette thèse est réalisée dans le cadre du projet ANR CONTINT DIADEMS sur l'indexation de documents ethnomusicologiques sonores. Les données que nous traitons sont fournies par les partenaires ethnomusicologues du projet et elles sont issues des archives du Musée de l'Homme de Paris. Les travaux effectués lors de cette thèse consistent à développer des méthodes permettant de faire une structuration automatique des documents musicaux et ethnomusicologiques basée sur les personnes. Cette thèse aborde le sujet encore inexploré à notre connaissance de la segmentation et du regroupement en chanteurs dans des enregistrements musicaux. Nous proposons un système complet pour ce sujet en s'inspirant des travaux réalisés en segmentation et regroupement en locuteurs. Ce système est conçu pour fonctionner aussi bien sur des enregistrements musicaux de type studio que sur des enregistrements musicaux réalisés dans des conditions terrain. Il permet, tout d'abord, de découper les zones de chant en des segments acoustiquement homogènes, i.e. en groupe de chanteur(s) afin d'avoir une segmentation en tours de chant. Ensuite, une phase de regroupement est effectuée afin de rassembler tous les segments chantés par un même groupe de chanteur(s) dans une seule classe. Notre première contribution est la définition de la notion de " tour de chant " et la proposition de règles d'annotation manuelle d'un enregistrement en des segments de tours de chant. La deuxième est la proposition d'une méthode de paramétrisation de la voix des chanteurs en implémentant une stratégie de sélection de bandes fréquentielles pertinentes basée sur la variance de celles-ci. La troisième est l'implémentation d'un algorithme de segmentation dynamique adapté à un contexte de chant en utilisant le Critère d'Information Bayésien (BIC). La quatrième est la proposition d'une méthode de Décision par Consolidation A Posteriori, nommée DCAP, pour pallier au problème de variabilité du paramètre de pénalité du BIC. En effet, comme le choix a priori d'une valeur optimale de ce paramètre n'est pas possible, nous effectuons un vote majoritaire sur plusieurs sorties de segmentations obtenues avec différentes valeurs de ce paramètre. Des gains d'environ 8% et 15% sont obtenus sur nos deux corpus avec cette méthode par rapport à une valeur standard du paramètre de pénalité. La cinquième est l'adaptation de la méthode DCAP pour la réalisation de l'étape de regroupement en chanteurs.This work was done in the context of the ANR CONTINT DIADEMS project on indexing ethno-musicological audio recordings. The data that we are studying are provided by the Musée de l'Homme, Paris, within the context of this project. The work performed in this thesis consists of developing automatic structuring methods of musical and ethno-musicological documents based on the persons. This thesis touchs on an unexplored subject in our knowledge of the segmentation and clustering in singers of musical recordings. We propose a complete system in this subject that we called singer diarization by analogy with speaker diarization system on speech context. Indeed, this system is inspired from existing studies performed in speaker diarization and is designed to work on studio music recordings as well as on recordings with a variable sound quality (done outdoors). The first step of this system is the segmentation in singer turns which consists of segmenting musical recordings into segments "acoustically homogeneous" by singer group. The second step is the clustering which consists of labelling all segments produced by the same group of singers with a unique identifier. Our first contribution involved the definition of the term " singer turns " and the proposal of rules for manual annotation in singer turns segments. The second consisted in the proposal of a feature extraction method for the characterization of singer voices by implementing a method to select the frequency coefficients, which are the most relevant, based on the variance of these coefficients. The third is the implementation of a dynamic segmentation algorithm adapted to the singing context by using the Bayesian Information Criterion (BIC). The fourth is the proposal of a method, called DCAP, to take a posteriori decisions in order to avoid the variability problem of the BIC penalty parameter. Indeed, a priori choice of an optimal value for this parameter is not possible. This led us to perform a majority voting on a several segmentations obtained with different values of this parameter. A gain of about 8% and 15% is obtained on our two corpora with this method compared to the results found with a standard value of the penalty parameter. The fifth is the adaptation of our DCAP method in order to perform singer clustering step

    Speaker Clustering Based on Minimum Rand Index

    No full text
    corecore