116 research outputs found

    Extraction multimodale de la structure narrative des épisodes de séries télévisées

    Get PDF
    Nos contributions portent sur l'extraction de la structure narrative d'épisodes de séries télévisées à deux niveaux hiérarchiques. Le premier niveau de structuration consiste à retrouver les transitions entre les scènes à partir d'une analyse de la couleur des images et des locuteurs présents dans les scènes. Nous montrons que l'analyse des locuteurs permet d'améliorer le résultat d'une segmentation en scènes basée sur la couleur. Il est courant de voir plusieurs histoires (ou lignes d'actions) racontées en parallèle dans un même épisode de série télévisée. Ainsi, le deuxième niveau de structuration consiste à regrouper les scènes en histoires. Nous cherchons à désentrelacer les histoires pour pouvoir, par exemple, visualiser les différentes lignes d'actions indépendamment. La principale difficulté consiste à déterminer les descripteurs les plus pertinents permettant de regrouper les scènes appartenant à une même histoire. A ce niveau, nous étudions également l'utilisation de descripteurs provenant des trois modalités différentes précédemment exposées. Nous proposons en outre des méthodes permettant de fusionner les informations provenant de ces trois modalités. Pour répondre à la variabilité de la structure narrative des épisodes de séries télévisées, nous proposons une méthode qui s'adapte à chaque épisode. Elle permet de choisir automatiquement la méthode de regroupement la plus pertinente parmi les différentes méthodes proposées. Enfin, nous avons développé StoViz, un outil de visualisation de la structure d'un épisode de série télévisée (scènes et histoires). Il permet de faciliter la navigation au sein d'un épisode, en montrant les différentes histoires racontées en parallèle dans l'épisode. Il permet également la lecture des épisodes histoire par histoire, et la visualisation d'un court résumé de l'épisode en donnant un aperçu de chaque histoire qui y est racontée.Our contributions concern the extraction of the structure of TV series episodes at two hierarchical levels. The first level of structuring is to find the scene transitions based on the analysis of the color information and the speakers involved in the scenes. We show that the analysis of the speakers improves the result of a color-based segmentation into scenes. It is common to see several stories (or lines of action) told in parallel in a single TV series episode. Thus, the second level of structure is to cluster scenes into stories. We seek to deinterlace the stories in order to visualize the different lines of action independently. The main difficulty is to determine the most relevant descriptors for grouping scenes belonging to the same story. We explore the use of descriptors from the three different modalities described above. We also propose methods to combine these three modalities. To address the variability of the narrative structure of TV series episodes, we propose a method that adapts to each episode. It can automatically select the most relevant clustering method among the various methods we propose. Finally, we developed StoViz, a tool for visualizing the structure of a TV series episode (scenes and stories). It allows an easy browsing of each episode, revealing the different stories told in parallel. It also allows playback of episodes story by story, and visualizing a summary of the episode by providing a short overview of each story

    Recherche du rĂ´le des intervenants et de leurs interactions pour la structuration de documents audiovisuels

    Get PDF
    Nous présentons un système de structuration automatique d'enregistrements audiovisuels s'appuyant sur des informations non lexicales caractéristiques des rôles des intervenants et de leurs interactions. Dans une première étape, nous proposons une méthode de détection et de caractérisation de séquences temporelles, nommée « zones d'interaction », susceptibles de correspondre à des conversations. La seconde étape de notre système réalise une reconnaissance du rôle des intervenants : présentateur, journaliste et autre. Notre contribution au domaine de la reconnaissance automatique du rôle se distingue en reposant sur l'hypothèse selon laquelle les rôles des intervenants sont accessibles à travers des paramètres « bas-niveau » inscrits d'une part dans l'organisation temporelle des tours de parole des intervenants, dans les environnements acoustiques dans lesquels ils apparaissent, ainsi que dans plusieurs paramètres prosodiques (intonation et débit). Dans une dernière étape, nous combinons l'information du rôle des intervenants à la connaissance des séquences d'interaction afin de produire deux niveaux de description du contenu des documents. Le premier niveau de description segmente les enregistrements en zones de 4 types : informations, entretiens, transition et intermède. Un second niveau de description classe les zones d'interaction orales en 4 catégories : débat, interview, chronique et relais. Chaque étape du système est validée par une grand nombre d'expériences menées sur le corpus du projet EPAC et celui de la campagne d'évaluation ESTER.We present a system for audiovisual document structuring, based-on speaker role recognition and speech interaction zone detection. The first stage of our system consists in an automatic method for speech interaction zones detection and characterization. Such zones correspond to temporal sequences of documents which potentially contain conversations between speakers. The second stage of our system achieves the recognition of speaker roles : anchorman, journalist and other. Our contribution to this domain is based on the hypothesis that cues about speaker roles are available through low-level features extracted from the temporal organization of turn-takings and from acoustic and prosodic features (speech rate and pitch). In the last stage of our system, we combine speaker roles and speech interaction zones to provide two descriptive layers of the audiovisual document contents. The first descriptive layer gathers segments of 4 types : informations, meeting, transition and interlude. The second descriptive layer consists in a classification of speech interaction zones into 4 categories : debate, interview, chronicle and relay. Each step of the system has been evaluated using a large number of experiments realized using the EPAC project and ESTER campaign corpora

    Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes

    Get PDF
    International audienceWhen the speech data is produced by speakers of different age and gender, the acoustic variability of any given phonetic unit becomes large, which degrades speech recognition performance. One way to go beyond conventional Hidden Markov Model is to explicitly include speaker class information in the modeling. Speaker classes can be obtained automatically, and they are used for building speaker class-specific acoustic models. This paper introduces a structuring of the Gaussian components of the GMM densities with respect to the speaker classes. In a first approach, this structuring of the Gaussian components is completed with speaker class-dependent mixture weights, and in a second approach, with transition matrices, which add dependencies between Gaussian components of mixture densities (as in stranded GMMs). The two approaches bring substantial performance improvements when recognizing adult and child speech. Using class-structured components plus mixture transition matrices reduces by more than one third the word error rate on the TIDIGIT corpus.RÉSUMÉ Lorsque l'on considère de la parole produite par des enfants et des adultes, la variabilité acous-tique de chaque unité phonétique devient grande, ce qui dégrade les performances de recon-naissance. Un moyen d'aller au-delà des modèles de Markov traditionnels, est de prendre en considération des classes de locuteurs. Les classes de locuteurs peuvent être obtenues automa-tiquement. Elles servent à fabriquer des modèles acoustiques spécifiques de chaque classe. Ce papier propose une structuration des composantes des densités multigaussiennes (GMMs) en re-lation avec des classes de locuteurs. Dans une première approche, cette structuration des densités est complétée par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs, et dans une deuxième approche, par des matrices de transition entre les composantes gaussiennes des densités (comme dans les stranded GMMs). Ces deux approches apportent des gains substantiels pour la reconnaissance de voix d'enfants et d'adultes. La structuration des composantes gaussiennes complétée par des matrices de transition entre composantes réduit de plus d'un tiers le taux d'erreur mot sur le corpus TIDIGIT

    Inférence de la grammaire structurelle d’une émission TV récurrente à partir du contenu

    Get PDF
    TV program structuring raises as a major theme in last decade for the task of high quality indexing. In this thesis, we address the problem of unsupervised TV program structuring from the point of view of grammatical inference, i.e., discovering a common structural model shared by a collection of episodes of a recurrent program. Using grammatical inference makes it possible to rely on only minimal domain knowledge. In particular, we assume no prior knowledge on the structural elements that might be present in a recurrent program and very limited knowledge on the program type, e.g., to name structural elements, apart from the recurrence. With this assumption, we propose an unsupervised framework operating in two stages. The first stage aims at determining the structural elements that are relevant to the structure of a program. We address this issue making use of the property of element repetitiveness in recurrent programs, leveraging temporal density analysis to filter out irrelevant events and determine valid elements. Having discovered structural elements, the second stage is to infer a grammar of the program. We explore two inference techniques based either on multiple sequence alignment or on uniform resampling. A model of the structure is derived from the grammars and used to predict the structure of new episodes. Evaluations are performed on a selection of four different types of recurrent programs. Focusing on structural element determination, we analyze the effect on the number of determined structural elements, fixing the threshold applied on the density function as well as the size of collection of episodes. For structural grammar inference, we discuss the quality of the grammars obtained and show that they accurately reflect the structure of the program. We also demonstrate that the models obtained by grammatical inference can accurately predict the structure of unseen episodes, conducting a quantitative and comparative evaluation of the two methods by segmenting the new episodes into their structural components. Finally, considering the limitations of our work, we discuss a number of open issues in structure discovery and propose three new research directions to address in future work.Dans cette thèse, on aborde le problème de structuration des programmes télévisés de manière non supervisée à partir du point de vue de l'inférence grammaticale, focalisant sur la découverte de la structure des programmes récurrents à partir une collection homogène. On vise à découvrir les éléments structuraux qui sont pertinents à la structure du programme, et à l’inférence grammaticale de la structure des programmes. Des expérimentations montrent que l'inférence grammaticale permet de utiliser minimum des connaissances de domaine a priori pour atteindre la découverte de la structure des programmes

    Segmentation et regroupement en chanteurs. Application aux enregistrements ethnomusicologiques

    Get PDF
    Cette thèse est réalisée dans le cadre du projet ANR CONTINT DIADEMS sur l'indexation de documents ethnomusicologiques sonores. Les données que nous traitons sont fournies par les partenaires ethnomusicologues du projet et elles sont issues des archives du Musée de l'Homme de Paris. Les travaux effectués lors de cette thèse consistent à développer des méthodes permettant de faire une structuration automatique des documents musicaux et ethnomusicologiques basée sur les personnes. Cette thèse aborde le sujet encore inexploré à notre connaissance de la segmentation et du regroupement en chanteurs dans des enregistrements musicaux. Nous proposons un système complet pour ce sujet en s'inspirant des travaux réalisés en segmentation et regroupement en locuteurs. Ce système est conçu pour fonctionner aussi bien sur des enregistrements musicaux de type studio que sur des enregistrements musicaux réalisés dans des conditions terrain. Il permet, tout d'abord, de découper les zones de chant en des segments acoustiquement homogènes, i.e. en groupe de chanteur(s) afin d'avoir une segmentation en tours de chant. Ensuite, une phase de regroupement est effectuée afin de rassembler tous les segments chantés par un même groupe de chanteur(s) dans une seule classe. Notre première contribution est la définition de la notion de " tour de chant " et la proposition de règles d'annotation manuelle d'un enregistrement en des segments de tours de chant. La deuxième est la proposition d'une méthode de paramétrisation de la voix des chanteurs en implémentant une stratégie de sélection de bandes fréquentielles pertinentes basée sur la variance de celles-ci. La troisième est l'implémentation d'un algorithme de segmentation dynamique adapté à un contexte de chant en utilisant le Critère d'Information Bayésien (BIC). La quatrième est la proposition d'une méthode de Décision par Consolidation A Posteriori, nommée DCAP, pour pallier au problème de variabilité du paramètre de pénalité du BIC. En effet, comme le choix a priori d'une valeur optimale de ce paramètre n'est pas possible, nous effectuons un vote majoritaire sur plusieurs sorties de segmentations obtenues avec différentes valeurs de ce paramètre. Des gains d'environ 8% et 15% sont obtenus sur nos deux corpus avec cette méthode par rapport à une valeur standard du paramètre de pénalité. La cinquième est l'adaptation de la méthode DCAP pour la réalisation de l'étape de regroupement en chanteurs.This work was done in the context of the ANR CONTINT DIADEMS project on indexing ethno-musicological audio recordings. The data that we are studying are provided by the Musée de l'Homme, Paris, within the context of this project. The work performed in this thesis consists of developing automatic structuring methods of musical and ethno-musicological documents based on the persons. This thesis touchs on an unexplored subject in our knowledge of the segmentation and clustering in singers of musical recordings. We propose a complete system in this subject that we called singer diarization by analogy with speaker diarization system on speech context. Indeed, this system is inspired from existing studies performed in speaker diarization and is designed to work on studio music recordings as well as on recordings with a variable sound quality (done outdoors). The first step of this system is the segmentation in singer turns which consists of segmenting musical recordings into segments "acoustically homogeneous" by singer group. The second step is the clustering which consists of labelling all segments produced by the same group of singers with a unique identifier. Our first contribution involved the definition of the term " singer turns " and the proposal of rules for manual annotation in singer turns segments. The second consisted in the proposal of a feature extraction method for the characterization of singer voices by implementing a method to select the frequency coefficients, which are the most relevant, based on the variance of these coefficients. The third is the implementation of a dynamic segmentation algorithm adapted to the singing context by using the Bayesian Information Criterion (BIC). The fourth is the proposal of a method, called DCAP, to take a posteriori decisions in order to avoid the variability problem of the BIC penalty parameter. Indeed, a priori choice of an optimal value for this parameter is not possible. This led us to perform a majority voting on a several segmentations obtained with different values of this parameter. A gain of about 8% and 15% is obtained on our two corpora with this method compared to the results found with a standard value of the penalty parameter. The fifth is the adaptation of our DCAP method in order to perform singer clustering step

    Comparaison des documents audiovisuels<br />par Matrice de Similarité

    Get PDF
    The work of this thesis relates to the comparison of video documents. The field of digital video is in full expansion. Videos are now present in large quantity even for personal use. The video comparison is a basic analysis operation in complement of classification, extraction and structuring of videos.Traditional approaches of comparison are primarily based on the low-level features of the videos to be compared, considered as multidimensional vectors. Other approaches are based on the similarity of frames without taking into account neither the temporal composition of the video nor the audiolayer. The main disadvantage of these methods is that they reduce the comparison role to a simple operator robust to noise effects. Such operators are generally used in order to identify the various specimens of a same document.The originality of our approach lies in the introduction of the of style similarity notion, taking as a starting point the human criteria into the comparison. These criteria are more flexible, and do not impose a strict similarity of all the studied features at the same time.We define an algorithm of extraction of the similarities between the series of values produced bythe analysis of the audiovisual low-level features. The algorithm is inspired by the dynamic programmingand the time series comparison methods.We propose a representation of the data resulting from these processings in the form of a matrixpattern suitable for the visual and immediate comparison of two videos. This matrix is then used topropose a generic similarity measure. The measure is applicable independently to videos of comparableor heterogeneous contents.We developed several applications to demonstrate the behavior of the comparison method and thesimilarity measure. The experiments concern primarily: - the identification of the structure in acollection/sub-collection of documents, - the description of stylistics elements in a movie, and - theanalysis of the grid of programs from a TV stream.Les travaux de cette thèse concernent la comparaison des documents vidéo. Dans le domaine en pleine expansion de la vidéo numérique, les documents disponibles sont maintenant présents en quantité importante même dans les foyers. Opération de base de tout type d'analyse de contenus, en complément de la classification, de l'extraction et de la structuration, la comparaison dans le domaine de l'audiovisuel est d'une utilité qui n'est pas à démontrer.Des approches classiques de comparaison se basent essentiellement sur l'ensemble des caractéristiquesbas niveaux des documents à comparer, en les considérant comme des vecteurs multidimensionnels. D'autres approches se basent sur la similarité des images composant la vidéo sans tenir compte de la composition temporelle du document ni de la bandeson. Le défaut que l'on peut reprocher à ces méthodes est qu'elles restreignent la comparaison à un simple opérateur binaire robuste au bruit. De tels opérateurs sont généralement utilisés afin d'identifier les différents exemplaires d'un même document. L'originalité de notre démarche réside dans le fait que nous introduisons la notion de la similarité de styleen s'inspirant des critères humains dans la comparaison des documents vidéo. Ces critèressont plus souples, et n'imposent pas une similarité stricte de toutes les caractéristiques étudiéesà la fois.En nous inspirant de la programmation dynamique et de la comparaison des séries chronologiques, nous définissons un algorithme d'extraction des similarités entre les séries de valeurs produites par l'analyse de caractéristiques audiovisuelles de bas-niveau. Ensuite, un second traitement générique approxime le résultat de l'algorithme de la longueur de la PlusLongue Sous-Séquence Commune (PLSC) plus rapidement que ce dernier. Nous proposons une représentation des données issues de ces traitements sous la forme d'un schéma matriciel propre à la comparaison visuelle et immédiate de deux contenus. Cette matrice peut être également utilisée pour définir une mesure de similarité générique, applicable à des documents de même genre ou de genres hétérogènes.Plusieurs applications ont été mises en place pour démontrer le comportement de la méthode de comparaison et de la mesure de similarité, ainsi que leur pertinence. Les expérimentations concernent essentiellement : - l'identification d'une structure organisationnelle en collection / sous-collection d'une base de documents, - la mise en évidence d'élémentsstylistiques dans un film de cinéma, - la mise en évidence de la grille de programmes d'unflux de télévision

    Spectre de rythme et sources multiples : au cœur des contenus ethnomusicologiques et sonores

    Get PDF
    Les travaux de cette thèse portent sur des méthodes permettant de retrouver automatiquement des informations dans des enregistrements sonores. Les données que nous analysons sont fournies par les archives du Musée de l’Homme de Paris : il s’agit de milliers d’heures d’enregistrements musicaux et d’interviews de 1900 à nos jours. Nous proposons deux types d’analyse conçues pour fonctionner aussi bien sûr de la musique que sur de la parole. Le premier permet d’extraire le rythme de l’enregistrement à partir de la répartition des zones stables du signal à l’aide d’un « spectre de rythme ». Le second effectue un suivi sur les fréquences les plus présentes et cherche à les regrouper par source pour détecter si plusieurs personnes ou instruments sont présents. Ces analyses peuvent permettre, entre autres, de retrouver la structure d’un chant en fonction du nombre de sources ou savoir si une personne parle, raconte, récite en encore scande en utilisant le rythme présent dans la parole.This thesis aims at designing methods to automatically extract information on sound signals. The sound archives we analyse are provided by the Musée de l’Homme of Paris : they are compounded of thousands of hours of musical recording and interviews from year 1900 to nowadays. We propose two different types of analysis designed to work on music as well as speech. The first system aims at extracting rhythm according to the repartition of stable areas of the signal using a “rhythm spectrum”. The second uses a frequency tracking of the most predominant frequencies to group them into source-related clusters to detect if different people or instruments are present. Those techniques may extract different kind of information such as structuring a song using the number of singers or automatically knowing if a record contains someone speaking, reciting or even chanting

    Ontologies, web sémantique et elearning : vers la composition automatique des objets d'apprentissage fondée sur les ontologies et les théories pédagogiques

    Get PDF
    Un des grands défis de l'apprentissage en ligne est la difficulté de composition des scénarios de formation à partir des objets d'apprentissages sémantiquement référencés pour répondre aux besoins spécifiques de formation. Un tel travail demande l'acquisition des connaissances du domaine qui repose généralement sur des experts humains du domaine et sur un processus d'explicitation de leurs connaissances. Il en est de même pour les principes devant guider la composition des scénarios afin de garantir leur qualité (valeurs pédagogiques). Répondre rapidement à ces besoins d'apprentissage par la proposition d'un contenu approprié ainsi qu'un cheminement d'apprentissage efficace et pédagogiquement valide est une nécessité, tant dans la formation classique en ligne que dans la formation en milieu industriel. L'offre d'une solution permettant d'atteindre un tel objectif contribuerait à une économie de coûts liés à la formation. Ce mémoire rend compte d'un travail visant à proposer une solution novatrice pour générer un contenu sur mesure (selon un besoin précis) et ainsi qu'un parcours pédagogiquement valide de celui-ci. La méthode s'appuie essentiellement sur une ontologie du domaine pour sélectionner les éléments de contenus appropriés (ou objets d'apprentissage) et sur un ensemble de principes pédagogiques explicites pour les structurer. Après un état de l'art conséquent qui met en perspectives l'ensemble des domaines en jeu (elearning, web sémantique et ingénierie ontologique), les standards disponibles dans le domaine du elearning pour la gestion des contenus d'apprentissage, et les problèmes de composition automatique (fondée ou non sur les ontologies) des objets d'apprentissage, une architecture générale de l'approche proposée est présentée, illustrant clairement les éléments qui soutiennent le processus de composition. Ce dernier comporte essentiellement trois (3) étapes : la sélection des ressources pertinentes, leur organisation (par la prise en compte des contraintes de référencement sémantique réalisé à partir de l'ontologie du domaine) et la scénarisation pédagogique qui prend en compte les principes de la théorie pédagogique sélectionnée. Un modèle définissant les opérateurs essentiels est proposé ainsi que des algorithmes qui implémentent les différents services. Un outil a été réalisé et testé avec des contenus d'un cours de programmation en Java.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : elearning, web sémantique, ontologies, objets d'apprentissage, théories pédagogiques, composition automatique des objets d'apprentissage

    Spectre de rythme et sources multiples : au cœur des contenus ethnomusicologiques et sonores

    Get PDF
    Les travaux de cette thèse portent sur des méthodes permettant de retrouver automatiquement des informations dans des enregistrements sonores. Les données que nous analysons sont fournies par les archives du Musée de l’Homme de Paris : il s’agit de milliers d’heures d’enregistrements musicaux et d’interviews de 1900 à nos jours. Nous proposons deux types d’analyse conçues pour fonctionner aussi bien sûr de la musique que sur de la parole. Le premier permet d’extraire le rythme de l’enregistrement à partir de la répartition des zones stables du signal à l’aide d’un « spectre de rythme ». Le second effectue un suivi sur les fréquences les plus présentes et cherche à les regrouper par source pour détecter si plusieurs personnes ou instruments sont présents. Ces analyses peuvent permettre, entre autres, de retrouver la structure d’un chant en fonction du nombre de sources ou savoir si une personne parle, raconte, récite en encore scande en utilisant le rythme présent dans la parole.This thesis aims at designing methods to automatically extract information on sound signals. The sound archives we analyse are provided by the Musée de l’Homme of Paris : they are compounded of thousands of hours of musical recording and interviews from year 1900 to nowadays. We propose two different types of analysis designed to work on music as well as speech. The first system aims at extracting rhythm according to the repartition of stable areas of the signal using a “rhythm spectrum”. The second uses a frequency tracking of the most predominant frequencies to group them into source-related clusters to detect if different people or instruments are present. Those techniques may extract different kind of information such as structuring a song using the number of singers or automatically knowing if a record contains someone speaking, reciting or even chanting
    • …
    corecore