10 research outputs found

    TRECVID 2004 - an overview

    Get PDF

    Evaluation campaigns and TRECVid

    Get PDF
    The TREC Video Retrieval Evaluation (TRECVid) is an international benchmarking activity to encourage research in video information retrieval by providing a large test collection, uniform scoring procedures, and a forum for organizations interested in comparing their results. TRECVid completed its fifth annual cycle at the end of 2005 and in 2006 TRECVid will involve almost 70 research organizations, universities and other consortia. Throughout its existence, TRECVid has benchmarked both interactive and automatic/manual searching for shots from within a video corpus, automatic detection of a variety of semantic and low-level video features, shot boundary detection and the detection of story boundaries in broadcast TV news. This paper will give an introduction to information retrieval (IR) evaluation from both a user and a system perspective, highlighting that system evaluation is by far the most prevalent type of evaluation carried out. We also include a summary of TRECVid as an example of a system evaluation benchmarking campaign and this allows us to discuss whether such campaigns are a good thing or a bad thing. There are arguments for and against these campaigns and we present some of them in the paper concluding that on balance they have had a very positive impact on research progress

    Video Shot Boundary Detection using the Scale Invariant Feature Transform and RGB Color Channels

    Get PDF
    Segmentation of the video sequence by detecting shot changes is essential for video analysis, indexing and retrieval. In this context, a shot boundary detection algorithm is proposed in this paper based on the scale invariant feature transform (SIFT). The first step of our method consists on a top down search scheme to detect the locations of transitions by comparing the ratio of matched features extracted via SIFT for every RGB channel of video frames. The overview step provides the locations of boundaries. Secondly, a moving average calculation is performed to determine the type of transition. The proposed method can be used for detecting gradual transitions and abrupt changes without requiring any training of the video content in advance. Experiments have been conducted on a multi type video database and show that this algorithm achieves well performances

    Searching for repeated video sequences

    Get PDF
    In this paper, we propose a new method to search different instances of a video sequence inside a long video and/or video collection. The proposed method is robust to view point and illumination changes which may occur since the sequences are captured in different times with different cameras, and to the differences in the order and the number of frames in the sequences which may occur due to editing. The algorithm does not require any query to be given for searching, and finds all repeating video sequences inside a long video in a fully automatic way. First, the frames in a video are ranked according to their similarity on the distribution of salient points and colour values. Then, a tree based approach is used to seek for the repetitions of a video sequence if there is any. Results are provided on a full length feature movie, Run Lola Run and on commercials of TRECVID 2004 news video corpus. Copyright 2007 ACM

    Unsupervised video indexing on audiovisual characterization of persons

    Get PDF
    Cette thÚse consiste à proposer une méthode de caractérisation non-supervisée des intervenants dans les documents audiovisuels, en exploitant des données liées à leur apparence physique et à leur voix. De maniÚre générale, les méthodes d'identification automatique, que ce soit en vidéo ou en audio, nécessitent une quantité importante de connaissances a priori sur le contenu. Dans ce travail, le but est d'étudier les deux modes de façon corrélée et d'exploiter leur propriété respective de maniÚre collaborative et robuste, afin de produire un résultat fiable aussi indépendant que possible de toute connaissance a priori. Plus particuliÚrement, nous avons étudié les caractéristiques du flux audio et nous avons proposé plusieurs méthodes pour la segmentation et le regroupement en locuteurs que nous avons évaluées dans le cadre d'une campagne d'évaluation. Ensuite, nous avons mené une étude approfondie sur les descripteurs visuels (visage, costume) qui nous ont servis à proposer de nouvelles approches pour la détection, le suivi et le regroupement des personnes. Enfin, le travail s'est focalisé sur la fusion des données audio et vidéo en proposant une approche basée sur le calcul d'une matrice de cooccurrence qui nous a permis d'établir une association entre l'index audio et l'index vidéo et d'effectuer leur correction. Nous pouvons ainsi produire un modÚle audiovisuel dynamique des intervenants.This thesis consists to propose a method for an unsupervised characterization of persons within audiovisual documents, by exploring the data related for their physical appearance and their voice. From a general manner, the automatic recognition methods, either in video or audio, need a huge amount of a priori knowledge about their content. In this work, the goal is to study the two modes in a correlated way and to explore their properties in a collaborative and robust way, in order to produce a reliable result as independent as possible from any a priori knowledge. More particularly, we have studied the characteristics of the audio stream and we have proposed many methods for speaker segmentation and clustering and that we have evaluated in a french competition. Then, we have carried a deep study on visual descriptors (face, clothing) that helped us to propose novel approches for detecting, tracking, and clustering of people within the document. Finally, the work was focused on the audiovisual fusion by proposing a method based on computing the cooccurrence matrix that allowed us to establish an association between audio and video indexes, and to correct them. That will enable us to produce a dynamic audiovisual model for each speaker

    Detection and tracking of repeated sequences in videos

    Get PDF
    Ankara : The Department of Computer Engineering and the Institute of Engineering and Science of Bilkent University, 2007.Thesis (Master's) -- Bilkent University, 2007.Includes bibliographical references leaves 87-92.In this thesis, we propose a new method to search different instances of a video sequence inside a long video. The proposed method is robust to view point and illumination changes which may occur since the sequences are captured in different times with different cameras, and to the differences in the order and the number of frames in the sequences which may occur due to editing. The algorithm does not require any query to be given for searching, and finds all repeating video sequences inside a long video in a fully automatic way. First, the frames in a video are ranked according to their similarity on the distribution of salient points and colour values. Then, a tree based approach is used to seek for the repetitions of a video sequence if there is any. These repeating sequences are pruned for more accurate results in the last step. Results are provided on two full length feature movies, Run Lola Run and Groundhog Day, on commercials of TRECVID 2004 news video corpus and on dataset created for CIVR Copy Detection Showcase 2007. In these experiments, we obtain %93 precision values for CIVR2007 Copy Detection Showcase dataset and exceed %80 precision values for other sets.Can, TolgaM.S

    Construction de mosaïques de super-résolution à partir de la vidéo de basse résolution. Application au résumé vidéo et la dissimulation d'erreurs de transmission.

    Get PDF
    La numĂ©risation des vidĂ©os existantes ainsi que le dĂ©veloppement explosif des services multimĂ©dia par des rĂ©seaux comme la diffusion de la tĂ©lĂ©vision numĂ©rique ou les communications mobiles ont produit une Ă©norme quantitĂ© de vidĂ©os compressĂ©es. Ceci nĂ©cessite des outils d’indexation et de navigation efficaces, mais une indexation avant l’encodage n’est pas habituelle. L’approche courante est le dĂ©codage complet des ces vidĂ©os pour ensuite crĂ©er des indexes. Ceci est trĂšs coĂ»teux et par consĂ©quent non rĂ©alisable en temps rĂ©el. De plus, des informations importantes comme le mouvement, perdus lors du dĂ©codage, sont reestimĂ©es bien que dĂ©jĂ  prĂ©sentes dans le flux comprimĂ©. Notre but dans cette thĂšse est donc la rĂ©utilisation des donnĂ©es dĂ©jĂ  prĂ©sents dans le flux comprimĂ© MPEG pour l’indexation et la navigation rapide. Plus prĂ©cisĂ©ment, nous extrayons des coefficients DC et des vecteurs de mouvement. Dans le cadre de cette thĂšse, nous nous sommes en particulier intĂ©ressĂ©s Ă  la construction de mosaĂŻques Ă  partir des images DC extraites des images I. Une mosaĂŻque est construite par recalage et fusion de toutes les images d’une sĂ©quence vidĂ©o dans un seul systĂšme de coordonnĂ©es. Ce dernier est en gĂ©nĂ©ral alignĂ© avec une des images de la sĂ©quence : l’image de rĂ©fĂ©rence. Il en rĂ©sulte une seule image qui donne une vue globale de la sĂ©quence. Ainsi, nous proposons dans cette thĂšse un systĂšme complet pour la construction des mosaĂŻques Ă  partir du flux MPEG-1/2 qui tient compte de diffĂ©rentes problĂšmes apparaissant dans des sĂ©quences vidĂ©o rĂ©eles, comme par exemple des objets en mouvment ou des changements d’éclairage. Une tĂąche essentielle pour la construction d’une mosaĂŻque est l’estimation de mouvement entre chaque image de la sĂ©quence et l’image de rĂ©fĂ©rence. Notre mĂ©thode se base sur une estimation robuste du mouvement global de la camĂ©ra Ă  partir des vecteurs de mouvement des images P. Cependant, le mouvement global de la camĂ©ra estimĂ© pour une image P peut ĂȘtre incorrect car il dĂ©pend fortement de la prĂ©cision des vecteurs encodĂ©s. Nous dĂ©tectons les images P concernĂ©es en tenant compte des coefficients DC de l’erreur encodĂ©e associĂ©e et proposons deux mĂ©thodes pour corriger ces mouvements. UnemosaĂŻque construite Ă  partir des images DC a une rĂ©solution trĂšs faible et souffre des effets d’aliasing dus Ă  la nature des images DC. Afin d’augmenter sa rĂ©solution et d’amĂ©liorer sa qualitĂ© visuelle, nous appliquons une mĂ©thode de super-rĂ©solution basĂ©e sur des rĂ©tro-projections itĂ©ratives. Les mĂ©thodes de super-rĂ©solution sont Ă©galement basĂ©es sur le recalage et la fusion des images d’une sĂ©quence vidĂ©o, mais sont accompagnĂ©es d’une restauration d’image. Dans ce cadre, nous avons dĂ©veloppĂ© une nouvellemĂ©thode d’estimation de flou dĂ» au mouvement de la camĂ©ra ainsi qu’une mĂ©thode correspondante de restauration spectrale. La restauration spectrale permet de traiter le flou globalement, mais, dans le cas des obvi jets ayant un mouvement indĂ©pendant du mouvement de la camĂ©ra, des flous locaux apparaissent. C’est pourquoi, nous proposons un nouvel algorithme de super-rĂ©solution dĂ©rivĂ© de la restauration spatiale itĂ©rative de Van Cittert et Jansson permettant de restaurer des flous locaux. En nous basant sur une segmentation d’objets en mouvement, nous restaurons sĂ©parĂ©ment lamosaĂŻque d’arriĂšre-plan et les objets de l’avant-plan. Nous avons adaptĂ© notre mĂ©thode d’estimation de flou en consĂ©quence. Dans une premier temps, nous avons appliquĂ© notre mĂ©thode Ă  la construction de rĂ©sumĂ© vidĂ©o avec pour l’objectif la navigation rapide par mosaĂŻques dans la vidĂ©o compressĂ©e. Puis, nous Ă©tablissions comment la rĂ©utilisation des rĂ©sultats intermĂ©diaires sert Ă  d’autres tĂąches d’indexation, notamment Ă  la dĂ©tection de changement de plan pour les images I et Ă  la caractĂ©risation dumouvement de la camĂ©ra. Enfin, nous avons explorĂ© le domaine de la rĂ©cupĂ©ration des erreurs de transmission. Notre approche consiste en construire une mosaĂŻque lors du dĂ©codage d’un plan ; en cas de perte de donnĂ©es, l’information manquante peut ĂȘtre dissimulĂ©e grace Ă  cette mosaĂŻque

    Extraction multimodale de la structure narrative des épisodes de séries télévisées

    Get PDF
    Nos contributions portent sur l'extraction de la structure narrative d'Ă©pisodes de sĂ©ries tĂ©lĂ©visĂ©es Ă  deux niveaux hiĂ©rarchiques. Le premier niveau de structuration consiste Ă  retrouver les transitions entre les scĂšnes Ă  partir d'une analyse de la couleur des images et des locuteurs prĂ©sents dans les scĂšnes. Nous montrons que l'analyse des locuteurs permet d'amĂ©liorer le rĂ©sultat d'une segmentation en scĂšnes basĂ©e sur la couleur. Il est courant de voir plusieurs histoires (ou lignes d'actions) racontĂ©es en parallĂšle dans un mĂȘme Ă©pisode de sĂ©rie tĂ©lĂ©visĂ©e. Ainsi, le deuxiĂšme niveau de structuration consiste Ă  regrouper les scĂšnes en histoires. Nous cherchons Ă  dĂ©sentrelacer les histoires pour pouvoir, par exemple, visualiser les diffĂ©rentes lignes d'actions indĂ©pendamment. La principale difficultĂ© consiste Ă  dĂ©terminer les descripteurs les plus pertinents permettant de regrouper les scĂšnes appartenant Ă  une mĂȘme histoire. A ce niveau, nous Ă©tudions Ă©galement l'utilisation de descripteurs provenant des trois modalitĂ©s diffĂ©rentes prĂ©cĂ©demment exposĂ©es. Nous proposons en outre des mĂ©thodes permettant de fusionner les informations provenant de ces trois modalitĂ©s. Pour rĂ©pondre Ă  la variabilitĂ© de la structure narrative des Ă©pisodes de sĂ©ries tĂ©lĂ©visĂ©es, nous proposons une mĂ©thode qui s'adapte Ă  chaque Ă©pisode. Elle permet de choisir automatiquement la mĂ©thode de regroupement la plus pertinente parmi les diffĂ©rentes mĂ©thodes proposĂ©es. Enfin, nous avons dĂ©veloppĂ© StoViz, un outil de visualisation de la structure d'un Ă©pisode de sĂ©rie tĂ©lĂ©visĂ©e (scĂšnes et histoires). Il permet de faciliter la navigation au sein d'un Ă©pisode, en montrant les diffĂ©rentes histoires racontĂ©es en parallĂšle dans l'Ă©pisode. Il permet Ă©galement la lecture des Ă©pisodes histoire par histoire, et la visualisation d'un court rĂ©sumĂ© de l'Ă©pisode en donnant un aperçu de chaque histoire qui y est racontĂ©e.Our contributions concern the extraction of the structure of TV series episodes at two hierarchical levels. The first level of structuring is to find the scene transitions based on the analysis of the color information and the speakers involved in the scenes. We show that the analysis of the speakers improves the result of a color-based segmentation into scenes. It is common to see several stories (or lines of action) told in parallel in a single TV series episode. Thus, the second level of structure is to cluster scenes into stories. We seek to deinterlace the stories in order to visualize the different lines of action independently. The main difficulty is to determine the most relevant descriptors for grouping scenes belonging to the same story. We explore the use of descriptors from the three different modalities described above. We also propose methods to combine these three modalities. To address the variability of the narrative structure of TV series episodes, we propose a method that adapts to each episode. It can automatically select the most relevant clustering method among the various methods we propose. Finally, we developed StoViz, a tool for visualizing the structure of a TV series episode (scenes and stories). It allows an easy browsing of each episode, revealing the different stories told in parallel. It also allows playback of episodes story by story, and visualizing a summary of the episode by providing a short overview of each story

    Comparaison des documents audiovisuels<br />par Matrice de Similarité

    Get PDF
    The work of this thesis relates to the comparison of video documents. The field of digital video is in full expansion. Videos are now present in large quantity even for personal use. The video comparison is a basic analysis operation in complement of classification, extraction and structuring of videos.Traditional approaches of comparison are primarily based on the low-level features of the videos to be compared, considered as multidimensional vectors. Other approaches are based on the similarity of frames without taking into account neither the temporal composition of the video nor the audiolayer. The main disadvantage of these methods is that they reduce the comparison role to a simple operator robust to noise effects. Such operators are generally used in order to identify the various specimens of a same document.The originality of our approach lies in the introduction of the of style similarity notion, taking as a starting point the human criteria into the comparison. These criteria are more flexible, and do not impose a strict similarity of all the studied features at the same time.We define an algorithm of extraction of the similarities between the series of values produced bythe analysis of the audiovisual low-level features. The algorithm is inspired by the dynamic programmingand the time series comparison methods.We propose a representation of the data resulting from these processings in the form of a matrixpattern suitable for the visual and immediate comparison of two videos. This matrix is then used topropose a generic similarity measure. The measure is applicable independently to videos of comparableor heterogeneous contents.We developed several applications to demonstrate the behavior of the comparison method and thesimilarity measure. The experiments concern primarily: - the identification of the structure in acollection/sub-collection of documents, - the description of stylistics elements in a movie, and - theanalysis of the grid of programs from a TV stream.Les travaux de cette thĂšse concernent la comparaison des documents vidĂ©o. Dans le domaine en pleine expansion de la vidĂ©o numĂ©rique, les documents disponibles sont maintenant prĂ©sents en quantitĂ© importante mĂȘme dans les foyers. OpĂ©ration de base de tout type d'analyse de contenus, en complĂ©ment de la classification, de l'extraction et de la structuration, la comparaison dans le domaine de l'audiovisuel est d'une utilitĂ© qui n'est pas Ă  dĂ©montrer.Des approches classiques de comparaison se basent essentiellement sur l'ensemble des caractĂ©ristiquesbas niveaux des documents Ă  comparer, en les considĂ©rant comme des vecteurs multidimensionnels. D'autres approches se basent sur la similaritĂ© des images composant la vidĂ©o sans tenir compte de la composition temporelle du document ni de la bandeson. Le dĂ©faut que l'on peut reprocher Ă  ces mĂ©thodes est qu'elles restreignent la comparaison Ă  un simple opĂ©rateur binaire robuste au bruit. De tels opĂ©rateurs sont gĂ©nĂ©ralement utilisĂ©s afin d'identifier les diffĂ©rents exemplaires d'un mĂȘme document. L'originalitĂ© de notre dĂ©marche rĂ©side dans le fait que nous introduisons la notion de la similaritĂ© de styleen s'inspirant des critĂšres humains dans la comparaison des documents vidĂ©o. Ces critĂšressont plus souples, et n'imposent pas une similaritĂ© stricte de toutes les caractĂ©ristiques Ă©tudiĂ©esĂ  la fois.En nous inspirant de la programmation dynamique et de la comparaison des sĂ©ries chronologiques, nous dĂ©finissons un algorithme d'extraction des similaritĂ©s entre les sĂ©ries de valeurs produites par l'analyse de caractĂ©ristiques audiovisuelles de bas-niveau. Ensuite, un second traitement gĂ©nĂ©rique approxime le rĂ©sultat de l'algorithme de la longueur de la PlusLongue Sous-SĂ©quence Commune (PLSC) plus rapidement que ce dernier. Nous proposons une reprĂ©sentation des donnĂ©es issues de ces traitements sous la forme d'un schĂ©ma matriciel propre Ă  la comparaison visuelle et immĂ©diate de deux contenus. Cette matrice peut ĂȘtre Ă©galement utilisĂ©e pour dĂ©finir une mesure de similaritĂ© gĂ©nĂ©rique, applicable Ă  des documents de mĂȘme genre ou de genres hĂ©tĂ©rogĂšnes.Plusieurs applications ont Ă©tĂ© mises en place pour dĂ©montrer le comportement de la mĂ©thode de comparaison et de la mesure de similaritĂ©, ainsi que leur pertinence. Les expĂ©rimentations concernent essentiellement : - l'identification d'une structure organisationnelle en collection / sous-collection d'une base de documents, - la mise en Ă©vidence d'Ă©lĂ©mentsstylistiques dans un film de cinĂ©ma, - la mise en Ă©vidence de la grille de programmes d'unflux de tĂ©lĂ©vision

    The SAMOVA Shot Boundary Detection for TRECVID Evaluation 2004

    No full text
    This paper describes the system used by the SAMOVA team (IRIT) to perform the shot boundary detection task of the TRECVID 2004 workshop. Our main algorithm is based on detection of illumination changes, as well as on the length of these transitions. The results are then refined by ckecking all the candidate transitions. We propose three versions of our application. Samova01: the simplest form, only uses illumination changes with image di#erence
    corecore