thesis

Modélisation des métadonnées spatio-temporelles associées aux contenus vidéos et interrogation de ces métadonnées à partir des trajectoires hybrides : application dans le contexte de la vidéosurveillance

Abstract

Le nombre de caméras vidéos déployées de nos jours tant dans des contextes professionnels (e.g., dans le cadre des systèmes de vidéo surveillance urbaine) aussi bien que personnels (e.g., caméras de smartphones) augmente de façon exponentielle, générant des volumes de contenus considérables. Rendre le filtrage et la recherche de ces contenus plus efficace est une préoccupation inévitable, avec des exigences de vélocité et de mobilité des contenus liées aux nouvelles infrastuctures qui obligent à revitaliser les techniques d'indexation "classiques". Les approchent existantes pour répondre à ce besoin se focalisent sur deux axes: (1) la proposition d'outils d'analyse des contenus vidéos pour l'extraction automatique d'informations comme le contour des personnes ou la présence d'une activité "anormale"; (2) l'indexation des vidéos en utilisant des métadonnées liées aux contenus (e.g., un texte descriptif, des tags, des données de géolocalisation). Nos travaux se situent dans le second axe. Le contexte d'application de notre travail est celui des systèmes de vidéosurveillance. Notre recherche a été guidée par différents projets de recherche en collaboration avec la Police Nationale, la SNCF, la RATP et Thalès Sécurité. Dans le contexte, les systèmes visés sont caractérisés par: (1) une grande "variété" des contaxtes d'acquisition des contenus (e.g., indoor, outdoor), (2) un très grand volume de données et un manque d'accès à certains contenus, (3) la multitude des formats fermés propriétaires et l'absence de standards, qui engendre une hétérogénéité des formats des données et des métadonnées issues de tels systèmes. De ce fait, d'une part, le développement d'outils d'analyse du contenu génériques et performants dans tous les contextes est très problématique compte tenu des diversités des contextes d'acquisition, des volumes à traiter et de l'inaccessibilité directe de certianes sources. D'autre part, l'absence de métadonnées ajoutées aux vidéos (tags, commentaires) rend quasi caduque l'utilisation des approches d'indexation classique. La première contribution de ce mémoire est une conséquence directe de ce constat et consiste en un dictionnaire de métadonnées spécifique au contexte de la vidéosurveillance. Ce dictionnaire est structuré dans un format qui enrichit la norme ISO 22311 qui a comme objectif la facilitation de l'interopérabilité des systèmes de vidéosurveillance. La seconde contribution concerne la recherche et le filtrage de vidéos basés sur des métadonnées spatio-temporelles. Nous avons réalisé une étude sur le traitement actuel des requêtes dans le cadre des systèmes de vidéosurveillance qui met en évidence que le point d'entrée de toute requête est une trajectoire reconstituée à partir des positions d'une personne par exemple et d'un intervalle temporel qui est ensuite utilisée pour retrouver des extraits vidéos des caméras qui ont pu filmer une scène d'intérêt. De ce fait, la recherche de vidéos est positionnée comme un problème de modélisation des données spatio-temporelles. Dans ce cadre, nous avons proposé les éléments suivants: - une définition du concept de requête trajectoire hybride qui est constituée des segments géométriques et symboliques exprimés par rapport à des systèmes de référence différents (e.g., système géodésique, réseau routier); - un modèle de données multicouches qui intègre des données concernant: le réseau routier, le réseau de transport, le mouvement des objets et les changements de champs de vue des caméras; - des opérateurs qui, à partir d'une requête trajectoire et d'un intervalle temporel, sélectionnent les caméras fixes et mobiles dont le champ de vue est succeptible d'avoir "filmé" la trajectoire requête. Nos contributions ont été validées dans le cadre d'un prototype mettant en oeuvre ces trois aspects. Il est basé sur l'API Google Maps pour construire des requêtes hybrides et utilise des data stes fournis dans le cadre de l'open data par différentes collectivités (Transport Collectif de Toulouse). Notre travail donne lieu à des perspectives multiples qui concernent l'extension du modèle de requête de trajectoire hybride dans un environnement indoor, la participation dans un projet national de mise en place de démonstrateurs dans des situations réelles de vidéosurveillance afin de pouvoir tester le framework sur des données réelles ou le développement d'une architecture d'outil Forensic qui intègre des fonctionalités de filtrage spatio-temmporel et des modules d'analyse de contenu.The number of video cameras deployed nowadays in both professional (e.g., urban videosurveillance systems) and personal (e.g., smartphone's cameras) contexts is growing exponentially, producing some considerable volumes of data. Driving the flitering and the retrieval of this content more effective is a major concern, driven by the content mobility and velocity requirements related to the utilization of new technologies, requirements that lead to the need to revitalize the classical indexing techniques. The actual approches that aim to satisfy these requirements have a twofold orientation: (1) the proposition of video content based indexing tools that automatically extract information like a person's shape or the persence of an "abnormal" activity in the video; (2) the video indexing based on metadata like textual descriptions, tags or geolocalisation data. Our work concern this second research direction. the application context of our work is related to videosurveillance systems. Our research was guided by different research projects in collaboration with the National Police, SNCF, RATP end Thales Sécurité. In the context, the targeted systems are characterized by: (1) the big "variety" of content acquisition contexts (e.g., indoor, outdoor), (2) the big data volume and the lack of access to some content, (3) the multitude of system owners and the lack of standards, wich leads to a heterogeneity of data and metadata formats generated by videosurveillance systems. Consequently, on one hand, the developement of content based indexing tools generic and reliable in all contexts is problematic given tha acquisition contexts diversity, the content volume and the lack of direct access to certain sources. On the other hand, the lack of metadata associated to the video (tags, comments) makes the use of classical indexing approaches very difficult. The first contribution of this report is a direct consequence of this assessment and consists of a metadata dictionary specific for the videosurveillance context. This dictionary is structure in a format that enriches the ISO 22311 standard whose objective is to facilitate the interoperability of videosurveillance systems. The second contribution concerns the video filtering and retrieval. We did an analysis of the current query processing mechanism within the videosurveillance systems that highlighted the fact that the entry point of any query is a trajectory reconstituted based on a person's positions and a time interval. These elements are used to select the videos of the cameras that are likely to have filmed the scenery of interest. Consequently, the video retrieval is trated as a spatio-temporal data modelling problem. In this context, we proposed the following elements: - a definition of the hybrid trajectory query concept, trajectory that is constitued of geometrical and symbolic segments represented with regards to different reference systems (e.g., geodesic system, road network); - a multilayer data model that integrates data concerning: the road network, the transportation network, the objects movement, the cameras fields of view changes; - some operators that, based on a trajectory query and a time interval, select the fixed and mobile cameras whose field of view is likely to have filmed the query trajectory. Our contributions were validated within a prototype that implement these three elements. This prototype is based on the Google Maps API in order to build the hybrid trajectories and uses the datasets provided by the opendata projects led by different communities (Public Transportation of Toulouse). Our research contributions lead to many interesting future work perspectives like: extending the hybrid trajectory query model in a indoor environnement, joining a national project taht aims to set up some demonstrators in realistic videosurveillance contexts so that we could evaluate our framework on real data, developing a Forensic tool architecture that integrates both spatio-temporal filtering functionalities and video analysis modules

    Similar works