18 research outputs found

    Efficient Valid Scope Computation for Location-Dependent Spatial Queries in Mobile and Wireless Environments

    Get PDF
    2008-2009 > Academic research: refereed > Refereed conference pape

    Direct Neighbor Search

    Get PDF
    In this paper we study a novel query type, called direct neighbor query. Two objects in a dataset are direct neighbors (DNs) if a window selection may exclusively retrieve these two objects. Given a source object, a DN search computes all of its direct neighbors in the dataset. The DNs define a new type of affinity that differs from existing formulations (e.g., nearest neighbors, nearest surrounders, reverse nearest neighbors, etc) and finds application in domains where user interests are expressed in the form of windows, i.e., multi-attribute range selections. Drawing on key properties of the DN relationship, we develop an I/O optimal processing algorithm for data indexed with a spatial access method. In addition to plain DN search, we also study its K-DN and all-DN variants. The former relaxes the DN condition – two objects are K-DNs if a window query may retrieve them and only up to K − 1 other objects – whereas the all-DN variant computes the DNs of every object in the dataset. Using real, large-scale data

    Towards Why-Not Spatial Keyword Top-k Queries:A Direction-Aware Approach

    Get PDF

    Recommendation Support for Multi-Attribute Databases

    Get PDF

    Modélisation des métadonnées spatio-temporelles associées aux contenus vidéos et interrogation de ces métadonnées à partir des trajectoires hybrides : application dans le contexte de la vidéosurveillance

    Get PDF
    Le nombre de caméras vidéos déployées de nos jours tant dans des contextes professionnels (e.g., dans le cadre des systèmes de vidéo surveillance urbaine) aussi bien que personnels (e.g., caméras de smartphones) augmente de façon exponentielle, générant des volumes de contenus considérables. Rendre le filtrage et la recherche de ces contenus plus efficace est une préoccupation inévitable, avec des exigences de vélocité et de mobilité des contenus liées aux nouvelles infrastuctures qui obligent à revitaliser les techniques d'indexation "classiques". Les approchent existantes pour répondre à ce besoin se focalisent sur deux axes: (1) la proposition d'outils d'analyse des contenus vidéos pour l'extraction automatique d'informations comme le contour des personnes ou la présence d'une activité "anormale"; (2) l'indexation des vidéos en utilisant des métadonnées liées aux contenus (e.g., un texte descriptif, des tags, des données de géolocalisation). Nos travaux se situent dans le second axe. Le contexte d'application de notre travail est celui des systèmes de vidéosurveillance. Notre recherche a été guidée par différents projets de recherche en collaboration avec la Police Nationale, la SNCF, la RATP et Thalès Sécurité. Dans le contexte, les systèmes visés sont caractérisés par: (1) une grande "variété" des contaxtes d'acquisition des contenus (e.g., indoor, outdoor), (2) un très grand volume de données et un manque d'accès à certains contenus, (3) la multitude des formats fermés propriétaires et l'absence de standards, qui engendre une hétérogénéité des formats des données et des métadonnées issues de tels systèmes. De ce fait, d'une part, le développement d'outils d'analyse du contenu génériques et performants dans tous les contextes est très problématique compte tenu des diversités des contextes d'acquisition, des volumes à traiter et de l'inaccessibilité directe de certianes sources. D'autre part, l'absence de métadonnées ajoutées aux vidéos (tags, commentaires) rend quasi caduque l'utilisation des approches d'indexation classique. La première contribution de ce mémoire est une conséquence directe de ce constat et consiste en un dictionnaire de métadonnées spécifique au contexte de la vidéosurveillance. Ce dictionnaire est structuré dans un format qui enrichit la norme ISO 22311 qui a comme objectif la facilitation de l'interopérabilité des systèmes de vidéosurveillance. La seconde contribution concerne la recherche et le filtrage de vidéos basés sur des métadonnées spatio-temporelles. Nous avons réalisé une étude sur le traitement actuel des requêtes dans le cadre des systèmes de vidéosurveillance qui met en évidence que le point d'entrée de toute requête est une trajectoire reconstituée à partir des positions d'une personne par exemple et d'un intervalle temporel qui est ensuite utilisée pour retrouver des extraits vidéos des caméras qui ont pu filmer une scène d'intérêt. De ce fait, la recherche de vidéos est positionnée comme un problème de modélisation des données spatio-temporelles. Dans ce cadre, nous avons proposé les éléments suivants: - une définition du concept de requête trajectoire hybride qui est constituée des segments géométriques et symboliques exprimés par rapport à des systèmes de référence différents (e.g., système géodésique, réseau routier); - un modèle de données multicouches qui intègre des données concernant: le réseau routier, le réseau de transport, le mouvement des objets et les changements de champs de vue des caméras; - des opérateurs qui, à partir d'une requête trajectoire et d'un intervalle temporel, sélectionnent les caméras fixes et mobiles dont le champ de vue est succeptible d'avoir "filmé" la trajectoire requête. Nos contributions ont été validées dans le cadre d'un prototype mettant en oeuvre ces trois aspects. Il est basé sur l'API Google Maps pour construire des requêtes hybrides et utilise des data stes fournis dans le cadre de l'open data par différentes collectivités (Transport Collectif de Toulouse). Notre travail donne lieu à des perspectives multiples qui concernent l'extension du modèle de requête de trajectoire hybride dans un environnement indoor, la participation dans un projet national de mise en place de démonstrateurs dans des situations réelles de vidéosurveillance afin de pouvoir tester le framework sur des données réelles ou le développement d'une architecture d'outil Forensic qui intègre des fonctionalités de filtrage spatio-temmporel et des modules d'analyse de contenu.The number of video cameras deployed nowadays in both professional (e.g., urban videosurveillance systems) and personal (e.g., smartphone's cameras) contexts is growing exponentially, producing some considerable volumes of data. Driving the flitering and the retrieval of this content more effective is a major concern, driven by the content mobility and velocity requirements related to the utilization of new technologies, requirements that lead to the need to revitalize the classical indexing techniques. The actual approches that aim to satisfy these requirements have a twofold orientation: (1) the proposition of video content based indexing tools that automatically extract information like a person's shape or the persence of an "abnormal" activity in the video; (2) the video indexing based on metadata like textual descriptions, tags or geolocalisation data. Our work concern this second research direction. the application context of our work is related to videosurveillance systems. Our research was guided by different research projects in collaboration with the National Police, SNCF, RATP end Thales Sécurité. In the context, the targeted systems are characterized by: (1) the big "variety" of content acquisition contexts (e.g., indoor, outdoor), (2) the big data volume and the lack of access to some content, (3) the multitude of system owners and the lack of standards, wich leads to a heterogeneity of data and metadata formats generated by videosurveillance systems. Consequently, on one hand, the developement of content based indexing tools generic and reliable in all contexts is problematic given tha acquisition contexts diversity, the content volume and the lack of direct access to certain sources. On the other hand, the lack of metadata associated to the video (tags, comments) makes the use of classical indexing approaches very difficult. The first contribution of this report is a direct consequence of this assessment and consists of a metadata dictionary specific for the videosurveillance context. This dictionary is structure in a format that enriches the ISO 22311 standard whose objective is to facilitate the interoperability of videosurveillance systems. The second contribution concerns the video filtering and retrieval. We did an analysis of the current query processing mechanism within the videosurveillance systems that highlighted the fact that the entry point of any query is a trajectory reconstituted based on a person's positions and a time interval. These elements are used to select the videos of the cameras that are likely to have filmed the scenery of interest. Consequently, the video retrieval is trated as a spatio-temporal data modelling problem. In this context, we proposed the following elements: - a definition of the hybrid trajectory query concept, trajectory that is constitued of geometrical and symbolic segments represented with regards to different reference systems (e.g., geodesic system, road network); - a multilayer data model that integrates data concerning: the road network, the transportation network, the objects movement, the cameras fields of view changes; - some operators that, based on a trajectory query and a time interval, select the fixed and mobile cameras whose field of view is likely to have filmed the query trajectory. Our contributions were validated within a prototype that implement these three elements. This prototype is based on the Google Maps API in order to build the hybrid trajectories and uses the datasets provided by the opendata projects led by different communities (Public Transportation of Toulouse). Our research contributions lead to many interesting future work perspectives like: extending the hybrid trajectory query model in a indoor environnement, joining a national project taht aims to set up some demonstrators in realistic videosurveillance contexts so that we could evaluate our framework on real data, developing a Forensic tool architecture that integrates both spatio-temporal filtering functionalities and video analysis modules

    Managing moving objects and their trajectories

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH

    Compréhension de contenus visuels par analyse conjointe du contenu et des usages

    Get PDF
    Dans cette thèse, nous traitons de la compréhension de contenus visuels, qu’il s’agisse d’images, de vidéos ou encore de contenus 3D. On entend par compréhension la capacité à inférer des informations sémantiques sur le contenu visuel. L’objectif de ce travail est d’étudier des méthodes combinant deux approches : 1) l’analyse automatique des contenus et 2) l’analyse des interactions liées à l’utilisation de ces contenus (analyse des usages, en plus bref). Dans un premier temps, nous étudions l’état de l’art issu des communautés de la vision par ordinateur et du multimédia. Il y a 20 ans, l’approche dominante visait une compréhension complètement automatique des images. Cette approche laisse aujourd’hui plus de place à différentes formes d’interventions humaines. Ces dernières peuvent se traduire par la constitution d’une base d’apprentissage annotée, par la résolution interactive de problèmes (par exemple de détection ou de segmentation) ou encore par la collecte d’informations implicites issues des usages du contenu. Il existe des liens riches et complexes entre supervision humaine d’algorithmes automatiques et adaptation des contributions humaines via la mise en œuvre d’algorithmes automatiques. Ces liens sont à l’origine de questions de recherche modernes : comment motiver des intervenants humains ? Comment concevoir des scénarii interactifs pour lesquels les interactions contribuent à comprendre le contenu manipulé ? Comment vérifier la qualité des traces collectées ? Comment agréger les données d’usage ? Comment fusionner les données d’usage avec celles, plus classiques, issues d’une analyse automatique ? Notre revue de la littérature aborde ces questions et permet de positionner les contributions de cette thèse. Celles-ci s’articulent en deux grandes parties. La première partie de nos travaux revisite la détection de régions importantes ou saillantes au travers de retours implicites d’utilisateurs qui visualisent ou acquièrent des con- tenus visuels. En 2D d’abord, plusieurs interfaces de vidéos interactives (en particulier la vidéo zoomable) sont conçues pour coordonner des analyses basées sur le contenu avec celles basées sur l’usage. On généralise ces résultats en 3D avec l’introduction d’un nouveau détecteur de régions saillantes déduit de la capture simultanée de vidéos de la même performance artistique publique (spectacles de danse, de chant etc.) par de nombreux utilisateurs. La seconde contribution de notre travail vise une compréhension sémantique d’images fixes. Nous exploitons les données récoltées à travers un jeu, Ask’nSeek, que nous avons créé. Les interactions élémentaires (comme les clics) et les données textuelles saisies par les joueurs sont, comme précédemment, rapprochées d’analyses automatiques des images. Nous montrons en particulier l’intérêt d’interactions révélatrices des relations spatiales entre différents objets détectables dans une même scène. Après la détection des objets d’intérêt dans une scène, nous abordons aussi le problème, plus ambitieux, de la segmentation. ABSTRACT : This thesis focuses on the problem of understanding visual contents, which can be images, videos or 3D contents. Understanding means that we aim at inferring semantic information about the visual content. The goal of our work is to study methods that combine two types of approaches: 1) automatic content analysis and 2) an analysis of how humans interact with the content (in other words, usage analysis). We start by reviewing the state of the art from both Computer Vision and Multimedia communities. Twenty years ago, the main approach was aiming at a fully automatic understanding of images. This approach today gives way to different forms of human intervention, whether it is through the constitution of annotated datasets, or by solving problems interactively (e.g. detection or segmentation), or by the implicit collection of information gathered from content usages. These different types of human intervention are at the heart of modern research questions: how to motivate human contributors? How to design interactive scenarii that will generate interactions that contribute to content understanding? How to check or ensure the quality of human contributions? How to aggregate human contributions? How to fuse inputs obtained from usage analysis with traditional outputs from content analysis? Our literature review addresses these questions and allows us to position the contributions of this thesis. In our first set of contributions we revisit the detection of important (or salient) regions through implicit feedback from users that either consume or produce visual contents. In 2D, we develop several interfaces of interactive video (e.g. zoomable video) in order to coordinate content analysis and usage analysis. We also generalize these results to 3D by introducing a new detector of salient regions that builds upon simultaneous video recordings of the same public artistic performance (dance show, chant, etc.) by multiple users. The second contribution of our work aims at a semantic understanding of fixed images. With this goal in mind, we use data gathered through a game, Ask’nSeek, that we created. Elementary interactions (such as clicks) together with textual input data from players are, as before, mixed with automatic analysis of images. In particular, we show the usefulness of interactions that help revealing spatial relations between different objects in a scene. After studying the problem of detecting objects on a scene, we also adress the more ambitious problem of segmentation
    corecore