72 research outputs found

    Ré-identification de personnes : application aux réseaux de caméras à champs disjoints

    Get PDF
    Cette thèse s'inscrit dans le contexte de la vidéosurveillance "intelligente", et s'intéresse à la supervision de réseaux de caméras à champs disjoints, contrainte classique lorsque l'on souhaite limiter l'instrumentation du bâtiment. Il s'agit là de l'un des cas d'application du problème de la ré-identification de personnes. À ce titre, la thèse propose une approche se démarquant de l'état de l'art qui traite classiquement le problème sous l'aspect description, via la mise en correspondance de signatures image à image. Nous l'abordons ici sous l'aspect filtrage : comment intégrer la ré-identification de personne dans un processus de suivi multi-pistes, de manière à maintenir des identités de pistes cohérentes, malgré des discontinuités dans l'observation. Nous considérons ainsi une approche suivi et mises en correspondance, au niveau caméra et utilisons ce module pour ensuite raisonner au niveau du réseau. Nous décrivons dans un premier temps les approches classiques de ré-identification, abordées sous l'aspect description. Nous proposons ensuite un formalisme de filtrage particulaire à états continus et discret pour estimer conjointement position et identité de la cible au cours du temps, dans chacune des caméras. Un second étage de traitement permet d'intégrer la topologie du réseau et les temps d'apparition pour optimiser la ré-identification au sein du réseau. Nous démontrons la faisabilité de l'approche en grande partie sur des données issues de réseaux de caméras déployés au sein du laboratoire, étant donné le manque de données publiques concernant ce domaine. Nous prévoyons de mettre en accès public ces banques de données.This thesis deals with intelligent videosurveillance, and focus on the supervision of camera networks with nonoverlapping fields of view, a classical constraint when it comes to limitate the building instrumentation. It is one of the use-case of the pedestrian re-identification problem. On that point, the thesis distinguishes itself from state of the art methods, which treat the problem from the descriptor perspective through image to image signatures comparison. Here we consider it from a bayesian filtering perspective : how to plug re-identification in a complete multi-target tracking process, in order to maintain targets identities, in spite of observation discontinuities. Thus we consider tracking and signature comparison, at the camera level, and use that module to take decisions at the network level. We describe first the classical re-identification approaches, based on the description. Then, we propose a mixed-state particle filter framework to estimate jointly the targets positions and their identities in the cameras. A second stage of processing integrates the network topology and optimise the re-identifications in the network. Considering the lack of public data in nonoverlapping camera network, we mainly demonstrate our approach on camera networks deployed at the lab. A publication of these data is in progress

    Analyse de détections concomitantes pour l'aide à la navigation interactive dans de grandes collections de vidéos

    Get PDF
    Qu'il s'agisse de la caméra d'un smartphone ou d'une caméra de surveillance, les dispositifs d'enregistrement vidéo sont de plus en plus répandus et les quantités de vidéos disponibles ne cessent de croître. Cette surabondance de données disponibles est une épée à double tranchant : plus les vidéos de la scène dont on dispose sont nombreuses et variées, plus elles offrent une information riche et complète, mais plus elles nécessitent de temps pour être traitées. Dans de nombreuses applications, comme par exemple une enquête policière, les premières heures d’investigation sont décisives. Or la visualisation exhaustive de toutes les vidéos par un opérateur humain est une tâche pénible, peu efficace, longue et coûteuse. Cette thèse propose d'explorer plusieurs pistes dans le but d’automatiser la recherche d’information dans des vidéos. Plus précisément, nous cherchons à identifier parmi une collection de vidéos celles issues de caméras présentant un recouvrement partiel de leurs champs de vue. Pour réaliser cette tâche, nous avons également mis en oeuvre une méthode de navigation interactive entre les vidéos. Ainsi, dans ce contexte, trois contributions principales sont apportées. Tout d'abord, nous proposons une méthode permettant de déterminer quelles vidéos ont leurs champs de vue qui se recouvrent et offrent ainsi différents points de vue d'un même endroit. Pour ce faire, nous détectons la présence d'objets dans les vidéos au cours du temps, les caractérisons par une catégorie et une apparence et regroupons les vidéos qui présentent de façon concomitante des objets de même catégorie aux apparences similaires. Cependant, il arrive que des objets aient des apparences similaires bien qu'ils soient issus de paires de caméras dont les champs de vue ne se croisent pas, ce qui cause des erreurs dans les groupements de vidéos. Pour y remédier, nous proposons un mécanisme d'apprentissage actif, où le programme peut solliciter l'opérateur sur des cas difficiles pour apprendre à trouver les groupements de caméras qui présentent du recouvrement dans leurs champs de vue. Nous enrichissons également les critères employés en considérant l'arrière-plan en plus des objets apparaissant dans la vidéo. Nous montrons que les groupements de vidéos obtenus par la coopération entre l'homme et la machine sont meilleurs que ceux obtenus via notre approche précédente, entièrement automatisée. Enfin, nous proposons une méthode de navigation au sein d'un groupe de vidéos observant un même endroit. Depuis une vidéo courante, l'approche proposée permet aux utilisateurs de tracer une trajectoire requête et les redirige vers une autre vidéo dans laquelle cette trajectoire est plus longue, plus détaillée et donc mieux observable. Nous apprenons pour cela des cartes de correspondances entre régions de chaque vidéo et les utilisons pour reformuler la trajectoire tracée par l'utilisateur en son équivalent dans les autres vues. Afin de valider nos approches, nous identifions plusieurs jeux de données pertinents dans notre contexte. Cependant, le nombre de caméras dont les champs de vue se recouvrent est généralement limité. Nous proposons donc un jeu de données multivues que nous avons annoté et qui contient 25 caméras disposées sur un campus universitaire dont 19 présentent du recouvrement. Les résultats obtenus au travers de nos trois contributions sont encourageants

    Architecture logique d'un système multi agents de suivi multi caméra distribué : exploitation du modèle de croyance transférable

    Get PDF
    This thesis presents the joint use of the theory of evidence and multiple hypothesis tracking for modeling and managing a system for monitoring multiple cameras in a motorway. The tracking is based on the re-identification of objects (vehicles) on the basis of visuals and times informations. A realization of these concepts results in the design and implementation of a software architecture for multiple agents management of multiple camera tracking system. After presenting the state of the art on the frameworks of uncertainty management and that on information fusion for the matching, and the multi-agent systems, our contribution in this work is on two or three levels. The first was an adaptation of the decision phase of the transferable belief model to incorporate the use of multi-hypotheses tracking as a tool of ambiguity survey in case of indecision in matching situation. The second contribution was a proposition of agent-based software architecture for management of a multiple cameras tracking system. We have proposed the global system modeling as well as agents and their interactions modeling using a personal analysis method but nevertheless inspired by modelisation languages and tolls such as Agent UML, MaSE and others, because there is not yet a standard and normalized tool on the subject. Our third contribution was to begin an implementation of our agent-based software architecture using JADE (Java Agent Development Framework). Some experiment and discussions are presented at the end to lead to our conclusions and perspectives.Cette thèse présente l'utilisation conjointe de la théorie de l'évidente et du suivi multi-hypothèses pour la modélisation et la gestion d'un système de suivi multi-caméras dans un environnement autoroutier. Le suivi est basé sur la ré-identification des objets (véhicules) sur la base d'information visio-temporelles. Une concrétisation de ces concepts se traduit par la conception et la mise en oeuvre d'une architecture logicielle multi-agents de gestion du suivi multi-caméras. Après une présentation de l'état de l'art sur les cadres de gestion de l'incertain et celui relatif à fusion de l'information pour la mise en correspondance, et sur les systèmes multi-agents, notre apport dans ce travail se situe à trois niveaux. Le premier a été une adaptation de la phase de décision du modèle de croyance transférable pour y intégrer l'utilisation du suivi multi-hypothèses comme outil de levée d'ambigüité rn cas d'indécision face à une situation de mise en correspondance. Le second apport a été celui de proposer une architecture logicielle à base d'agents pour la gestion du système du suivi multi-caméras. Nous en avons proposé la modélisation globale ainsi que celle des agents et de leurs interactions en utilisant une démarche personnelle d'analyse mais toutefois inspirée de langages et outils de modélisation tels que Agent UML et MaSE pour ne citer que ceux-là, du fait qu'il n'existe pas réellement un standard normalisé à ce jour dans ce domaine. Notre troisième apport a été de faire un début d'implémentation de notre architecture logicielle à base d'agent en nous basant sur la plateforme JADE (Java Agent DEvelopment Framework). Quelques expérimentations et discussions des résultats sont présentées à la fin pour déboucher sur nos conclusions et perspectives

    Modélisation des métadonnées multi sources et hétérogènes pour le filtrage négatif et l'interrogation intelligente de grands volumes de données : application à la vidéosurveillance

    Get PDF
    En raison du déploiement massif et progressif des systèmes de vidéosurveillance dans les grandes métropoles, l'analyse a posteriori des vidéos issues de ces systèmes est confrontée à de nombreux problèmes parmi lesquels: (i) l'interopérabilité, due aux différents formats de données (vidéos) et aux spécifications des caméras propres à chaque système ; (ii) le grand temps d'analyse lié à l'énorme quantité de données et métadonnées générées ; et (iii) la difficulté à interpréter les vidéos qui sont parfois à caractère incomplet. Face à ces problèmes, la nécessité de proposer un format commun d'échange des données et métadonnées de vidéosurveillance, de rendre le filtrage et l'interrogation des contenus vidéo plus efficaces, et de faciliter l'interprétation des contenus grâce aux informations exogènes (contextuelles) est une préoccupation incontournable. De ce fait, cette thèse se focalise sur la modélisation des métadonnées multi sources et hétérogènes afin de proposer un filtrage négatif et une interrogation intelligente des données, applicables aux systèmes de vidéosurveillance en particulier et adaptables aux systèmes traitant de grands volumes de données en général. L'objectif dans le cadre applicatif de cette thèse est de fournir aux opérateurs humains de vidéosurveillance des outils pour les aider à réduire le grand volume de vidéo à traiter ou à visionner et implicitement le temps de recherche. Nous proposons donc dans un premier temps une méthode de filtrage dit "négatif", qui permet d'éliminer parmi la masse de vidéos disponibles celles dont on sait au préalable en se basant sur un ensemble de critères, que le traitement n'aboutira à aucun résultat. Les critères utilisés pour l'approche de filtrage négatif proposé sont basés sur une modélisation des métadonnées décrivant la qualité et l'utilisabilité/utilité des vidéos. Ensuite, nous proposons un processus d'enrichissement contextuel basé sur les métadonnées issues du contexte, et permettant une interrogation intelligente des vidéos. Le processus d'enrichissement contextuel proposé est soutenu par un modèle de métadonnées extensible qui intègre des informations contextuelles de sources variées, et un mécanisme de requêtage multiniveaux avec une capacité de raisonnement spatio-temporel robuste aux requêtes floues. Enfin, nous proposons une modélisation générique des métadonnées de vidéosurveillance intégrant les métadonnées décrivant le mouvement et le champ de vue des caméras, les métadonnées issues des algorithmes d'analyse des contenus, et les métadonnées issues des informations contextuelles, afin de compléter le dictionnaire des métadonnées de la norme ISO 22311/IEC 79 qui vise à fournir un format commun d'export des données extraites des systèmes de vidéosurveillance. Les expérimentations menées à partir du framework développé dans cette thèse ont permis de démontrer la faisabilité de notre approche dans un cas réel et de valider nos propositions.Due to the massive and progressive deployment of video surveillance systems in major cities, a posteriori analysis of videos coming from these systems is facing many problems, including the following: (i) interoperability, due to the different data (video) formats and camera specifications associated to each system; (ii) time-consuming nature of analysis due to the huge amount of data and metadata generated; and (iii) difficulty to interpret videos which are sometimes incomplete. To address these issues, the need to propose a common format to exchange video surveillance data and metadata, to make video content filtering and querying more efficient, and to facilitate the interpretation of content using external (contextual) information is an unavoidable concern. Therefore, this thesis focuses on heterogeneous and multi-source metadata modeling in order to propose negative filtering and intelligent data querying, which are applicable to video surveillance systems in particular and adaptable to systems dealing with large volumes of data in general. In the applicative context of this thesis, the goal is to provide human CCTV operators with tools that help them to reduce the large volume of video to be processed or viewed and implicitly reduce search time. We therefore initially propose a so-called "negative" filtering method, which enables the elimination from the mass of available videos those that it is know in advance, based on a set of criteria, that the processing will not lead to any result. The criteria used for the proposed negative filtering approach are based on metadata modeling describing video quality and usability/usefulness. Then, we propose a contextual enrichment process based on metadata from the context, enabling intelligent querying of the videos. The proposed contextual enrichment process is supported by a scalable metadata model that integrates contextual information from a variety of sources, and a multi-level query mechanism with a spatio-temporal reasoning ability that is robust to fuzzy queries. Finally, we propose a generic metadata modeling of video surveillance metadata integrating metadata describing the movement and field of view of cameras, metadata from content analysis algorithms, and metadata from contextual information, in order to complete the metadata dictionary of the ISO 22311/IEC 79 standard, which aims to provide a common format to export data extracted from video surveillance systems. The experiments performed using the framework developed in this thesis showed the reliability of our approach in a real case and enabled the validation of our proposals

    Capture de mouvements humains par capteurs RGB-D

    Get PDF
    L'arrivée simultanée de capteurs de profondeur et couleur, et d'algorithmes de détection de squelettes super-temps-réel a conduit à un regain de la recherche sur la capture de mouvements humains. Cette fonctionnalité constitue un point clé de la communication Homme-Machine. Mais le contexte d'application de ces dernières avancées est l'interaction volontaire et fronto-parallèle, ce qui permet certaines approximations et requiert un positionnement spécifique des capteurs. Dans cette thèse, nous présentons une approche multi-capteurs, conçue pour améliorer la robustesse et la précision du positionnement des articulations de l'homme, et fondée sur un processus de lissage trajectoriel par intégration temporelle, et le filtrage des squelettes détectés par chaque capteur. L'approche est testée sur une base de données nouvelle acquise spécifiquement, avec une méthodologie d'étalonnage adaptée spécialement. Un début d'extension à la perception jointe avec du contexte, ici des objets, est proposée.Simultaneous apparition of depth and color sensors and super-realtime skeleton detection algorithms led to a surge of new research in Human Motion Capture. This feature is a key part of Human-Machine Interaction. But the applicative context of those new technologies is voluntary, fronto-parallel interaction with the sensor, which allowed the designers certain approximations and requires a specific sensor placement. In this thesis, we present a multi-sensor approach, designed to improve robustness and accuracy of a human's joints positionning, and based on a trajectory smoothing process by temporal integration, and filtering of the skeletons detected in each sensor. The approach has been tested on a new specially constituted database, with a specifically adapted calibration methodology. We also began extending the approach to context-based improvements, with object perception being proposed

    Suivi visuel multi-cibles par partitionnement de détections (application à la construction d'albums de visages)

    Get PDF
    Ce mémoire décrit mes travaux de thèse menés au sein de l'équipe ComSee (Computers that See) rattachée à l'axe ISPR (Image, Systèmes de Perception et Robotique) de l'Institut Pascal. Celle-ci a été financée par la société Vesalis par le biais d'une convention CIFRE avec l'Institut Pascal, subventionnée par l'ANRT (Association Nationale de la Recherche et de la Technologie). Les travaux de thèse s'inscrivent dans le cadre de l'automatisation de la fouille d'archives vidéo intervenant lors d'enquêtes policières. L'application rattachée à cette thèse concerne la création automatique d'un album photo des individus apparaissant sur une séquence de vidéosurveillance. En s'appuyant sur un détecteur de visages, l'objectif est de regrouper par identité les visages détectés sur l'ensemble d'une séquence vidéo. Comme la reconnaissance faciale en environnement non-contrôlé reste difficilement exploitable, les travaux se sont orientés vers le suivi visuel multi-cibles global basé détections. Ce type de suivi est relativement récent. Il fait intervenir un détecteur d'objets et traite la vidéo dans son ensemble (en opposition au traitement séquentiel couramment utilisé). Cette problématique a été représentée par un modèle probabiliste de type Maximum A Posteriori. La recherche de ce maximum fait intervenir un algorithme de circulation de flot sur un graphe, issu de travaux antérieurs. Ceci permet l'obtention d'une solution optimale au problème (défini par l'a posteriori) du regroupement des détections pour le suivi. L'accent a particulièrement été mis sur la représentation de la similarité entre les détections qui s'intègre dans le terme de vraisemblance du modèle. Plusieurs mesures de similarités s'appuyant sur différents indices (temps, position dans l'image, apparence et mouvement local) ont été testées. Une méthode originale d'estimation de ces similarités entre les visages détectés a été développée pour fusionner les différentes informations et s'adapter à la situation rencontrée. Plusieurs expérimentations ont été menées sur des situations complexes, mais réalistes, de scènes de vidéosurveillance. Même si les qualités des albums construits ne satisfont pas encore à une utilisation pratique, le système de regroupement de détections mis en œuvre au cours de cette thèse donne déjà une première solution. Grâce au point de vue partitionnement de données adopté au cours de cette thèse, le suivi multi-cibles développé permet une extension simple à du suivi autre que celui des visages.This report describes my thesis work conducted within the ComSee (Computers That See) team related to the ISPR axis (ImageS, Perception Systems and Robotics) of Institut Pascal. It was financed by the Vesalis company via a CIFRE (Research Training in Industry Convention) agreement with Institut Pascal and publicly funded by ANRT (National Association of Research and Technology). The thesis was motivated by issues related to automation of video analysis encountered during police investigations. The theoretical research carried out in this thesis is applied to the automatic creation of a photo album summarizing people appearing in a CCTV sequence. Using a face detector, the aim is to group by identity all the faces detected throughout the whole video sequence. As the use of facial recognition techniques in unconstrained environments remains unreliable, we have focused instead on global multi-target tracking based on detections. This type of tracking is relatively recent. It involves an object detector and global processing of the video (as opposed to sequential processing commonly used). This issue has been represented by a Maximum A Posteriori probabilistic model. To find an optimal solution of Maximum A Posteriori formulation, we use a graph-based network flow approach, built upon third-party research. The study concentrates on the definition of inter-detections similarities related to the likelihood term of the model. Multiple similarity metrics based on different clues (time, position in the image, appearance and local movement) were tested. An original method to estimate these similarities was developed to merge these various clues and adjust to the encountered situation. Several experiments were done on challenging but real-world situations which may be gathered from CCTVs. Although the quality of generated albums do not yet satisfy practical use, the detections clustering system developed in this thesis provides a good initial solution. Thanks to the data clustering point of view adopted in this thesis, the proposed detection-based multi-target tracking allows easy transfer to other tracking domains.CLERMONT FD-Bib.électronique (631139902) / SudocSudocFranceF

    Positionnement robuste et précis de réseaux d’images

    Get PDF
    To compute a 3D representation of a rigid scene from a collection of pictures is now possible thanks to the progress made by the multiple-view stereovision methods, even with a simple camera. The reconstruction process, arising from photogrammetry, consists in integrating information from multiple images taken from different viewpoints in order to identify the relative positions and orientations. Once the positions and orientations (external calibration) of the cameras are retrieved, the structure of the scene can be reconstructed. To solve the problem of calculating the Structure from Motion (SfM), sequential and global methods have been proposed. By nature, sequential methods tend to accumulate errors. This is observable in trajectories of cameras that are subject to drift error. When pictures are acquired around an object it leads to reconstructions where the loops do not close. In contrast, global methods consider the network of cameras as a whole. The configuration of cameras is searched and optimized in order to preserve at best the constraints of the cyclical network. Reconstructions of better quality can be obtained, but at the expense of computation time. This thesis aims at analyzing critical issues at the heart of these methods of external calibration and at providing solutions to improve their performance(accuracy , robustness and speed) and their ease of use (restricted parametrization).We first propose a fast and efficient feature tracking algorithm. We then show that the widespread use of a contrario robust estimation of parametric models frees the user from choosing detection thresholds, and allows obtaining a reconstruction pipeline that automatically adapts to the data. Then in a second step, we use the adaptive robust estimation and a series of convex optimizations to build a scalable global calibration chain. Our experiments show that the a contrario based estimations improve significantly the quality of the pictures positions and orientations, while being automatic and without parameters, even on complex camera networks. Finally, we propose to improve the visual appearance of the reconstruction by providing a convex optimization to ensure the color consistency between imagesCalculer une représentation 3D d'une scène rigide à partir d'une collection d'images est aujourd'hui possible grâce aux progrès réalisés par les méthodes de stéréo-vision multi-vues, et ce avec un simple appareil photographique. Le principe de reconstruction, découlant de travaux de photogrammétrie, consiste à recouper les informations provenant de plusieurs images, prises de points de vue différents, pour identifier les positions et orientations relatives de chaque cliché. Une fois les positions et orientations de caméras déterminées (calibration externe), la structure de la scène peut être reconstruite. Afin de résoudre le problème de calcul de la structure à partir du mouvement des caméras (Structure-from-Motion), des méthodes séquentielles et globales ont été proposées. Par nature, les méthodes séquentielles ont tendance à accumuler les erreurs. Cela donne lieu le plus souvent à des trajectoires de caméras qui dérivent et, lorsque les photos sont acquises autour d'un objet, à des reconstructions où les boucles ne se referment pas. Au contraire, les méthodes globales considèrent le réseau de caméras dans son ensemble. La configuration de caméras est recherchée et optimisée pour conserver au mieux l'ensemble des contraintes de cyclicité du réseau. Des reconstructions de meilleure qualité peuvent être obtenues, au détriment toutefois du temps de calcul. Cette thèse propose d'analyser des problèmes critiques au cœur de ces méthodes de calibration externe et de fournir des solutions pour améliorer leur performance (précision, robustesse, vitesse) et leur facilité d'utilisation (paramétrisation restreinte).Nous proposons tout d'abord un algorithme de suivi de points rapide et efficace. Nous montrons ensuite que l'utilisation généralisée de l'estimation robuste de modèles paramétriques a contrario permet de libérer l'utilisateur du réglage de seuils de détection, et d'obtenir une chaine de reconstruction qui s'adapte automatiquement aux données. Puis dans un second temps, nous utilisons ces estimations robustes adaptatives et une formulation du problème qui permet des optimisations convexes pour construire une chaine de calibration globale capable de passer à l'échelle. Nos expériences démontrent que les estimations identifiées a contrario améliorent de manière notable la qualité d'estimation de la position et de l'orientation des clichés, tout en étant automatiques et sans paramètres, et ce même sur des réseaux de caméras complexes. Nous proposons enfin d'améliorer le rendu visuel des reconstructions en proposant une optimisation convexe de la consistance colorée entre image

    Analyse et classification des signatures des véhicules provenant de capteurs magnétiques pour le développement des algorithmes « Intelligents » de gestion du trafic

    Get PDF
    Road traffic is at the heart of concerns for society due to issues of spatial development, mobility, the fight for better road safety or, more recently, environmentally friendly considerations. Observation and knowledge of travel patterns can partly help to answer these concerns. The development of a way to measure individual journeys can be achieved using vehicle tracking. To be able to anonymously track vehicles, magnetic sensors are chosen rather than the main traffic sensors. After a preliminary study of the physical properties of both the inductive loop and magnetometer, three steps in the monitoring process (detection, pre-processing and re-identification) are developed. Firstly, a state machine is provided to improve vehicle detection using a magnetometer. Then, two new pre-processing steps are available. The first concerns the use of a novel method of blind deconvolution for the "inductive loop" sensor. The second concerns the selection of characterizing variables by principal component analysis.Subsequently, the SVM method is adapted for the re-identification of vehicles. A unanimous voting process on either fuzzy logic, a Bayesian approach or similarity measurement is offered and compared in relation to the use of a decision threshold. A new independent predictor of traffic modelling is available to evaluate this reidentification. Finally, all the suggestions are evaluated during different experiments with the goal of obtaining individual travel time measurements or estimates of the origin – destination matrix.La circulation routière est au coeur des préoccupations de la société au travers des problématiques d’aménagement du territoire, de mobilité, de lutte contre l’insécurité routière, ou plus récemment de lutte contre la pollution. La connaissance des déplacements des véhicules permet de répondre en partie à ces préoccupations. Le développement de la mesure des déplacements individuels des véhicules peut être réalisé par le suivi des véhicules. Pour réaliser le suivi anonyme des véhicules, le choix des capteurs magnétiques est appréhendé au regard des principaux capteurs de trafic. Après une étude sur les propriétés physiques de la boucle inductive et du magnétomètre, les trois étapes (détection, rétraitement et réidentification) du processus de suivi sont développées. Tout d’abord, un automate d’état est proposé pour améliorer la détection de véhicules par magnétomètre. Ensuite, des prétraitements sont proposés. Le premier concerne la proposition d’une méthode de déconvolution aveugle pour le capteur « boucle inductive ». Le deuxième se situe sur la sélection des variables saillantes par analyse en composantes principales.Par la suite, la méthode SVM est adaptée à la réidentification de véhicules. Un processus de vote à l’unanimité des méthodes logique floue, approche bayésienne et mesures de similarités est proposé et comparé par rapport à l’utilisation d’un seuil de décision. Un nouvel indicateur indépendant de la modélisation du trafic est proposé pour évaluer la réidentification. Enfin, l’ensemble des propositions est évalué lors de différentes expérimentations avec pour objectif de mesurer les temps de parcours individuels ou d’estimer les matrices origine – destination

    Détection automatique de chutes de personnes basée sur des descripteurs spatio-temporels (définition de la méthode, évaluation des performances et implantation temps-réel)

    Get PDF
    Nous proposons une méthode supervisée de détection de chutes de personnes en temps réel, robusteaux changements de point de vue et d environnement. La première partie consiste à rendredisponible en ligne une base de vidéos DSFD enregistrées dans quatre lieux différents et qui comporteun grand nombre d annotations manuelles propices aux comparaisons de méthodes. Nousavons aussi défini une métrique d évaluation qui permet d évaluer la méthode en s adaptant à la naturedu flux vidéo et la durée d une chute, et en tenant compte des contraintes temps réel. Dans unsecond temps, nous avons procédé à la construction et l évaluation des descripteurs spatio-temporelsSTHF, calculés à partir des attributs géométriques de la forme en mouvement dans la scène ainsique leurs transformations, pour définir le descripteur optimisé de chute après une méthode de sélectiond attributs. La robustesse aux changements d environnement a été évaluée en utilisant les SVMet le Boosting. On parvient à améliorer les performances par la mise à jour de l apprentissage parl intégration des vidéos sans chutes enregistrées dans l environnement définitif. Enfin, nous avonsréalisé, une implantation de ce détecteur sur un système embarqué assimilable à une caméra intelligentebasée sur un composant SoC de type Zynq. Une démarche de type Adéquation AlgorithmeArchitecture a permis d obtenir un bon compromis performance de classification/temps de traitementWe propose a supervised approach to detect falls in home environment adapted to location andpoint of view changes. First, we maid publicly available a realistic dataset, acquired in four differentlocations, containing a large number of manual annotation suitable for methods comparison. We alsodefined a new metric, adapted to real-time tasks, allowing to evaluate fall detection performance ina continuous video stream. Then, we build the initial spatio-temporal descriptor named STHF usingseveral combinations of transformations of geometrical features and an automatically optimised setof spatio-temporal descriptors thanks to an automatic feature selection step. We propose a realisticand pragmatic protocol which enables performance to be improved by updating the training in thecurrent location with normal activities records. Finally, we implemented the fall detection in Zynqbasedhardware platform similar to smart camera. An Algorithm-Architecture Adequacy step allowsa good trade-off between performance of classification and processing timeDIJON-BU Doc.électronique (212319901) / SudocSudocFranceF
    corecore