4 research outputs found

    Retrieving spectra from a moving imaging Fourier transform spectrometer

    Get PDF
    Afin d’obtenir un spectre de haute résolution avec un spectromètre-imageur par transformation de Fourier (IFTS), il est nécessaire que la scène demeure statique pendant l’acquisition. Dans de nombreux cas, cette hypothèse ne peut pas être respecter simplement à cause de la présente d’un mouvement relatif entre la scène et l’instrument pendant l’acquisition. À cause de ce mouvement relatif, les échantillons obtenus à un pixel capturent différentes régions de la scène observée. Dans le meilleurs des cas, le spectre obtenu de ces échantillons sera peu précis et aura une faible résolution. Après une brève description des IFTS, nous présentons des algorithmes de d’estimation du mouvement pour recaler les trames des cubes de données acquises avec un IFTS, et desquelles il sera ensuite possible d’obtenir des spectres avec une précision et une résolution élevées. Nous utilisons des algorithmes d’estimation du mouvement qui sont robustes aux variations d’illumination, ce qui les rend appropriés pour traiter des interferogrammes. Deux scénarios sont étudiés. Pour le premier, nous observons un mouvement relatif unique entre la scène qui est imagée et l’instrument. Pour le second, plusieurs cibles d’intérêts se déplacent dans des directions différentes à l’intérieur de la scène imagée. Après le recalage des trames, nous devons ensuite résoudre un nouveau problème lié à la correction de l’effet hors-axe. Les échantillons qui sont associés à un interférogramme ont été acquis par différents pixels du senseur et leurs paramètres hors-axe sont donc différents. Nous proposons un algorithme de rééchantillonnage qui tient compte de la variation des paramètres de l’effet hors-axe. Finalement, la calibration des données obtenues avec un IFTS lorsque la scène imagée varie dans le temps est traitée dans la dernière partie de la thèse. Nous y proposons un algorithme de calibration apropriée des trames, qui précède le recalage des trames et la correction de l’effet hors-axe. Cette chaine de traitement nous permet d’obtenir des spectres avec une résolution élevée. Les algorithmes proposés ont été testés sur des données expérimentales et d’autres provenant d’un simulateur. La comparaison des résultats obtenus avec la réalité-terrain démontre la valeur de nos algorithmes: nous pouvons obtenir des spectres avec une résolution comparable à celle qui peut être obtenue lorsqu’il n’y aucun mouvement entre l’instrument (IFTS) et la scène qui est imagée.To obtain a useful or high resolution spectrum from an Imaging Fourier Transform Spectrometer (IFTS), the scene must be stationary for the duration of the scan. This condition is hard to achieve in many cases due to the relative motion between the instrument and the scene during the scan. This relative motion results in multiple data samples at a given pixel being taken from different sub-areas of the scene, and from which (at best) spectra with low accuracy and resolution can be computed. After a review of IFTS, we present motion estimation algorithms to register the frames of data cubes acquired with a moving IFTS, and from which high accuracy and resolution spectra can be retrieved. We use motion estimation algorithms robust to illumination variations, which are suitable for interferograms. Two scenarios are examined. In the first, there is a global motion between the IFTS and the target. In the second, there are multiple targets moving in different directions in the field of view of the IFTS. After motion compensation, we face an off-axis correction problem. The samples placed on the motion corrected optical path difference (OPD) are coming from different spatial locations of the sensor. As a consequence, each sample does not have the same off-axis distortion. We propose a resampling algorithm to address this issue. Finally the calibration problem in the case of moving IFTS is addressed in the last part of the thesis. A calibration algorithm suitable for data cube of moving IFTS is proposed and discussed. We then register the frames and perform the off-axis correction to obtain high resolution spectra. To verify our results, we apply the algorithms on simulated and experimental data. The comparison between the results with the ground-truth shows promising performance. We obtain spectra with resolution similar to the ground truth spectra (i.e., with data acquired when the IFTS and the scene are stationary)

    Recalage automatique de séquences vidéo infrarouge et visible basé sur les trajectoires des objets en mouvement

    Get PDF
    RÉSUMÉ Le projet présenté dans ce document porte sur une nouvelle méthode pour effectuer le recalage entre deux séquences vidéo de spectres différents soit l’une du spectre visible et l’autre du spectre infrarouge. Un recalage consiste à retrouver la matrice de transformation qui permet de passer d’un référentiel à un autre. Dans ce projet en particulier, il s’agit de trouver la matrice de transformation affine qui permet de passer du référentiel de la caméra infrarouge à celui de la caméra couleur. Ce recalage est effectué pour chaque trame. Pour y arriver, la méthode proposée se base sur les trajectoires des objets en mouvement ainsi que sur des combinaisons d’images d’avantplan en recouvrement. Plusieurs méthodes de recalage multispectral ont été proposées dans la littérature. Cependant, il n’est pas toujours possible d’appliquer ces techniques dans le cas spécifique d’un recalage entre des images couleur et infrarouge. Il existe cependant une méthode qui semble avoir un bon potentiel. Il s’agit de la méthode de Caspi, Simakov, & Irani (2006). Cette méthode utilise uniquement les trajectoires des objets en mouvement pour retrouver la matrice de transformation entre les deux caméras. Cet article fut la principale source d’inspiration de ce mémoire.----------ABSTRACT This project is about a new registration method between a color video and an infrared video. Registration is to find the transformation matrix from which you can pass from one set of coordinates to another, for example, between two cameras. In this project, this transformation matrix is an affine transformation matrix. This registration is done frame by frame. It uses two kinds of information: the trajectories of moving objects and an overlapped picture made from combinations of foreground pictures. Multiple multispectral registration methods were found in the literature but not all of these methods can be used for the specific case of an infrared-color registration. Even so, a specific method (Caspi et al., 2006) seems promising to achieve this kind of registration. This method uses only trajectories of moving objects to find the transformation matrix. This article is the principal inspiration of this work

    Video Registration for Multimodal Surveillance Systems

    Get PDF
    RÉSUMÉ Au cours de la dernière décennie, la conception et le déploiement de systèmes de surveillance par caméras thermiques et visibles pour l'analyse des activités humaines a retenu l'attention de la communauté de la vision par ordinateur. Les applications de l'imagerie thermique-visible pour l'analyse des activités humaines couvrent différents domaines, notamment la médecine, la sécurité à bord d'un véhicule et la sécurité des personnes. La motivation derrière un tel système est l'amélioration de la qualité des données dans le but ultime d'améliorer la performance du système de surveillance. Une difficulté fondamentale associée à un système d'imagerie thermique-visible est la mise en registre précise de caractéristiques et d'informations correspondantes à partir d'images avec des différences significatives dans les propriétés des signaux. Dans un cas, on capte des informations de couleur (lumière réfléchie) et dans l'autre cas, on capte la signature thermique (énergie émise). Ce problème est appelé mise en registre d'images et de séquences vidéo. La vidéosurveillance est l'un des domaines d'application le plus étendu de l'imagerie multi-spectrale. La vidéosurveillance automatique dans un environnement réel, que ce soit à l'intérieur ou à l'extérieur, est difficile en raison d'un nombre élevé de facteurs environnementaux tels que les variations d'éclairage, le vent, le brouillard, et les ombres. L'utilisation conjointe de différentes modalités permet d'augmenter la fiabilité des données d'entrée, et de révéler certaines informations sur la scène qui ne sont pas perceptibles par un système d'imagerie unimodal. Les premiers systèmes multimodaux de vidéosurveillance ont été conçus principalement pour des applications militaires. Mais de nos jours, en raison de la réduction du prix des caméras thermiques, ce sujet de recherche s'étend à des applications civiles ayant une variété d'objectifs. Les approches pour la mise en registre d'images pour un système multimodal de vidéosurveillance automatique sont divisées en deux catégories fondées sur la dimension de la scène: les approches qui sont appropriées pour des grandes scènes où les objets sont lointains, et les approches qui conviennent à de petites scènes où les objets sont près des caméras. Dans la littérature, ce sujet de recherche n'est pas bien documenté, en particulier pour le cas de petites scènes avec objets proches. Notre recherche est axée sur la conception de nouvelles solutions de mise en registre pour les deux catégories de scènes dans lesquels il y a plusieurs humains. Les solutions proposées sont incluses dans les quatre articles qui composent cette thèse. Nos méthodes de mise en registre sont des prétraitements pour d'autres tâches d'analyse vidéo telles que le suivi, la localisation de l'humain, l'analyse de comportements, et la catégorisation d'objets. Pour les scènes avec des objets lointains, nous proposons un système itératif qui fait de façon simultanée la mise en registre thermique-visible, la fusion des données et le suivi des personnes. Notre méthode de mise en registre est basée sur une mise en correspondance de trajectoires (en utilisant RANSAC) à partir desquelles on estime une matrice de transformation affine pour transformer globalement des objets d'avant-plan d'une image sur l'autre image. Notre système proposé de vidéosurveillance multimodale est basé sur un nouveau mécanisme de rétroaction entre la mise en registre et le module de suivi, ce qui augmente les performances des deux modules de manière itérative au fil du temps. Nos méthodes sont conçues pour des applications en ligne et aucune calibration des caméras ou de configurations particulières ne sont requises. Pour les petites scènes avec des objets proches, nous introduisons le descripteur Local Self-Similarity (LSS), comme une mesure de similarité viable pour mettre en correspondance les régions du corps humain dans des images thermiques et visibles. Nous avons également démontré théoriquement et quantitativement que LSS, comme mesure de similarité thermique-visible, est plus robuste aux différences entre les textures des régions correspondantes que l'information mutuelle (IM), qui est la mesure de similarité classique pour les applications multimodales. D'autres descripteurs viables, y compris Histogram Of Gradient (HOG), Scale Invariant Feature Transform (SIFT), et Binary Robust Independent Elementary Feature (BRIEF) sont également surclassés par LSS. En outre, nous proposons une approche de mise en registre utilisant LSS et un mécanisme de votes pour obtenir une carte de disparité stéréo dense pour chaque région d'avant-plan dans l'image. La carte de disparité qui en résulte peut alors être utilisée pour aligner l'image de référence sur la seconde image. Nous démontrons que notre méthode surpasse les méthodes dans l'état de l'art, notamment les méthodes basées sur l'information mutuelle. Nos expériences ont été réalisées en utilisant des scénarios réalistes de surveillance d'humains dans une scène de petite taille. En raison des lacunes des approches locales de correspondance stéréo pour l'estimation de disparités précises dans des régions de discontinuité de profondeur, nous proposons une méthode de correspondance stéréo basée sur une approche d'optimisation globale. Nous introduisons un modèle stéréo approprié pour la mise en registre d'images thermique-visible en utilisant une méthode de minimisation de l'énergie en conjonction avec la méthode Belief Propagation (BP) comme méthode pour optimiser l'affectation des disparités par une fonction d'énergie. Dans cette méthode, nous avons intégré les informations de couleur et de mouvement comme contraintes douces pour améliorer la précision d'affectation des disparités dans les cas de discontinuités de profondeur. Bien que les approches de correspondance globale soient plus gourmandes au niveau des ressources de calculs par rapport aux approches de correspondance locale basée sur la stratégie Winner Take All (WTA), l'algorithme efficace BP et la programmation parallèle (OpenMP) en C++ que nous avons utilisés dans notre implémentation, permettent d'accélérer le temps de traitement de manière significative et de rendre nos méthodes viables pour les applications de vidéosurveillance. Nos méthodes sont programmées en C++ et utilisent la bibliothèque OpenCV. Nos méthodes sont conçues pour être facilement intégrées comme prétraitement pour toute application d'analyse vidéo. En d'autres termes, les données d'entrée de nos méthodes pourraient être un flux vidéo en ligne, et pour une analyse plus approfondie, un nouveau module pourrait être ajouté en aval à notre schéma algorithmique. Cette analyse plus approfondie pourrait être le suivi d'objets, la localisation d'êtres humains, et l'analyse de trajectoires pour les applications de surveillance multimodales de grandes scène. Aussi, Il pourrait être l'analyse de comportements, la catégorisation d'objets, et le suivi pour les applications sur des scènes de tailles réduites.---------ABSTRACT Recently, the design and deployment of thermal-visible surveillance systems for human analysis attracted a lot of attention in the computer vision community. Thermal-visible imagery applications for human analysis span different domains including medical, in-vehicle safety system, and surveillance. The motivation of applying such a system is improving the quality of data with the ultimate goal of improving the performance of targeted surveillance system. A fundamental issue associated with a thermal-visible imaging system is the accurate registration of corresponding features and information from images with high differences in imaging characteristics, where one reflects the color information (reflected energy) and another one reflects thermal signature (emitted energy). This problem is named Image/video registration. Video surveillance is one of the most extensive application domains of multispectral imaging. Automatic video surveillance in a realistic environment, either indoor or outdoor, is difficult due to the unlimited number of environmental factors such as illumination variations, wind, fog, and shadows. In a multimodal surveillance system, the joint use of different modalities increases the reliability of input data and reveals some information of the scene that might be missed using a unimodal imaging system. The early multimodal video surveillance systems were designed mainly for military applications. But nowadays, because of the reduction in the price of thermal cameras, this subject of research is extending to civilian applications and has attracted more interests for a variety of the human monitoring objectives. Image registration approaches for an automatic multimodal video surveillance system are divided into two general approaches based on the range of captured scene: the approaches that are appropriate for long-range scenes, and the approaches that are suitable for close-range scenes. In the literature, this subject of research is not well documented, especially for close-range surveillance application domains. Our research is focused on novel image registration solutions for both close-range and long-range scenes featuring multiple humans. The proposed solutions are presented in the four articles included in this thesis. Our registration methods are applicable for further video analysis such as tracking, human localization, behavioral pattern analysis, and object categorization. For far-range video surveillance, we propose an iterative system that consists of simultaneous thermal-visible video registration, sensor fusion, and people tracking. Our video registration is based on a RANSAC object trajectory matching, which estimates an affine transformation matrix to globally transform foreground objects of one image on another one. Our proposed multimodal surveillance system is based on a novel feedback scheme between registration and tracking modules that augments the performance of both modules iteratively over time. Our methods are designed for online applications and no camera calibration or special setup is required. For close-range video surveillance applications, we introduce Local Self-Similarity (LSS) as a viable similarity measure for matching corresponding human body regions of thermal and visible images. We also demonstrate theoretically and quantitatively that LSS, as a thermal-visible similarity measure, is more robust to differences between corresponding regions' textures than the Mutual Information (MI), which is the classic multimodal similarity measure. Other viable local image descriptors including Histogram Of Gradient (HOG), Scale Invariant Feature Transform (SIFT), and Binary Robust Independent Elementary Feature (BRIEF) are also outperformed by LSS. Moreover, we propose a LSS-based dense local stereo correspondence algorithm based on a voting approach, which estimates a dense disparity map for each foreground region in the image. The resulting disparity map can then be used to align the reference image on the second image. We demonstrate that our proposed LSS-based local registration method outperforms similar state-of-the-art MI-based local registration methods in the literature. Our experiments were carried out using realistic human monitoring scenarios in a close-range scene. Due to the shortcomings of local stereo correspondence approaches for estimating accurate disparities in depth discontinuity regions, we propose a novel stereo correspondence method based on a global optimization approach. We introduce a stereo model appropriate for thermal-visible image registration using an energy minimization framework and Belief Propagation (BP) as a method to optimize the disparity assignment via an energy function. In this method, we integrated color and motion visual cues as a soft constraint into an energy function to improve disparity assignment accuracy in depth discontinuities. Although global correspondence approaches are computationally more expensive compared to Winner Take All (WTA) local correspondence approaches, the efficient BP algorithm and parallel processing programming (openMP) in C++ that we used in our implementation, speed up the processing time significantly and make our methods viable for video surveillance applications. Our methods are implemented in C++ using OpenCV library and object-oriented programming. Our methods are designed to be integrated easily for further video analysis. In other words, the input data of our methods could come from two synchronized online video streams. For further analysis a new module could be added in our frame-by-frame algorithmic diagram. Further analysis might be object tracking, human localization, and trajectory pattern analysis for multimodal long-range monitoring applications, and behavior pattern analysis, object categorization, and tracking for close-range applications
    corecore