13 research outputs found

    Cadre générique pour le recalage dense combinant un coût dense et et un coût basé sur des correspondances de primitives

    Get PDF
    National audienceL'estimation dense de correspondances entre deux images est un sujet essentiel de la vision par ordinateur et s'exprime sous plusieurs formes : déformations rigides ou flexibles avec de faibles ou grandes amplitudes de déplacements. De nombreuses solutions spécifiques existent mais aucune méthodologie unifiée n'a été formulée. Cet article propose une nouvelle approche générale qui combine de manière robuste un coût dense par pixel et un coût basé sur des correspondances de primitives. Ce dernier utilise une distance robuste permettant d'exploiter des correspondances de points ou de segments. Les correspondances permettent d'empêcher l'optimisation dense de tomber dans un minimum local. En utilisant un coût dense robuste, associé à une régularisation au second ordre et une détection explicite des auto-occultations, nous obtenons des résultats égalant ou surpassant l'état de l'art pour les applications de flot optique 2D, stéréo à fortes disparité et recalage de surfaces déformables. De plus, le faible couplage des modules permet une grande flexibilité en fonction de l'application

    Reconstruction 3D et localisation simultanée de caméras mobiles : une approche temps-réel par ajustement de faisceaux local

    Get PDF
    The Structure from Motion problem is an intense research topic in computer vision and has been the subject of much investigation. This thesis presents a method for estimating the motion of a calibrated camera and the threedimensional geometry of the filmed environment. The main idea is to take advantage of both offline methods (based on an optimization of all 3D parameters by global bundle adjustment) and fast incremental methods. The new approach may be seen as an acceleration of conventional 3D reconstruction techniques that make use of bundle adjustment, and thus enables to treat very long video sequences. The introduced algorithm may be summarized as follows : interest points detection and matching between frames, subsampling of the video into "key frames", full 3D reconstruction of these key frames (3D points and camera poses), and localization of all frames. The keystone of the method is the local bundle adjustment : reconstruction parameters are refined at the end of the sequence only, for all current frame selected as key frame. This method is applied initially to a perspective camera model, then extended to a generic camera model to describe most existing kinds of cameras like catadioptric cameras or stereo rigs. Experiments have shown that results are very similar to those obtained by methods with global optimisation, with much lower computing times. We can envisage applications like realtime visual odometry for mobile robots or car assisted driving.Le problème de la reconstruction 3D à partir d'une séquence d'images acquise par une caméra en mouvement est un sujet important dans le domaine de la vision par ordinateur. Ce travail de thèse présente une méthode qui permet d'estimer conjointement des points 3D de la scène filmée et le mouvement de la caméra en combinant la précision des méthodes "horsligne" (basées sur une optimisation globale de tous les paramètres par ajustement de faisceaux) et la vitesse de calcul des méthodes incrémentales. La nouvelle approche est considérée comme une accélération des techniques classiques de reconstruction 3D qui utilisent l'ajustement de faisceaux, permettant ainsi de traiter de longues séquences vidéos. L'algorithme développé peut être résumé de la façon suivante : détection de points d'intérêt dans les images, mise en correspondance de ces points et souséchantillonnage temporel de la vidéo. En effet, seul un sousensemble d'images dites "images clef" est sélectionné pour la reconstruction des points 3D alors que la localisation de la caméra est calculée pour chaque image. Le point clef de l'approche est l'ajustement de faisceaux local : les paramètres de la reconstruction sont affinés sur la fin de la séquence uniquement, à chaque fois qu'une image est choisie comme nouvelle image clef. La méthode, initialement prévue pour les caméras perspectives, a ensuite été généralisée de manière à rendre possible l'utilisation d'autres types de caméras, comme les caméras catadioptriques ou encore les paires rigides de caméras. Les résultats obtenus montrent que la précision atteinte est du même ordre que celle des méthodes par optimisation globale, avec des temps de calcul très réduits, ce qui permet de viser des applications d'odométrie visuelle temps réel pour la robotique mobile ou l'aide à la conduite en automobile. Realtim

    Contributions aux problèmes de l'étalonnage extrinsèque d'affichages semi-transparents pour la réalité augmentée et de la mise en correspondance dense d'images

    Get PDF
    Augmented reality is the process of inserting virtual elements into a real scene, observed through a screen. Augmented Reality systems can take different forms to get the desired balance between three criteria: accuracy, latency and robustness. Three main components can be identified: localization, reconstruction and display. The contributions of this thesis are focused on display and reconstruction. Most augmented reality systems use non-transparent screens as they are widely available. However, for critical applications such as surgery or driving assistance, the user cannot be ever isolated from reality. We answer this problem by proposing a new “augmented tablet” system with a semi-transparent screen. Such a system needs a suitable calibration scheme:to correctly align the displayed augmentations and reality, one need to know at every moment the poses of the user and the observed scene with regard to the screen. Two tracking devices (user and scene) are thus necessary, and the system calibration aims to compute the pose of those devices with regard to the screen. The calibration process set up in this thesis is as follows: the user indicates the apparent projections in the screen of reference points from a known 3D object ; then the poses to estimate should minimize the 2D on-screen distance between those projections and the ones computed by the system. This is a non-convex problem difficult to solve without a sane initialization. We develop a direct estimation method by computing the extrinsic parameters of virtual cameras. Those are defined by their optical centers which coincide with user positions, and their common focal plane consisting of the screen plane. The user-entered projections are then the 2D observations of the reference points in those virtual cameras. A symmetrical thinking allows one to define virtual cameras centered on the reference points, and “looking at” the user positions. Those initial estimations can then be refined with a bundle adjustment. Meanwhile, 3D reconstruction is based on the triangulation of matches between images. Those matches can be sparse when computed by detection and description of image features or dense when computed through the minimization of a cost function of the whole image. A dense correspondence field is better because it makes it possible to reconstruct a 3D surface, useful especially for realistic handling of occlusions for augmented reality. However, such a field is usually estimated thanks to variational methods, minimizing a convex cost function using local information. Those methods are accurate but subject to local minima, thus limited to small deformations. In contrast, sparse matches can be made very robust by using adequately discriminative descriptors. We propose to combine the advantages of those two approaches by adding a feature-based term into a dense variational method. It helps prevent the optimization from falling into local minima without degrading the end accuracy. Our feature-based term is suited to feature with non-integer coordinates and can handle point or line segment matches while implicitly filtering false matches. We also introduce comprehensive handling of occlusions so as to support large deformations. In particular, we have adapted and generalized a local method for detecting selfocclusions. Results on 2D optical flow and wide-baseline stereo disparity estimation are competitive with the state of the art, with a simpler and most of the time faster method. This proves that our contributions enables new applications of variational methods without degrading their accuracy. Moreover, the weak coupling between the components allows great flexibility and genericness. This is the reason we were able to also transpose the proposed method to the problem of non-rigid surface registration and outperforms the state of the art methods.La réalité augmentée consiste en l'insertion d'éléments virtuels dans une scène réelle, observée à travers un écran. Les systèmes de réalité augmentée peuvent prendre des formes différentes pour obtenir l'équilibre désiré entre trois critères : précision, latence et robustesse. On identifie trois composants principaux : localisation, reconstruction et affichage. Nous nous concentrons sur l'affichage et la reconstruction. Pour certaines applications, l'utilisateur ne peut être isolé de la réalité. Nous proposons un système sous forme de "tablette augmentée" avec un écran semi transparent, au prix d'un étalonnage adapté. Pour assurer l'alignement entre augmentations et réalité, il faut connaître les poses relatives de l'utilisateur et de la scène observée par rapport à l'écran. Deux dispositifs de localisation sont nécessaires et l'étalonnage consiste à calculer la pose de ces dispositifs par rapport à l'écran. Le protocole d'étalonnage est le suivant : l'utilisateur renseigne les projections apparentes dans l'écran de points de référence d'un objet 3D connu ; les poses recherchées minimisent la distance 2D entre ces projections et celles calculées par le système. Ce problème est non convexe et difficile à optimiser. Pour obtenir une estimation initiale, nous développons une méthode directe par l'étalonnage intrinsèque et extrinsèque de caméras virtuelles. Ces dernières sont définies par leurs centres optiques, confondus avec les positions de l'utilisateur, ainsi que leur plan focal, constitué par l'écran. Les projections saisies par l'utilisateur constituent alors les observations 2D des points de référence dans ces caméras virtuelles. Un raisonnement symétrique permet de considérer des caméras virtuelles centrées sur les points de référence de l'objet, "observant" les positions de l'utilisateur. Ces estimations initiales sont ensuite raffinées par ajustement de faisceaux. La reconstruction 3D est basée sur la triangulation de correspondances entre images. Ces correspondances peuvent être éparses lorsqu'elles sont établies par détection, description et association de primitives géométriques ou denses lorsqu'elles sont établies par minimisation d'une fonction de coût sur toute l'image. Un champ dense de correspondance est préférable car il permet une reconstruction de surface, utile notamment pour une gestion réaliste des occultations en réalité augmentée. Les méthodes d'estimation d'un tel champ sont basées sur une optimisation variationnelle, précise mais sensible aux minimums locaux et limitée à des images peu différentes. A l'opposé, l'emploi de descripteurs discriminants peut rendre les correspondances éparses très robustes. Nous proposons de combiner les avantages des deux approches par l'intégration d'un coût basé sur des correspondances éparses de primitives à une méthode d'estimation variationnelle dense. Cela permet d'empêcher l'optimisation de tomber dans un minimum local sans dégrader la précision. Notre terme basé correspondances éparses est adapté aux primitives à coordonnées non entières, et peut exploiter des correspondances de points ou de segments tout en filtrant implicitement les correspondances erronées. Nous proposons aussi une détection et gestion complète des occultations pour pouvoir mettre en correspondance des images éloignées. Nous avons adapté et généralisé une méthode locale de détection des auto-occultations. Notre méthode produit des résultats compétitifs avec l'état de l'art, tout en étant plus simple et plus rapide, pour les applications de flot optique 2D et de stéréo à large parallaxe. Nos contributions permettent d'appliquer les méthodes variationnelles à de nouvelles applications sans dégrader leur performance. Le faible couplage des modules permet une grande flexibilité et généricité. Cela nous permet de transposer notre méthode pour le recalage de surfaces déformables avec des résultats surpassant l'état de l'art, ouvrant de nouvelles perspectives

    Contributions pour les applications de réalité augmentée. Suivi visuel et recalage 2D. Suivi d'objets 3D représentés par des modèles par points

    Get PDF
    Cette thèse présente plusieurs méthodes de recalage pour les applications de réalité augmentée (R.A.). Nous décrivons d'abord des expériences de R.A. utilisant des recalages et suivis uniquement 2D. Nous nous intéressons ensuite au suivi visuel d'un objet naturel dont on connaît un modèle 3D et dont l'image peut ainsi être augmentée avec une cohérence spatiale et temporelle. Dans une première partie, nous proposons d'abord d'utiliser un recalage homographique en temps-réel pour augmenter des séquences filmées par une caméra en rotation autour de son centre optique. Dans une autre application, des transformations non rigides sont calculées hors ligne pour augmenter les images naturelles des parois gravées d'une grotte préhistorique. Le recalage géométrique des interprétations graphiques d'un préhistorien permet de créer un logiciel de découverte interactive des parois. Dans la seconde et majeure partie de ce travail, nous partons des méthodes de suivi 3D de l'état de l'art prises parmi les plus performantes. Ces méthodes consistent à suivre un objet naturel connaissant sa représentation par un maillage 3D. Nous proposons une approche de suivi visuel 3D utilisant quant à elle des modèles par points de l'objet. Ce type de modèle, caractérisé par l'absence de topologie, est encore peu utilisé en vision par ordinateur mais il présente une souplesse intéressante par rapport aux modèles constitués de facettes. La méthode de suivi que nous proposons consiste à interpréter des mises en correspondances 2D entre points d'intérêt en termes de variations de positions 3D. Le processus d'estimation sous-jacent utilise des champs de mouvements déduits des modèles 3D par points et des reconstructions par Moving Least Squares et splatting. Ces techniques développées par la communauté d'informatique graphique s'attachent à reconstruire localement (explicitement ou implicitement) la surface de l'objet à suivre et certains attributs dénis de manière éparse sur le nuage de points. Nous les adaptons à l'interpolation des champs de mouvements. L'avantage de notre approche est d'aboutir à un algorithme enchaînant quelques étapes d'estimation linéaires pour la détermination du mouvement 3D inter-images. Notre technique de résolution est intégrée à une adaptation originale d'un algorithme de suivi visuel de l'état de l'art qui repose sur un suivi hybride, combinant les informations issues de l'image précédente et celles apportées par des images clés acquises hors ligne. Une des particularités de notre implantation vient aussi de l'exploitation des capacités des unités de calcul graphiques (GPU) modernes pour les parties critiques de l'algorithme (extraction de points d'intérêt, appariement et calcul de champs de mouvements)

    Numérisation 3D de visages par une approche de super-résolution spatio-temporelle non-rigide

    Get PDF
    La mesure de la forme 3D du visage est une problématique qui attire de plus en plus de chercheurs et qui trouve son application dans des domaines divers tels que la biométrie, l animation et la chirurgie faciale. Les solutions actuelles sont souvent basées sur des systèmes projecteur/caméra et utilisent de la lumière structurée pour compenser l insuffisance de la texture faciale. L information 3D est ensuite calculée en décodant la distorsion des patrons projetés sur le visage. Une des techniques les plus utilisées de la lumière structurée est la codification sinusoïdale par décalage de phase qui permet une numérisation 3D de résolution pixélique. Cette technique exige une étape de déroulement de phase, sensible à l éclairage ambiant surtout quand le nombre de patrons projetés est limité. En plus, la projection de plusieurs patrons impacte le délai de numérisation et peut générer des artefacts surtout pour la capture d un visage en mouvement. Une alternative aux approches projecteur-caméra consiste à estimer l information 3D par appariement stéréo suivi par une triangulation optique. Cependant, le modèle calculé par cette technique est généralement non-dense et manque de précision. Des travaux récents proposent la super-résolution pour densifier et débruiter les images de profondeur. La super-résolution a été particulièrement proposée pour les caméras 3D TOF (Time-Of-Flight) qui fournissent des scans 3D très bruités. Ce travail de thèse propose une solution de numérisation 3D à faible coût avec un schéma de super-résolution spatio-temporelle. Elle utilise un système multi-caméra étalonné assisté par une source de projection non-étalonnée. Elle est particulièrement adaptée à la reconstruction 3D de visages, i.e. rapide et mobile. La solution proposée est une approche hybride qui associe la stéréovision et la codification sinusoïdale par décalage de phase, et qui non seulement profite de leurs avantages mais qui surmonte leurs faiblesses. Le schéma de la super-résolution proposé permet de corriger l information 3D, de compléter la vue scannée du visage en traitant son aspect déformable.3D face measurement is increasingly demanded for many applications such as bio-metrics, animation and facial surgery. Current solutions often employ a structured light camera/projector device to overcome the relatively uniform appearance of skin. Depth in-formation is recovered by decoding patterns of the projected structured light. One of the most widely used structured-light coding is sinusoidal phase shifting which allows a 3Ddense resolution. Current solutions mostly utilize more than three phase-shifted sinusoidal patterns to recover the depth information, thus impacting the acquisition delay. They further require projector-camera calibration whose accuracy is crucial for phase to depth estimation step. Also, they need an unwrapping stage which is sensitive to ambient light, especially when the number of patterns decreases. An alternative to projector-camera systems consists of recovering depth information by stereovision using a multi-camera system. A stereo matching step finds correspondence between stereo images and the 3D information is obtained by optical triangulation. However, the model computed in this way generally is quite sparse. To up sample and denoise depth images, researchers looked into super-resolution techniques. Super-resolution was especially proposed for time-of-flight cameras which have very low data quality and a very high random noise. This thesis proposes a3D acquisition solution with a 3D space-time non-rigid super-resolution capability, using a calibrated multi-camera system coupled with a non calibrated projector device, which is particularly suited to 3D face scanning, i.e. rapid and easily movable. The proposed solution is a hybrid stereovision and phase-shifting approach, using two shifted patterns and a texture image, which not only takes advantage of the assets of stereovision and structured light but also overcomes their weaknesses. The super-resolution scheme involves a 3D non-rigid registration for 3D artifacts correction in the presence of small non-rigid deformations as facial expressions.LYON-Ecole Centrale (690812301) / SudocSudocFranceF

    Towards a desing method for 3D collaborative GIS

    Full text link
    Our thesis work focuses on collaborative 3D GIS and considers two main aspects governing their implementation: a conceptual framework for an approach to design these systems and a technical framework dealing with the main issues of integration of multiple data sources from different partners in a 3D collaborative database

    Modélisation 3D d'objets par un capteur visuel déplacé par un opérateur

    Get PDF
    The work of this thesis focuses on modeling 3D objects from small to medium sized (1m3 maximum) with an innovative sensor moved manually by an operator, developed by theNOOMEOTM company.To acquire 3D data, the sensor consists of a camera system coupled with an illuminator. Weinfer information from a a visual pattern projected on the scene, used to create the artificialtexture on 3D surface, to produce a 3D image of the scene. Surfaces are represented as 3Dpoints reconstructed from the current viewpoint. To completely model an object, the sensormust be moved around the object to acquire several 3D images. These images are successivelyregistered and merged into a single 3D point cloud. A triangular mesh is then generated fromthe 3D point cloud. The appearance (color and texture) of the object can also be extractedfrom data acquisition to enrich the final model.This thesis addresses the problem of registration of 3D views in two ways : the fast onlineregistration and offline accurate optimization. For the first approach we proposed a variant ofthe ICP algorithm using information from images and inertial measurement. This method wasvalidated by comparing it to other common geometric registration methods. For the secondapproach, we proposed a refinment strategy by minimization of cycles in a graph of relationsbetween the 3D views ; and a global pose optimization method.Our methods and their integration into a complete modeling system were validated bycomparing our results with those from other scanning systems commonly used in scientificand industrial communities.Les travaux de cette thèse portent sur la modélisation 3D d’objets de petite et moyenne tailles(1 m3 maximum) par un système innovant, développé par la société NOOMEOTM, déplacémanuellement par un opérateur.Pour acquérir les données 3D, le capteur est constitué d’un système de caméras couplé à unilluminateur. La projection sur la scène d’un motif visuel permet de créer sur les surfaces3D une texture artificielle exploitée pour produire une image 3D de la scène, soit l’ensemblede points 3D reconstruits depuis le point de vue courant. Pour obtenir le modèle completd’un objet, le capteur doit être déplacé autour de l’objet afin d’acquérir plusieurs images3D. Ces images sont successivement recalées et fusionnées dans un seul nuage de points 3D.Un maillage triangulaire est ensuite généré à partir de ce nuage de points 3D. L’apparence(couleur et texture) de l’objet peut également être extraite des données d’acquisition afind’enrichir le modèle final.Cette thèse aborde le problème du recalage de vues 3D selon deux approches : le recalagerapide en ligne et l’optimisation précise hors ligne. La première approche nous a conduit àproposer une variante de la méthode ICP exploitant l’information des images et la mesureinertielle. Cette méthode a été validée en la comparant à d’autres méthodes courantes derecalage géométrique. Pour la seconde approche, nous avons proposé une stratégie de raffinageexploitant la minimisation de cycles dans un graphe de relations entre les vues 3D ; puis uneméthode d’optimisation globale des poses.Nos méthodes et leur intégration dans le système de modélisation complet ont été validésen comparant nos résultats avec ceux d’autres systèmes de numérisation couramment utilisésdans les communautés scientifique et industrielle

    Détection du réseau routier à partir des images satellitaires à la suite d'une catatastrophe majeure

    Get PDF
    Avec l’augmentation de la résolution des images de télédétection, l’extraction des routes se fait avec plus de précision suivie d’une meilleure identification des différentes voies. Cependant, cette précision a un prix, elle génère du bruit dû au capteur et au contexte urbain qui rendent difficile l’extraction. Dans un contexte de catastrophe naturelle, le temps d’intervention des secouristes sur le terrain et la réduction des fausses détections par les algorithmes d’extraction sont primordiaux. Généralement, les structures (différents types de routes) que l’on veut analyser dans une image possèdent des tailles différentes, donc l’utilisation d’une résolution unique adaptée à tous ces objets est à écarter. L’analyse multirésolution qui décrit l’image sous différentes échelles d’espace avec un fort pouvoir de détection d’objets sera employée dans un premier temps pour réduire cette sensibilité au bruit. Dans un deuxième temps, nous allons employer le filtrage de Kalman pour faire le suivi de routes. L’image de sortie de l’extraction de routes obtenue avec l’algorithme modifié de Christophe et Inglada (2007) par Spiric (2011) sera utilisée comme espace d’observation. L’initialisation et la modélisation sont basées sur les caractéristiques intrinsèques de la route
    corecore