29 research outputs found

    Estimation de pose d'objets rigides et de robots

    No full text
    The goal of this thesis is to develop methods for recovering the 3D configuration of scenes containing rigid objects and articulated robots with known 3D models using one or multiple RGB images as inputs. We consider the following challenging scenes and visual conditions: (i) textureless and/or symmetric objects (ii) robot arms with several degrees of freedom, (iii) scenes imaged under challenging conditions (e.g. viewpoint or illumination) and (iv) objects or robots partially occluded.The key contributions of this thesis are as follows. First, we introduce a method for identifying a variable number of objects in a robot’s workspace and estimate the 2D coordinate of the object’s centroids in the robot coordinate frame. Our approach does not require extrinsic camera-to-robot calibration. Second, we propose a method for efficiently solving the planar rearrangement planning problem. We propose a discrete action parametrization of this problem, and efficiently apply Monte-Carlo Tree Search (MCTS) to solve it. Third, we introduce a novel learning-based method for 6D pose estimation of rigid objects with known 3D models. Our approach relies on the render-and-compare strategy. We introduce innovations of the training loss and rotation parametrization to explicitly handle object symmetries and achieve stable training. We train our approach on synthetic data using heavy image augmentations and show the crucial importance of data augmentation for the trans- fer to real scenes. Fourth, we introduce an approach for multi-view multi-object 6D pose estimation. We introduce a novel object-level RANSAC strategy to jointly estimate relative camera poses and find correspondences between single-view pose hypotheses. Poses of all objects and cameras are jointly refined by solving an object-level bundle adjustment problem. Fifth, we develop an approach to estimate the pose of novel objects, i.e. objects unseen during training, but for which the 3D model is available at test time. We introduce a scoring network for finding the best initial estimate among a set of coarse hypotheses, and design a network for iterative refinement where the object shape and coordinate system are implicitly provided as inputs. The model is trained on a novel large-scale synthetic dataset displaying thousands of different objects in challenging visual conditions. Finally, we introduce a method for estimating the 6D pose and joint angles of an articulated robot. We extend the render-and-compare strategy to handle robots with several degrees of freedom. We show the crucial importance of robot parametrization in this problem, and propose an effective strategy that is independent of the robot.The methods presented in this thesis advance the state-of-the-art on existing datasets and benchmarks for object and robot pose estimation. For known rigid objects, our single-view approach CosyPose is the winning entry in the BOP Challenge 2020. Our approach for unseen objects, MegaPose, achieves similar performance while not requiring the objects to be known in advance for training, paving the way for real applications where rapid deployment is key.L’objectif de cette thèse est de développer des méthodes permettant d’estimer la configuration 3D de scènes contenant des objets rigides et des robots articulés dont les modèles 3D sont connus, en utilisant une ou plusieurs images RGB en entrée. Nous considérons les scènes difficiles et les conditions visuelles suivantes: (i) des objets sans textures et / ou symétriques (ii) des robots avec plusieurs degrés de liberté, (iii) des scènes imagées dans des conditions difficiles (en terme de point de vue ou d’éclairage) et (iv) des objets ou des robots partiellement occlus.Les principales contributions de cette thèse sont les suivantes. Tout d’abord, nous introduisons une méthode pour identifier un nombre variable d’objets dans l’espace de travail d’un robot et estimer les coordonnées 2D des centroïdes des objets dans le système de coordonnées du robot. Notre approche ne nécessite pas de calibration extrinsèque caméra-robot. Deuxièmement, nous proposons une méthode pour résoudre efficacement le problème de réarrangement. Nous proposons une paramétrisation d’action discrète de ce problème, et appliquons efficacement Monte-Carlo Tree Search (MCTS) pour le résoudre. Troisièmement, nous introduisons une nouvelle méthode basée sur l’apprentissage pour l’estimation 6D de la pose d’objets rigides dont les modèles 3D sont connus. Notre approche repose sur une stratégie de rendu et de comparaison. Nous introduisons des innovations dans le paramétrage de la fonction de coût et de l’orientation de l’objet pour gérer explicite- ment les symétries d’objets et obtenir un entraînement stable. Nous entraînons notre approche sur des données synthétiques en utilisant des augmentations d’images importantes et montrons l’importance cruciale de l’augmentation des données pour le transfert vers des scènes réelles. Quatrièmement, nous introduisons une approche multi-objet multi-vues pour l’estimation de pose. Nous introduisons une nouvelle stratégie RANSAC au niveau des objets pour estimer conjointement les poses relatives des caméras et trouver des correspondances entre les hypothèses de poses prédites dans chacune des vues indépendamment. Les poses des objets et des caméras sont affinées conjointement en résolvant un problème d’optimisation. Cinquièmement, nous étendons notre troisième contribution pour estimer la pose de nouveaux objets, c’est-à-dire des objets inconnus pendant l’entraînement. Nous introduisons un réseau de notation pour trouver la meilleure estimation initiale parmi un ensemble d’hypothèses grossières, et un réseau pour le raffinement itératif où la forme de l’objet et le système de coordonnées sont implicitement fournis en entrée. Les réseaux sont entraînés sur un nouvel ensemble de données synthétiques à grande échelle affichant des milliers d’objets différents dans des conditions visuelles difficiles. Enfin, nous introduisons une méthode pour estimer la pose 6D et les angles articulaires d’un robot articulé. Nous étendons la stratégie de rendu et de comparaison pour gérer les robots avec plusieurs degrés de liberté. Nous montrons l’importance cruciale du paramétrage du robot dans ce problème, et proposons une stratégie efficace et indépendante du robot.Les méthodes présentées dans cette thèse font progresser l’état de l’art sur les benchmarks existants pour l’estimation de la pose d’objets et de robots. Pour les objets rigides connus, notre approche CosyPose est la méthode qui a gagné le BOP Challenge 2020. Notre approche pour les objets inconnus pendant l’entraînement, MegaPose, atteint des performances similaires tout en ne nécessitant pas que les objets soient connus à l’avance pour l’entraînement, ouvrant la voie à des applications où le déploiement rapide est crucial

    Estimation de pose d'objets rigides et de robots

    No full text
    The goal of this thesis is to develop methods for recovering the 3D configuration of scenes containing rigid objects and articulated robots with known 3D models using one or multiple RGB images as inputs. We consider the following challenging scenes and visual conditions: (i) textureless and/or symmetric objects (ii) robot arms with several degrees of freedom, (iii) scenes imaged under challenging conditions (e.g. viewpoint or illumination) and (iv) objects or robots partially occluded.The key contributions of this thesis are as follows. First, we introduce a method for identifying a variable number of objects in a robot’s workspace and estimate the 2D coordinate of the object’s centroids in the robot coordinate frame. Our approach does not require extrinsic camera-to-robot calibration. Second, we propose a method for efficiently solving the planar rearrangement planning problem. We propose a discrete action parametrization of this problem, and efficiently apply Monte-Carlo Tree Search (MCTS) to solve it. Third, we introduce a novel learning-based method for 6D pose estimation of rigid objects with known 3D models. Our approach relies on the render-and-compare strategy. We introduce innovations of the training loss and rotation parametrization to explicitly handle object symmetries and achieve stable training. We train our approach on synthetic data using heavy image augmentations and show the crucial importance of data augmentation for the trans- fer to real scenes. Fourth, we introduce an approach for multi-view multi-object 6D pose estimation. We introduce a novel object-level RANSAC strategy to jointly estimate relative camera poses and find correspondences between single-view pose hypotheses. Poses of all objects and cameras are jointly refined by solving an object-level bundle adjustment problem. Fifth, we develop an approach to estimate the pose of novel objects, i.e. objects unseen during training, but for which the 3D model is available at test time. We introduce a scoring network for finding the best initial estimate among a set of coarse hypotheses, and design a network for iterative refinement where the object shape and coordinate system are implicitly provided as inputs. The model is trained on a novel large-scale synthetic dataset displaying thousands of different objects in challenging visual conditions. Finally, we introduce a method for estimating the 6D pose and joint angles of an articulated robot. We extend the render-and-compare strategy to handle robots with several degrees of freedom. We show the crucial importance of robot parametrization in this problem, and propose an effective strategy that is independent of the robot.The methods presented in this thesis advance the state-of-the-art on existing datasets and benchmarks for object and robot pose estimation. For known rigid objects, our single-view approach CosyPose is the winning entry in the BOP Challenge 2020. Our approach for unseen objects, MegaPose, achieves similar performance while not requiring the objects to be known in advance for training, paving the way for real applications where rapid deployment is key.L’objectif de cette thèse est de développer des méthodes permettant d’estimer la configuration 3D de scènes contenant des objets rigides et des robots articulés dont les modèles 3D sont connus, en utilisant une ou plusieurs images RGB en entrée. Nous considérons les scènes difficiles et les conditions visuelles suivantes: (i) des objets sans textures et / ou symétriques (ii) des robots avec plusieurs degrés de liberté, (iii) des scènes imagées dans des conditions difficiles (en terme de point de vue ou d’éclairage) et (iv) des objets ou des robots partiellement occlus.Les principales contributions de cette thèse sont les suivantes. Tout d’abord, nous introduisons une méthode pour identifier un nombre variable d’objets dans l’espace de travail d’un robot et estimer les coordonnées 2D des centroïdes des objets dans le système de coordonnées du robot. Notre approche ne nécessite pas de calibration extrinsèque caméra-robot. Deuxièmement, nous proposons une méthode pour résoudre efficacement le problème de réarrangement. Nous proposons une paramétrisation d’action discrète de ce problème, et appliquons efficacement Monte-Carlo Tree Search (MCTS) pour le résoudre. Troisièmement, nous introduisons une nouvelle méthode basée sur l’apprentissage pour l’estimation 6D de la pose d’objets rigides dont les modèles 3D sont connus. Notre approche repose sur une stratégie de rendu et de comparaison. Nous introduisons des innovations dans le paramétrage de la fonction de coût et de l’orientation de l’objet pour gérer explicite- ment les symétries d’objets et obtenir un entraînement stable. Nous entraînons notre approche sur des données synthétiques en utilisant des augmentations d’images importantes et montrons l’importance cruciale de l’augmentation des données pour le transfert vers des scènes réelles. Quatrièmement, nous introduisons une approche multi-objet multi-vues pour l’estimation de pose. Nous introduisons une nouvelle stratégie RANSAC au niveau des objets pour estimer conjointement les poses relatives des caméras et trouver des correspondances entre les hypothèses de poses prédites dans chacune des vues indépendamment. Les poses des objets et des caméras sont affinées conjointement en résolvant un problème d’optimisation. Cinquièmement, nous étendons notre troisième contribution pour estimer la pose de nouveaux objets, c’est-à-dire des objets inconnus pendant l’entraînement. Nous introduisons un réseau de notation pour trouver la meilleure estimation initiale parmi un ensemble d’hypothèses grossières, et un réseau pour le raffinement itératif où la forme de l’objet et le système de coordonnées sont implicitement fournis en entrée. Les réseaux sont entraînés sur un nouvel ensemble de données synthétiques à grande échelle affichant des milliers d’objets différents dans des conditions visuelles difficiles. Enfin, nous introduisons une méthode pour estimer la pose 6D et les angles articulaires d’un robot articulé. Nous étendons la stratégie de rendu et de comparaison pour gérer les robots avec plusieurs degrés de liberté. Nous montrons l’importance cruciale du paramétrage du robot dans ce problème, et proposons une stratégie efficace et indépendante du robot.Les méthodes présentées dans cette thèse font progresser l’état de l’art sur les benchmarks existants pour l’estimation de la pose d’objets et de robots. Pour les objets rigides connus, notre approche CosyPose est la méthode qui a gagné le BOP Challenge 2020. Notre approche pour les objets inconnus pendant l’entraînement, MegaPose, atteint des performances similaires tout en ne nécessitant pas que les objets soient connus à l’avance pour l’entraînement, ouvrant la voie à des applications où le déploiement rapide est crucial

    Single-view robot pose and joint angle estimation via render & compare

    No full text
    CVPR 2021 (Oral)International audienceWe introduce RoboPose, a method to estimate the joint angles and the 6D camera-to-robot pose of a known articulated robot from a single RGB image. This is an important problem to grant mobile and itinerant autonomous systems the ability to interact with other robots using only visual information in non-instrumented environments, especially in the context of collaborative robotics. It is also challenging because robots have many degrees of freedom and an infinite space of possible configurations that often result in self-occlusions and depth ambiguities when imaged by a single camera. The contributions of this work are three-fold. First, we introduce a new render & compare approach for estimating the 6D pose and joint angles of an articulated robot that can be trained from synthetic data, generalizes to new unseen robot configurations at test time, and can be applied to a variety of robots. Second, we experimentally demonstrate the importance of the robot parametrization for the iterative pose updates and design a parametrization strategy that is independent of the robot structure. Finally, we show experimental results on existing benchmark datasets for four different robots and demonstrate that our method significantly outperforms the state of the art. Code and pre-trained models are available on the project webpage https://www.di.ens.fr/willow/research/robopose/

    Single-view robot pose and joint angle estimation via render & compare

    No full text
    CVPR 2021 (Oral)International audienceWe introduce RoboPose, a method to estimate the joint angles and the 6D camera-to-robot pose of a known articulated robot from a single RGB image. This is an important problem to grant mobile and itinerant autonomous systems the ability to interact with other robots using only visual information in non-instrumented environments, especially in the context of collaborative robotics. It is also challenging because robots have many degrees of freedom and an infinite space of possible configurations that often result in self-occlusions and depth ambiguities when imaged by a single camera. The contributions of this work are three-fold. First, we introduce a new render & compare approach for estimating the 6D pose and joint angles of an articulated robot that can be trained from synthetic data, generalizes to new unseen robot configurations at test time, and can be applied to a variety of robots. Second, we experimentally demonstrate the importance of the robot parametrization for the iterative pose updates and design a parametrization strategy that is independent of the robot structure. Finally, we show experimental results on existing benchmark datasets for four different robots and demonstrate that our method significantly outperforms the state of the art. Code and pre-trained models are available on the project webpage https://www.di.ens.fr/willow/research/robopose/

    Focal Length and Object Pose Estimation via Render and Compare

    No full text
    Code available at http://github.com/ponimatkin/focalposeInternational audienceWe introduce FocalPose, a neural render-and-compare method for jointly estimating the camera-object 6D pose and camera focal length given a single RGB input image depicting a known object. The contributions of this work are twofold. First, we derive a focal length update rule that extends an existing state-of-the-art render-and-compare 6D pose estimator to address the joint estimation task. Second, we investigate several different loss functions for jointly estimating the object pose and focal length. We find that a combination of direct focal length regression with a reprojection loss disentangling the contribution of translation, rotation, and focal length leads to improved results. We show results on three challenging benchmark datasets that depict known 3D models in uncontrolled settings. We demonstrate that our focal length and 6D pose estimates have lower error than the existing state-of-the-art methods

    Monte-Carlo Tree Search for Efficient Visually Guided Rearrangement Planning

    No full text
    International audienceWe address the problem of visually guided rearrangement planning with many movable objects, i.e., finding a sequence of actions to move a set of objects from an initial arrangement to a desired one, while relying on visual inputs coming from an RGB camera. To do so, we introduce a complete pipeline relying on two key contributions. First, we introduce an efficient and scalable rearrangement planning method, based on a Monte-Carlo Tree Search exploration strategy. We demonstrate that because of its good trade-off between exploration and exploitation our method (i) scales well with the number of objects while (ii) finding solutions which require a smaller number of moves compared to the other state-of-the-art approaches. Note that on the contrary to many approaches, we do not require any buffer space to be available. Second, to precisely localize movable objects in the scene, we develop an integrated approach for robust multi-object workspace state estimation from a single uncalibrated RGB camera using a deep neural network trained only with synthetic data. We validate our multi-object visually guided manipulation pipeline with several experiments on a real UR-5 robotic arm by solving various rearrangement planning instances, requiring only 60 ms to compute the plan to rearrange 25 objects. In addition, we show that our system is insensitive to camera movements and can successfully recover from external perturbations. Supplementary video, source code and pre-trained models are available at https://ylabbe.github.io/rearrangement-planning/

    CosySlam: investigating object-level SLAM for detecting locomotion surfaces

    No full text
    While blindfolded legged locomotion has demonstrated impressive capabilities in the last few years, further progresses are expected from using exteroceptive perception to better adapt the robot behavior to the available surfaces of contact. In this paper, we investigate whether mono cameras are suitable sensors for that aim. We propose to rely on object-level SLAM, fusing RGB images and inertial measurements, to simultaneously estimate the robot balance state (orientation in the gravity field and velocity), the robot position, and the location of candidate contact surfaces. We used CosyPose, a learning-based object pose estimator for which we propose an empirical uncertainty model, as the sole front-end of our visual inertial SLAM.We then combine it with inertial measurements which ideally complete the system observability, although extending the proposed approach would be straightforward (e.g. kinematic information about the contact, or a feature based visual front end).We demonstrate the interest of object-based SLAM on several locomotion sequences, by some absolute metrics and in comparison with other mono SLAM
    corecore