13 research outputs found

    Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild

    Full text link
    Detecting objects and estimating their viewpoint in images are key tasks of 3D scene understanding. Recent approaches have achieved excellent results on very large benchmarks for object detection and viewpoint estimation. However, performances are still lagging behind for novel object categories with few samples. In this paper, we tackle the problems of few-shot object detection and few-shot viewpoint estimation. We propose a meta-learning framework that can be applied to both tasks, possibly including 3D data. Our models improve the results on objects of novel classes by leveraging on rich feature information originating from base classes with many samples. A simple joint feature embedding module is proposed to make the most of this feature sharing. Despite its simplicity, our method outperforms state-of-the-art methods by a large margin on a range of datasets, including PASCAL VOC and MS COCO for few-shot object detection, and Pascal3D+ and ObjectNet3D for few-shot viewpoint estimation. And for the first time, we tackle the combination of both few-shot tasks, on Object- Net3D, showing promising results. Our code and data are available at http://imagine.enpc.fr/~xiaoy/FSDetView/.Comment: Accepted as Poster at ECCV 2020, project website: http://imagine.enpc.fr/~xiaoy/FSDetView

    PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF Tracking

    Full text link
    Estimating the relative pose of a new object without prior knowledge is a hard problem, while it is an ability very much needed in robotics and Augmented Reality. We present a method for tracking the 6D motion of objects in RGB video sequences when neither the training images nor the 3D geometry of the objects are available. In contrast to previous works, our method can therefore consider unknown objects in open world instantly, without requiring any prior information or a specific training phase. We consider two architectures, one based on two frames, and the other relying on a Transformer Encoder, which can exploit an arbitrary number of past frames. We train our architectures using only synthetic renderings with domain randomization. Our results on challenging datasets are on par with previous works that require much more information (training images of the target objects, 3D models, and/or depth data). Our source code is available at https://github.com/nv-nguyen/pizzaComment: 3DV Ora

    FS-DETR: Few-Shot DEtection TRansformer with prompting and without re-training

    Full text link
    This paper is on Few-Shot Object Detection (FSOD), where given a few templates (examples) depicting a novel class (not seen during training), the goal is to detect all of its occurrences within a set of images. From a practical perspective, an FSOD system must fulfil the following desiderata: (a) it must be used as is, without requiring any fine-tuning at test time, (b) it must be able to process an arbitrary number of novel objects concurrently while supporting an arbitrary number of examples from each class and (c) it must achieve accuracy comparable to a closed system. While there are (relatively) few systems that support (a), to our knowledge, there is no system supporting (b) and (c). In this work, we make the following contributions: We introduce, for the first time, a simple, yet powerful, few-shot detection transformer (FS-DETR) that can address both desiderata (a) and (b). Our system builds upon the DETR framework, extending it based on two key ideas: (1) feed the provided visual templates of the novel classes as visual prompts during test time, and (2) ``stamp'' these prompts with pseudo-class embeddings, which are then predicted at the output of the decoder. Importantly, we show that our system is not only more flexible than existing methods, but also, making a step towards satisfying desideratum (c), it is more accurate, matching and outperforming the current state-of-the-art on the most well-established benchmarks (PASCAL VOC & MSCOCO) for FSOD. Code will be made available

    L'estimation de point de vue de l'objet dans la nature

    No full text
    The goal of this thesis is to develop deep-learning approaches for estimating the 3D pose (viewpoint) of an object pictured in an image in different situations: (i) the object location in the image and the exact 3D model of the corresponding object are known, (ii) both the object location and the class are predicted and an exemplar 3D model is provided for each object class, and (iii) no 3D model is used and object location is predicted without the object being classified into a specific category.The key contributions of this thesis are the following. First, we propose a deep- learning approach to category-free viewpoint estimation. This approach can estimate the pose of any object conditioned only on its 3D model, whether or not it is similar to the objects seen at training time. The proposed network contains distinct modules for image feature extraction, shape feature extraction and pose prediction. These modules can have different variants for different representations of 3D models, but remain trainable end-to-end. Second, to allow inferring without exact 3D object models, we develop a class-exemplar-based viewpoint estimation approach that learns to condition the viewpoint prediction on the corresponding class feature extracted from a few 3D models during training. This approach differs from the previous approach in the sense that we extract an exemplar feature for each class instead of treating them independently for each object. We show that the proposed approach is robust against the precision of the provided 3D models and that can be adapted quickly to novel classes with using a few labeled examples. Third, we define a simple yet effective unifying framework that tackles both few-shot object detection and few- shot viewpoint estimation. We exploit, in a meta-learning setting, task-specific class information present in existing datasets, such as images with bounding boxes for object detection and exemplar 3D models of different classes for viewpoint estimation. And we propose a joint evaluation of object detection and viewpoint estimation in the few-shot regime. Finally, we develop a class-agnostic object viewpoint estimation approach that estimates the viewpoint directly from an image embedding, where the embedding space is optimized for object pose estimation through a geometry-aware contrastive learning. Rather than blindly pulling together features of the same object in different augmented views and pushing apart features of different objects while ignoring the pose difference between them, we propose a pose-aware contrastive loss that pushes away the image features of objects having different poses, ignoring the class of these objects. By sharing the network weights across all categories during training, we obtain a class-agnostic viewpoint estimation network that can work on objects of any category. Our method achieve state-of-the-art results in the Pascal3D+, ObjectNet3D and Pix3D category-level object pose estimation benchmarks, under both intra-dataset and inter-dataset settings.Le but de cette thèse est de développer des approches d’apprentissage profond pour estimer la pose 3D (point de vue) d’un objet représenté dans une image dans différentes situations: (i) la localisation de l’objet dans l’image et le modèle 3D exact de l’objet correspondant sont connus, (ii) la localisation et la classe d’objet sont prédits et un exemplaire de modèle 3D est fourni pour chaque classe d’objets, et (iii) les modèles 3D ne sont pas pris en compte et seul la localisation de l’objet est prédite sans que l’objet soit classé dans une catégorie spécifique. Les principales contributions de cette thèse sont les suivantes. Tout d’abord, nous proposons une approche d’apprentissage profond pour l’estimation du point de vue sans catégorie. Cette approche permet d’estimer la pose de tout objets conditionné uniquement sur son modèle 3D, qu’il soit similaire ou non aux objets vus au moment de l’apprentissage. Le réseau proposé contient des modules distincts pour l’extraction de caractéristiques d’image, l’extraction de caractéristiques de forme et la prédiction de pose. Ces modules peuvent avoir différentes variantes pour différentes représentations de modèles 3D, mais s’intègrent dans une architecture entraînable de bout en bout. Deuxièmement, pour permettre l’inférence sans modèle d’objet 3D exact, nous développons une approche d’estimation du point de vue basée sur des exemples de classe qui apprend à conditionner la prédiction du point de vue à des caractéristiques de la classe correspondante extraite de quelques modèles 3D pendant l’entraînement. Cette approche diffère de l’approche précédente en ce sens que nous extrayons des caractéristiques générales pour chaque classe au lieu de les traiter indépendamment pour chaque objet. Nous montrons que l’approche proposée est robuste par rapport à la précision des modèles 3D fournis et qu’elle peut être adaptée rapidement à de nouvelles classes avec seulement quelques exemples étiquetés. Troisièmement, nous définissons un cadre simple mais efficace qui traîte à la fois la détection d’objets et l’estimation du point de vue à partir de seulement un petit nombre d’images d’apprentissage. Nous exploitons, dans un contexte de méta-apprentissage, des informations de classe spécifiques aux tâches et présentes dans des bases de données existants, telles que des images avec des boîtes 2D pour la détection d’objets et des exemplaires de modèle 3D de différentes classes pour l’estimation du point de vue. De plus, nous proposons une évaluation conjointe de la détection d’objets et de l’estimation du point de vue pour le cas d’un très petit jeu de données d’apprentissage. Enfin, nous développons une approche d’estimation du point de vue d’objet indépendante de la classe qui estime le point de vue directement à partir d’une représentation de l’image, où l’espace de représentations est optimisé pour l’estimation de la pose d’objet grâce à un apprentissage contrastif sensible à la géométrie. Plutôt que de rassembler aveuglément les représentations d’un même objet dans différentes vues augmentées et d’écarter les représentations d’objets différents tout en ignorant la différence de pose entre eux, nous proposons une fonction de perte contrastive sensible à la pose qui éloignent entre elles les représentations d’objets ayant des poses différentes, ignorant la classe de ces objets. En partageant les poids du réseau entre toutes les catégories pendant l’entraînement, nous obtenons un réseau d’estimation de point de vue indépendant de la classe qui peut fonctionner sur des objets de n’importe quelle catégorie. Notre méthode obtient des résultats à l’état de l’art pour l’estimation de pose 3D dans les benchmarks Pascal3D+, ObjectNet3D et Pix3D, à la fois pour chaque jeu de données indépendamment et entre jeux de données (en entraînant sur l’un et en testant sur l’autre)

    L'estimation de point de vue de l'objet dans la nature

    No full text
    The goal of this thesis is to develop deep-learning approaches for estimating the 3D pose (viewpoint) of an object pictured in an image in different situations: (i) the object location in the image and the exact 3D model of the corresponding object are known, (ii) both the object location and the class are predicted and an exemplar 3D model is provided for each object class, and (iii) no 3D model is used and object location is predicted without the object being classified into a specific category.The key contributions of this thesis are the following. First, we propose a deep- learning approach to category-free viewpoint estimation. This approach can estimate the pose of any object conditioned only on its 3D model, whether or not it is similar to the objects seen at training time. The proposed network contains distinct modules for image feature extraction, shape feature extraction and pose prediction. These modules can have different variants for different representations of 3D models, but remain trainable end-to-end. Second, to allow inferring without exact 3D object models, we develop a class-exemplar-based viewpoint estimation approach that learns to condition the viewpoint prediction on the corresponding class feature extracted from a few 3D models during training. This approach differs from the previous approach in the sense that we extract an exemplar feature for each class instead of treating them independently for each object. We show that the proposed approach is robust against the precision of the provided 3D models and that can be adapted quickly to novel classes with using a few labeled examples. Third, we define a simple yet effective unifying framework that tackles both few-shot object detection and few- shot viewpoint estimation. We exploit, in a meta-learning setting, task-specific class information present in existing datasets, such as images with bounding boxes for object detection and exemplar 3D models of different classes for viewpoint estimation. And we propose a joint evaluation of object detection and viewpoint estimation in the few-shot regime. Finally, we develop a class-agnostic object viewpoint estimation approach that estimates the viewpoint directly from an image embedding, where the embedding space is optimized for object pose estimation through a geometry-aware contrastive learning. Rather than blindly pulling together features of the same object in different augmented views and pushing apart features of different objects while ignoring the pose difference between them, we propose a pose-aware contrastive loss that pushes away the image features of objects having different poses, ignoring the class of these objects. By sharing the network weights across all categories during training, we obtain a class-agnostic viewpoint estimation network that can work on objects of any category. Our method achieve state-of-the-art results in the Pascal3D+, ObjectNet3D and Pix3D category-level object pose estimation benchmarks, under both intra-dataset and inter-dataset settings.Le but de cette thèse est de développer des approches d’apprentissage profond pour estimer la pose 3D (point de vue) d’un objet représenté dans une image dans différentes situations: (i) la localisation de l’objet dans l’image et le modèle 3D exact de l’objet correspondant sont connus, (ii) la localisation et la classe d’objet sont prédits et un exemplaire de modèle 3D est fourni pour chaque classe d’objets, et (iii) les modèles 3D ne sont pas pris en compte et seul la localisation de l’objet est prédite sans que l’objet soit classé dans une catégorie spécifique. Les principales contributions de cette thèse sont les suivantes. Tout d’abord, nous proposons une approche d’apprentissage profond pour l’estimation du point de vue sans catégorie. Cette approche permet d’estimer la pose de tout objets conditionné uniquement sur son modèle 3D, qu’il soit similaire ou non aux objets vus au moment de l’apprentissage. Le réseau proposé contient des modules distincts pour l’extraction de caractéristiques d’image, l’extraction de caractéristiques de forme et la prédiction de pose. Ces modules peuvent avoir différentes variantes pour différentes représentations de modèles 3D, mais s’intègrent dans une architecture entraînable de bout en bout. Deuxièmement, pour permettre l’inférence sans modèle d’objet 3D exact, nous développons une approche d’estimation du point de vue basée sur des exemples de classe qui apprend à conditionner la prédiction du point de vue à des caractéristiques de la classe correspondante extraite de quelques modèles 3D pendant l’entraînement. Cette approche diffère de l’approche précédente en ce sens que nous extrayons des caractéristiques générales pour chaque classe au lieu de les traiter indépendamment pour chaque objet. Nous montrons que l’approche proposée est robuste par rapport à la précision des modèles 3D fournis et qu’elle peut être adaptée rapidement à de nouvelles classes avec seulement quelques exemples étiquetés. Troisièmement, nous définissons un cadre simple mais efficace qui traîte à la fois la détection d’objets et l’estimation du point de vue à partir de seulement un petit nombre d’images d’apprentissage. Nous exploitons, dans un contexte de méta-apprentissage, des informations de classe spécifiques aux tâches et présentes dans des bases de données existants, telles que des images avec des boîtes 2D pour la détection d’objets et des exemplaires de modèle 3D de différentes classes pour l’estimation du point de vue. De plus, nous proposons une évaluation conjointe de la détection d’objets et de l’estimation du point de vue pour le cas d’un très petit jeu de données d’apprentissage. Enfin, nous développons une approche d’estimation du point de vue d’objet indépendante de la classe qui estime le point de vue directement à partir d’une représentation de l’image, où l’espace de représentations est optimisé pour l’estimation de la pose d’objet grâce à un apprentissage contrastif sensible à la géométrie. Plutôt que de rassembler aveuglément les représentations d’un même objet dans différentes vues augmentées et d’écarter les représentations d’objets différents tout en ignorant la différence de pose entre eux, nous proposons une fonction de perte contrastive sensible à la pose qui éloignent entre elles les représentations d’objets ayant des poses différentes, ignorant la classe de ces objets. En partageant les poids du réseau entre toutes les catégories pendant l’entraînement, nous obtenons un réseau d’estimation de point de vue indépendant de la classe qui peut fonctionner sur des objets de n’importe quelle catégorie. Notre méthode obtient des résultats à l’état de l’art pour l’estimation de pose 3D dans les benchmarks Pascal3D+, ObjectNet3D et Pix3D, à la fois pour chaque jeu de données indépendamment et entre jeux de données (en entraînant sur l’un et en testant sur l’autre)
    corecore