13 research outputs found

    FroDO: From Detections to 3D Objects

    Get PDF
    Object-oriented maps are important for scene understanding since they jointly capture geometry and semantics, allow individual instantiation and meaningful reasoning about objects. We introduce FroDO, a method for accurate 3D reconstruction of object instances from RGB video that infers object location, pose and shape in a coarse-to-fine manner. Key to FroDO is to embed object shapes in a novel learnt space that allows seamless switching between sparse point cloud and dense DeepSDF decoding. Given an input sequence of localized RGB frames, FroDO first aggregates 2D detections to instantiate a category-aware 3D bounding box per object. A shape code is regressed using an encoder network before optimizing shape and pose further under the learnt shape priors using sparse and dense shape representations. The optimization uses multi-view geometric, photometric and silhouette losses. We evaluate on real-world datasets, including Pix3D, Redwood-OS, and ScanNet, for single-view, multi-view, and multi-object reconstruction.Comment: To be published in CVPR 2020. The first two authors contributed equall

    Desarrollo de una aplicación de visión artificial para escanear objetos 3D con cámaras de fotos

    Get PDF
    Los métodos tradicionales de escaneo 3D requieren de un contacto físico directo con los objetos a escanear. En algunos casos demandan incluso la rotación y movimiento constante de estos, lo cual representa un riesgo para objetos frágiles como las piezas arqueológicas. Si ignoramos este factor de riesgo podemos causar daños irreparables y frustrar el proceso de documentación de estas. Por otro lado, existen técnicas de escaneo 3D sin contacto - pasivas que no requieren de una interacción directa con los objetos. Es por ello que se propone desarrollar un software que permita escanear piezas arqueológicas usando las técnicas de reconstrucción tridimensional mediante conceptos de visión artificial, aprendizaje de máquina, data augmentation y mallas poligonales. Para lograr nuestro cometido se parte de un set inicial de 962 huacos peruanos pre escaneados proporcionados por el grupo de Inteligencia Artificial PUCP. Con este conjunto de datos se genera una extenso volumen de imágenes los cuales son procesados y utilizados para el entrenamiento de un modelo de aprendizaje de máquina. Segundo, al obtener unos primeros resultados se propone llevar a cabo la técnica de data augmentation para extender nuestra data disponible, normalizarla, segmentarla y con ello entrenar múltiples modelos bajo 2 experimentos definidos. Todo ello nos permite mejorar los resultados de reconstrucción de objetos 3D considerando la alta variabilidad de huacos peruanos. Finalmente se implementa una interfaz gráfica la cual permite al usuario interactuar con el proyecto desarrollado. En conclusión, se logra desarrollar una herramienta de software que nos permite cargar videograbaciones reales de piezas arqueológicas (bajo ciertos parámetros establecidos), procesar los archivos, visualizar y descargar los resultados obtenidos como mallas poligonales (reconstrucciones 3D almacenados en el computador)

    Técnicas de representación y reconstrucción de objetos 3D en el computador: una revisión de literatura

    Get PDF
    Actualmente en el mundo, las tecnologías de escaneo 3D se clasifican en dos grupos: de contacto y sin contacto. El primer grupo se caracteriza por la necesidad de reposar el escáner sobre el objeto (Sreenivasa K. 2003). Este tipo de escáneres representan un riesgo cuando los objetos en cuestión no pueden ser manipulados libremente debido a su fragilidad. Por otro lado, el segundo grupo de tecnologías son mayormente usadas en investigaciones y poseen una amplia variedad de aplicaciones en la industria medicinal y de entretenimiento. Este último grupo a su vez se divide en dos sub-grupos: activos y pasivos (Pears N. 2012). Las tecnologías de escaneo 3D activos se basan en el análisis y medición del tiempo de envío y retorno de una señal hacia el objeto para estimar la posición de la superficie. Por otro lado, las técnicas de escaneo sin contacto-pasivas no necesitan de la manipulación del objeto ni medición de señales ya que aprovechan la luz ambiental. Dentro de las ciencias de la computación existe el problema de cómo sintetizar, procesar y analizar la información de una superficie obtenida mediante herramientas de escaneo 3D y guardarla en el computador con el fin de que este pueda ser visualizada y/o manipulada por otras herramientas informáticas. A lo largo de los años han surgido múltiples técnicas de representación de objetos en un espacio de tres dimensiones. Sin embargo, estas técnicas dependen fuertemente de las herramientas empleadas durante el proceso de escaneo. Es por ello que se han desarrollado también técnicas pasivas-sin contacto que permitan la obtención de superficies únicamente a partir de una colección de imágenes y haciendo uso de redes neuronales entrenadas en extensos conjuntos de datos. Para poder entender estas tecnologías emergentes es necesario investigar a profundidad cuales son los recientes métodos para generar superficies u objetos 3D, en qué casos se utilizan los distintos métodos y cuáles son los enfoques de los autores al emplear dichas técnicas.Trabajo de investigació

    EvAC3D: From Event-based Apparent Contours to 3D Models via Continuous Visual Hulls

    Full text link
    3D reconstruction from multiple views is a successful computer vision field with multiple deployments in applications. State of the art is based on traditional RGB frames that enable optimization of photo-consistency cross views. In this paper, we study the problem of 3D reconstruction from event-cameras, motivated by the advantages of event-based cameras in terms of low power and latency as well as by the biological evidence that eyes in nature capture the same data and still perceive well 3D shape. The foundation of our hypothesis that 3D reconstruction is feasible using events lies in the information contained in the occluding contours and in the continuous scene acquisition with events. We propose Apparent Contour Events (ACE), a novel event-based representation that defines the geometry of the apparent contour of an object. We represent ACE by a spatially and temporally continuous implicit function defined in the event x-y-t space. Furthermore, we design a novel continuous Voxel Carving algorithm enabled by the high temporal resolution of the Apparent Contour Events. To evaluate the performance of the method, we collect MOEC-3D, a 3D event dataset of a set of common real-world objects. We demonstrate the ability of EvAC3D to reconstruct high-fidelity mesh surfaces from real event sequences while allowing the refinement of the 3D reconstruction for each individual event.Comment: 16 pages, 8 figures, European Conference on Computer Vision (ECCV) 202

    iNeRF: Inverting Neural Radiance Fields for Pose Estimation

    Full text link
    We present iNeRF, a framework that performs mesh-free pose estimation by "inverting" a Neural RadianceField (NeRF). NeRFs have been shown to be remarkably effective for the task of view synthesis - synthesizing photorealistic novel views of real-world scenes or objects. In this work, we investigate whether we can apply analysis-by-synthesis via NeRF for mesh-free, RGB-only 6DoF pose estimation - given an image, find the translation and rotation of a camera relative to a 3D object or scene. Our method assumes that no object mesh models are available during either training or test time. Starting from an initial pose estimate, we use gradient descent to minimize the residual between pixels rendered from a NeRF and pixels in an observed image. In our experiments, we first study 1) how to sample rays during pose refinement for iNeRF to collect informative gradients and 2) how different batch sizes of rays affect iNeRF on a synthetic dataset. We then show that for complex real-world scenes from the LLFF dataset, iNeRF can improve NeRF by estimating the camera poses of novel images and using these images as additional training data for NeRF. Finally, we show iNeRF can perform category-level object pose estimation, including object instances not seen during training, with RGB images by inverting a NeRF model inferred from a single view.Comment: Website: http://yenchenlin.me/inerf
    corecore