13 research outputs found
FroDO: From Detections to 3D Objects
Object-oriented maps are important for scene understanding since they jointly
capture geometry and semantics, allow individual instantiation and meaningful
reasoning about objects. We introduce FroDO, a method for accurate 3D
reconstruction of object instances from RGB video that infers object location,
pose and shape in a coarse-to-fine manner. Key to FroDO is to embed object
shapes in a novel learnt space that allows seamless switching between sparse
point cloud and dense DeepSDF decoding. Given an input sequence of localized
RGB frames, FroDO first aggregates 2D detections to instantiate a
category-aware 3D bounding box per object. A shape code is regressed using an
encoder network before optimizing shape and pose further under the learnt shape
priors using sparse and dense shape representations. The optimization uses
multi-view geometric, photometric and silhouette losses. We evaluate on
real-world datasets, including Pix3D, Redwood-OS, and ScanNet, for single-view,
multi-view, and multi-object reconstruction.Comment: To be published in CVPR 2020. The first two authors contributed
equall
Desarrollo de una aplicación de visión artificial para escanear objetos 3D con cámaras de fotos
Los métodos tradicionales de escaneo 3D requieren de un contacto fÃsico directo con los
objetos a escanear. En algunos casos demandan incluso la rotación y movimiento constante de
estos, lo cual representa un riesgo para objetos frágiles como las piezas arqueológicas. Si
ignoramos este factor de riesgo podemos causar daños irreparables y frustrar el proceso de
documentación de estas. Por otro lado, existen técnicas de escaneo 3D sin contacto - pasivas
que no requieren de una interacción directa con los objetos. Es por ello que se propone
desarrollar un software que permita escanear piezas arqueológicas usando las técnicas de
reconstrucción tridimensional mediante conceptos de visión artificial, aprendizaje de máquina,
data augmentation y mallas poligonales.
Para lograr nuestro cometido se parte de un set inicial de 962 huacos peruanos pre
escaneados proporcionados por el grupo de Inteligencia Artificial PUCP. Con este conjunto de
datos se genera una extenso volumen de imágenes los cuales son procesados y utilizados para
el entrenamiento de un modelo de aprendizaje de máquina. Segundo, al obtener unos primeros
resultados se propone llevar a cabo la técnica de data augmentation para extender nuestra data
disponible, normalizarla, segmentarla y con ello entrenar múltiples modelos bajo 2
experimentos definidos. Todo ello nos permite mejorar los resultados de reconstrucción de
objetos 3D considerando la alta variabilidad de huacos peruanos. Finalmente se implementa
una interfaz gráfica la cual permite al usuario interactuar con el proyecto desarrollado.
En conclusión, se logra desarrollar una herramienta de software que nos permite cargar
videograbaciones reales de piezas arqueológicas (bajo ciertos parámetros establecidos),
procesar los archivos, visualizar y descargar los resultados obtenidos como mallas poligonales
(reconstrucciones 3D almacenados en el computador)
Técnicas de representación y reconstrucción de objetos 3D en el computador: una revisión de literatura
Actualmente en el mundo, las tecnologÃas de escaneo 3D se clasifican en dos grupos: de
contacto y sin contacto. El primer grupo se caracteriza por la necesidad de reposar el escáner
sobre el objeto (Sreenivasa K. 2003). Este tipo de escáneres representan un riesgo cuando
los objetos en cuestión no pueden ser manipulados libremente debido a su fragilidad. Por
otro lado, el segundo grupo de tecnologÃas son mayormente usadas en investigaciones y
poseen una amplia variedad de aplicaciones en la industria medicinal y de entretenimiento.
Este último grupo a su vez se divide en dos sub-grupos: activos y pasivos (Pears N. 2012).
Las tecnologÃas de escaneo 3D activos se basan en el análisis y medición del tiempo de
envÃo y retorno de una señal hacia el objeto para estimar la posición de la superficie. Por otro
lado, las técnicas de escaneo sin contacto-pasivas no necesitan de la manipulación del
objeto ni medición de señales ya que aprovechan la luz ambiental.
Dentro de las ciencias de la computación existe el problema de cómo sintetizar, procesar y
analizar la información de una superficie obtenida mediante herramientas de escaneo 3D y
guardarla en el computador con el fin de que este pueda ser visualizada y/o manipulada por
otras herramientas informáticas. A lo largo de los años han surgido múltiples técnicas de
representación de objetos en un espacio de tres dimensiones. Sin embargo, estas técnicas
dependen fuertemente de las herramientas empleadas durante el proceso de escaneo. Es
por ello que se han desarrollado también técnicas pasivas-sin contacto que permitan la
obtención de superficies únicamente a partir de una colección de imágenes y haciendo uso
de redes neuronales entrenadas en extensos conjuntos de datos. Para poder entender estas
tecnologÃas emergentes es necesario investigar a profundidad cuales son los recientes
métodos para generar superficies u objetos 3D, en qué casos se utilizan los distintos métodos
y cuáles son los enfoques de los autores al emplear dichas técnicas.Trabajo de investigació
EvAC3D: From Event-based Apparent Contours to 3D Models via Continuous Visual Hulls
3D reconstruction from multiple views is a successful computer vision field
with multiple deployments in applications. State of the art is based on
traditional RGB frames that enable optimization of photo-consistency cross
views. In this paper, we study the problem of 3D reconstruction from
event-cameras, motivated by the advantages of event-based cameras in terms of
low power and latency as well as by the biological evidence that eyes in nature
capture the same data and still perceive well 3D shape. The foundation of our
hypothesis that 3D reconstruction is feasible using events lies in the
information contained in the occluding contours and in the continuous scene
acquisition with events. We propose Apparent Contour Events (ACE), a novel
event-based representation that defines the geometry of the apparent contour of
an object. We represent ACE by a spatially and temporally continuous implicit
function defined in the event x-y-t space. Furthermore, we design a novel
continuous Voxel Carving algorithm enabled by the high temporal resolution of
the Apparent Contour Events. To evaluate the performance of the method, we
collect MOEC-3D, a 3D event dataset of a set of common real-world objects. We
demonstrate the ability of EvAC3D to reconstruct high-fidelity mesh surfaces
from real event sequences while allowing the refinement of the 3D
reconstruction for each individual event.Comment: 16 pages, 8 figures, European Conference on Computer Vision (ECCV)
202
iNeRF: Inverting Neural Radiance Fields for Pose Estimation
We present iNeRF, a framework that performs mesh-free pose estimation by
"inverting" a Neural RadianceField (NeRF). NeRFs have been shown to be
remarkably effective for the task of view synthesis - synthesizing
photorealistic novel views of real-world scenes or objects. In this work, we
investigate whether we can apply analysis-by-synthesis via NeRF for mesh-free,
RGB-only 6DoF pose estimation - given an image, find the translation and
rotation of a camera relative to a 3D object or scene. Our method assumes that
no object mesh models are available during either training or test time.
Starting from an initial pose estimate, we use gradient descent to minimize the
residual between pixels rendered from a NeRF and pixels in an observed image.
In our experiments, we first study 1) how to sample rays during pose refinement
for iNeRF to collect informative gradients and 2) how different batch sizes of
rays affect iNeRF on a synthetic dataset. We then show that for complex
real-world scenes from the LLFF dataset, iNeRF can improve NeRF by estimating
the camera poses of novel images and using these images as additional training
data for NeRF. Finally, we show iNeRF can perform category-level object pose
estimation, including object instances not seen during training, with RGB
images by inverting a NeRF model inferred from a single view.Comment: Website: http://yenchenlin.me/inerf