48 research outputs found
Example-based Image Recoloring in Indoor Environment
Color structure of a home scene image closely relates to the material properties of its local regions. Existing color migration methods typically fail to fully infer the correlation between the coloring of local home scene regions, leading to a local blur problem. In this paper, we propose a color migration framework for home scene images. It picks the coloring from a template image and transforms such coloring to a home scene image through a simple interaction. Our framework comprises three main parts. First, we carry out an interactive segmentation to divide an image into local regions and extract their corresponding colors. Second, we generate a matching color table by sampling the template image according to the color structure of the original home scene image. Finally, we transform colors from the matching color table to the target home scene image with the boundary transition maintained. Experimental results show that our method can effectively transform the coloring of a scene matching with the color composition of a given natural or interior scenery
LEGO-Net: Learning Regular Rearrangements of Objects in Rooms
Humans universally dislike the task of cleaning up a messy room. If machines
were to help us with this task, they must understand human criteria for regular
arrangements, such as several types of symmetry, co-linearity or
co-circularity, spacing uniformity in linear or circular patterns, and further
inter-object relationships that relate to style and functionality. Previous
approaches for this task relied on human input to explicitly specify goal
state, or synthesized scenes from scratch -- but such methods do not address
the rearrangement of existing messy scenes without providing a goal state. In
this paper, we present LEGO-Net, a data-driven transformer-based iterative
method for learning regular rearrangement of objects in messy rooms. LEGO-Net
is partly inspired by diffusion models -- it starts with an initial messy state
and iteratively "de-noises'' the position and orientation of objects to a
regular state while reducing the distance traveled. Given randomly perturbed
object positions and orientations in an existing dataset of
professionally-arranged scenes, our method is trained to recover a regular
re-arrangement. Results demonstrate that our method is able to reliably
rearrange room scenes and outperform other methods. We additionally propose a
metric for evaluating regularity in room arrangements using number-theoretic
machinery.Comment: Project page: https://ivl.cs.brown.edu/projects/lego-ne
Advances in Data-Driven Analysis and Synthesis of 3D Indoor Scenes
This report surveys advances in deep learning-based modeling techniques that
address four different 3D indoor scene analysis tasks, as well as synthesis of
3D indoor scenes. We describe different kinds of representations for indoor
scenes, various indoor scene datasets available for research in the
aforementioned areas, and discuss notable works employing machine learning
models for such scene modeling tasks based on these representations.
Specifically, we focus on the analysis and synthesis of 3D indoor scenes. With
respect to analysis, we focus on four basic scene understanding tasks -- 3D
object detection, 3D scene segmentation, 3D scene reconstruction and 3D scene
similarity. And for synthesis, we mainly discuss neural scene synthesis works,
though also highlighting model-driven methods that allow for human-centric,
progressive scene synthesis. We identify the challenges involved in modeling
scenes for these tasks and the kind of machinery that needs to be developed to
adapt to the data representation, and the task setting in general. For each of
these tasks, we provide a comprehensive summary of the state-of-the-art works
across different axes such as the choice of data representation, backbone,
evaluation metric, input, output, etc., providing an organized review of the
literature. Towards the end, we discuss some interesting research directions
that have the potential to make a direct impact on the way users interact and
engage with these virtual scene models, making them an integral part of the
metaverse.Comment: Published in Computer Graphics Forum, Aug 202
Multi feature-rich synthetic colour to improve human visual perception of point clouds
Although point features have shown their usefulness in classification with Machine Learning, point cloud visualization enhancement methods focus mainly on lighting. The visualization of point features helps to improve the perception of the 3D environment. This paper proposes Multi Feature-Rich Synthetic Colour (MFRSC) as an alternative non-photorealistic colour approach of natural-coloured point clouds. The method is based on the selection of nine features (reflectance, return number, inclination, depth, height, point density, linearity, planarity, and scattering) associated with five human perception descriptors (edges, texture, shape, size, depth, orientation). The features are reduced to fit the RGB display channels. All feature permutations are analysed according to colour distance with the natural-coloured point cloud and Image Quality Assessment. As a result, the selected feature permutations allow a clear visualization of the scene's rendering objects, highlighting edges, planes, and volumetric objects. MFRSC effectively replaces natural colour, even with less distorted visualization according to BRISQUE, NIQUE and PIQE. In addition, the assignment of features in RGB channels enables the use of MFRSC in software that does not support colorization based on point attributes (most commercially available software). MFRSC can be combined with other non-photorealistic techniques such as Eye-Dome Lighting or Ambient Occlusion.Xunta de Galicia | Ref. ED481B-2019-061Xunta de Galicia | Ref. ED431F 2022/08Agencia Estatal de InvestigaciĂłn | Ref. PID2019-105221RB-C43Universidade de Vigo/CISU
Indoor Mapping and Reconstruction with Mobile Augmented Reality Sensor Systems
Augmented Reality (AR) ermöglicht es, virtuelle, dreidimensionale Inhalte direkt
innerhalb der realen Umgebung darzustellen. Anstatt jedoch beliebige virtuelle
Objekte an einem willkĂŒrlichen Ort anzuzeigen, kann AR Technologie auch genutzt
werden, um Geodaten in situ an jenem Ort darzustellen, auf den sich die Daten
beziehen. Damit eröffnet AR die Möglichkeit, die reale Welt durch virtuelle, ortbezogene
Informationen anzureichern. Im Rahmen der vorliegenen Arbeit wird diese
Spielart von AR als "Fused Reality" definiert und eingehend diskutiert.
Der praktische Mehrwert, den dieses Konzept der Fused Reality bietet, lÀsst sich
gut am Beispiel seiner Anwendung im Zusammenhang mit digitalen GebÀudemodellen
demonstrieren, wo sich gebÀudespezifische Informationen - beispielsweise der
Verlauf von Leitungen und Kabeln innerhalb der WĂ€nde - lagegerecht am realen
Objekt darstellen lassen. Um das skizzierte Konzept einer Indoor Fused Reality
Anwendung realisieren zu können, mĂŒssen einige grundlegende Bedingungen erfĂŒllt
sein. So kann ein bestimmtes GebÀude nur dann mit ortsbezogenen Informationen
augmentiert werden, wenn von diesem GebĂ€ude ein digitales Modell verfĂŒgbar ist.
Zwar werden gröĂere Bauprojekt heutzutage oft unter Zuhilfename von Building
Information Modelling (BIM) geplant und durchgefĂŒhrt, sodass ein digitales Modell
direkt zusammen mit dem realen GebÀude ensteht, jedoch sind im Falle Àlterer
BestandsgebĂ€ude digitale Modelle meist nicht verfĂŒgbar. Ein digitales Modell eines
bestehenden GebĂ€udes manuell zu erstellen, ist zwar möglich, jedoch mit groĂem
Aufwand verbunden. Ist ein passendes GebÀudemodell vorhanden, muss ein AR
GerĂ€t auĂerdem in der Lage sein, die eigene Position und Orientierung im GebĂ€ude
relativ zu diesem Modell bestimmen zu können, um Augmentierungen lagegerecht
anzeigen zu können.
Im Rahmen dieser Arbeit werden diverse Aspekte der angesprochenen Problematik
untersucht und diskutiert. Dabei werden zunÀchst verschiedene Möglichkeiten
diskutiert, Indoor-GebĂ€udegeometrie mittels Sensorsystemen zu erfassen. AnschlieĂend
wird eine Untersuchung prÀsentiert, inwiefern moderne AR GerÀte, die
in der Regel ebenfalls ĂŒber eine Vielzahl an Sensoren verfĂŒgen, ebenfalls geeignet
sind, als Indoor-Mapping-Systeme eingesetzt zu werden. Die resultierenden Indoor
Mapping DatensÀtze können daraufhin genutzt werden, um automatisiert
GebÀudemodelle zu rekonstruieren. Zu diesem Zweck wird ein automatisiertes,
voxel-basiertes Indoor-Rekonstruktionsverfahren vorgestellt. Dieses wird auĂerdem
auf der Grundlage vierer zu diesem Zweck erfasster DatensÀtze mit zugehörigen
Referenzdaten quantitativ evaluiert. Desweiteren werden verschiedene
Möglichkeiten diskutiert, mobile AR GerÀte innerhalb eines GebÀudes und des zugehörigen
GebĂ€udemodells zu lokalisieren. In diesem Kontext wird auĂerdem auch
die Evaluierung einer Marker-basierten Indoor-Lokalisierungsmethode prÀsentiert.
AbschlieĂend wird zudem ein neuer Ansatz, Indoor-Mapping DatensĂ€tze an den
Achsen des Koordinatensystems auszurichten, vorgestellt
Learning Object Recognition and Object Class Segmentation with Deep Neural Networks on GPU
As cameras are becoming ubiquitous and internet storage abundant, the need for computers to understand images is growing rapidly. This thesis is concerned with two computer vision tasks, recognizing objects and their location, and segmenting images according to object classes. We focus on deep learning approaches, which in recent years had a tremendous influence on machine learning in general and computer vision in particular. The thesis presents our research into deep learning models and algorithms. It is divided into three parts. The first part describes our GPU deep learning framework. Its hierarchical structure allows transparent use of GPU, facilitates specification of complex models, model inspection, and constitutes the implementation basis of the later chapters. Components of this framework were used in a real-time GPU library for random forests, which we present and evaluate. In the second part, we investigate greedy learning techniques for semi-supervised object recognition. We improve the feature learning capabilities of restricted Boltzmann machines (RBM) with lateral interactions and auto-encoders with additional hidden layers, and offer empirical insight into the evaluation of RBM learning algorithms. The third part of this thesis focuses on object class segmentation. Here, we incrementally introduce novel neural network models and training algorithms, successively improving the state of the art on multiple datasets. Our novel methods include supervised pre-training, histogram of oriented gradient DNN inputs, depth normalization and recurrence. All contribute towards improving segmentation performance beyond what is possible with competitive baseline methods. We further demonstrate that pixelwise labeling combined with a structured loss function can be utilized to localize objects. Finally, we show how transfer learning in combination with object-centered depth colorization can be used to identify objects. We evaluate our proposed methods on the publicly available MNIST, MSRC, INRIA Graz-02, NYU-Depth, Pascal VOC, and Washington RGB-D Objects datasets.AllgegenwĂ€rtige Kameras und preiswerter Internetspeicher erzeugen einen groĂen Bedarf an Algorithmen fĂŒr maschinelles Sehen. Die vorliegende Dissertation adressiert zwei Teilbereiche dieses Forschungsfeldes: Erkennung von Objekten und Objektklassensegmentierung. Der methodische Schwerpunkt liegt auf dem Lernen von tiefen Modellen (âDeep Learningâ). Diese haben in den vergangenen Jahren einen enormen Einfluss auf maschinelles Lernen allgemein und speziell maschinelles Sehen gewonnen. Dabei behandeln wir behandeln wir drei Themenfelder. Der erste Teil der Arbeit beschreibt ein GPU-basiertes Softwaresystem fĂŒr Deep Learning. Dessen hierarchische Struktur erlaubt schnelle GPU-Berechnungen, einfache Spezifikation komplexer Modelle und interaktive Modellanalyse. Damit liefert es das Fundament fĂŒr die folgenden Kapitel. Teile des Systems finden Verwendung in einer Echtzeit-GPU-Bibliothek fĂŒr Random Forests, die wir ebenfalls vorstellen und evaluieren. Der zweite Teil der Arbeit beleuchtet Greedy-Lernalgorithmen fĂŒr halb ĂŒberwachtes Lernen. Hier werden hierarchische Modelle schrittweise aus Modulen wie Autokodierern oder restricted Boltzmann Machines (RBM ) aufgebaut. Wir verbessern die ReprĂ€sentationsfĂ€higkeiten von RBM auf Bildern durch EinfĂŒhrung lokaler und lateraler VerknĂŒpfungen und liefern empirische Erkenntnisse zur Bewertung von RBM-Lernalgorithmen. Wir zeigen zudem, dass die in Autokodierern verwendeten einschichtigen Kodierer komplexe ZusammenhĂ€nge ihrer Eingaben nicht erkennen können und schlagen stattdessen einen hybriden Kodierer vor, der sowohl komplexe ZusammenhĂ€nge erkennen, als auch weiterhin einfache ZusammenhĂ€nge einfach reprĂ€sentieren kann. Im dritten Teil der Arbeit stellen wir neue neuronale Netzarchitekturen und Trainingsmethoden fĂŒr die Objektklassensegmentierung vor. Wir zeigen, dass neuronale Netze mit ĂŒberwachtem Vortrainieren, wiederverwendeten Ausgaben und Histogrammen Orientierter Gradienten (HOG) als Eingabe den aktuellen Stand der Technik auf mehreren RGB-Datenmengen erreichen können. AnschlieĂend erweitern wir unsere Methoden in zwei Dimensionen, sodass sie mit Tiefendaten (RGB-D) und Videos verarbeiten können. Dazu fĂŒhren wir zunĂ€chst Tiefennormalisierung fĂŒr Objektklassensegmentierung ein um die Skala zu fixieren, und erlauben expliziten Zugriff auf die Höhe in einem Bildausschnitt. SchlieĂlich stellen wir ein rekurrentes konvolutionales neuronales Netz vor, das einen groĂen rĂ€umlichen Kontext einbezieht, hochaufgelöste Ausgaben produziert und Videosequenzen verarbeiten kann. Dadurch verbessert sich die Bildsegmentierung relativ zu vergleichbaren Methoden, etwa auf der Basis von Random Forests oder CRF . Wir zeigen dann, dass pixelbasierte Ausgaben in neuronalen Netzen auch benutzt werden können um die Position von Objekten zu detektieren. Dazu kombinieren wir Techniken des strukturierten Lernens mit Konvolutionsnetzen. SchlieĂlich schlagen wir eine objektzentrierte EinfĂ€rbungsmethode vor, die es ermöglicht auf RGB-Bildern trainierte neuronale Netze auf RGB-D-Bildern einzusetzen. Dieser Transferlernansatz erlaubt es uns auch mit stark reduzierten Trainingsmengen noch bessere Ergebnisse beim SchĂ€tzen von Objektklassen, -instanzen und -orientierungen zu erzielen. Wir werten die von uns vorgeschlagenen Methoden auf den öffentlich zugĂ€nglichen MNIST, MSRC, INRIA Graz-02, NYU-Depth, Pascal VOC, und Washington RGB-D Objects Datenmengen aus