317 research outputs found
Deep learning for internet of underwater things and ocean data analytics
The Internet of Underwater Things (IoUT) is an emerging technological ecosystem developed for connecting objects in maritime and underwater environments. IoUT technologies are empowered by an extreme number of deployed sensors and actuators. In this thesis, multiple IoUT sensory data are augmented with machine intelligence for forecasting purposes
Immersive Automotive Stereo Vision
KĂŒrzlich wurde das erste In-Car Augmented Reality (AR) System eingefĂŒhrt. Das
System beinhaltet das Rendern von verschiedenen 3D Objekten auf einem Live-Video,
welches auf einem Zentraldisplay in der Mittelkonsole des Fahrzeuges angezeigt
wird. Ziel dieser Arbeit ist es ein System zu entwickeln, welches nicht nur 2D-Videos
augmentieren kann, sondern eine 3D-Rekonstruktion der aktuellen Fahrzeugumgebung
erstellen kann. Dies ermöglicht eine Vielzahl von verschiedenen Anwendungen,
u.a. die Anzeige dieses 3D-Scans auf einem Head-mounted Display (HMD) als Teil
einer Mixed Reality (MR) Anwendung. Eine MR-Anwendung bedarf einer ĂŒberzeugenden
und immersiven Darstellung der Umgebung mit einer hohen Renderfrequenz.
Wir beschrÀnken uns auf eine einzelne Front-Stereokamera, welche vorne am Auto
verbaut oder montiert ist, um diese Aufgabe zu bewÀltigen. Hierzu fusionieren wir
die Stereomessungen temporÀr.
Zuerst analysieren wir von Grund auf die Effekte der temporalen Stereofusion.
Wir schÀtzen die erreichbare Genauigkeit ab und zeigen EinschrÀnkungen der temporalen
Fusion und unseren Annahmen auf. Wir leiten auĂerdem ein 1D Extended
Information Filter und ein 3D Extended Kalman Filter her, um Stereomessungen temporÀr
zu vereinen. Die Filter verbesserten den Tiefenfehler in Simulationen wesentlich.
Die Ergebnisse der Analyse integrieren wir in ein neuartiges 3D-Rekonstruktions-
Framework, bei dem jeder Punkt mit einem Filter modelliert wird. Das sog. âWarpingâ
von Pixeln von einem Bild zu einem anderen Bild ermöglicht die temporÀre Fusion
von Messungen nach einem Clustering-Schritt, welcher uns erlaubt verschiedene
Tiefenebenen pro Pixel gesondert zu betrachten.
Das Framework funktioniert als punkt-basierte Rekonstruktion oder alternativ
als mesh-basierte Erweiterung. HierfĂŒr triangulieren wir Tiefenbilder, um die 3DSzene
nur mit RGB- und Tiefenbildern als Input auf der GPU zu rendern. Wir
können die Eigenschaften von urbanen Szenen und der Kamerabewegung ausnutzen,
um Pixel zu identifizieren und zu rendern, welche nicht mehr in zukĂŒnftigen
Frames beobachtet werden. Das ermöglicht uns diesen Teil der Szene in der gröĂten
beobachteten Auflösung zu rekonstruieren. Solche Randpixel formen einen Schlauch
(âTubeâ) ĂŒber mehrere Frames, weshalb wir dieses Mesh als Tube Mesh bezeichnen.
Unser Framework erlaubt es uns auch die rechenintensiven Filter-Propagationen
komplett auf die GPU auszulagern. DesWeiteren demonstrieren wir ein Verfahren,
um einen vollen, dynamischen, virtuellen Himmel mithilfe der gleichen Kamera
zu erstellen, welcher ergÀnzend zu der 3D-Szenenrekonstruktion als Hintergrund
gezeigt werden kann.
Wir evaluieren unsere Methoden gegen andere Verfahren in einem umfangreichen
Benchmark auf dem populĂ€ren âKITTI Visual Odometryâ-Datensatz und dem synthethischen
SYNTHIA-Datensatz. Neben Stereofehlern im Bild vergleichen wir auch
die Performanz der Verfahren fĂŒr die Rekonstruktion von bestimmten Strukturen
in den Referenz-Tiefenbildern, sowie ihre FĂ€higkeit die Erscheinung der 3D-Szene
aus unterschiedlichen Blickwinkeln vorherzusagen auf dem SYNTHIA-Datensatz.
Unsere Methode zeigt signifikante Verbesserungen des DisparitÀtsfehlers sowie des
Bildfehlers aus unterschiedlichen Blickwinkeln. AuĂerdem erzielen wir eine so hohe
Rendergeschwindigkeit, dass die Anforderung der Bildwiederholrate von modernen
HMDs erfĂŒllt wird. Zum Schluss zeigen wir Herausforderungen in der Evaluation
auf, untersuchen die Auswirkungen des Weglassens einzelner Komponenten
unseres Frameworks und schlieĂen mit einer qualitativen Demonstration von unterschiedlichen DatensĂ€tzen ab, inklusive der Diskussion von FehlerfĂ€llen.Recently, the first in-car augmented reality (AR) system has been introduced to the
market. It features various virtual 3D objects drawn on top of a 2D live video feed,
which is displayed on a central display inside the vehicle. Our goal with this thesis is
to develop an approach that allows to not only augment a 2D video, but to reconstruct
a 3D scene of the surrounding driving environment of the vehicle. This opens up
various possibilities including the display of this 3D scan on a head-mounted display
(HMD) as part of a Mixed Reality (MR) application, which requires a convincing
and immersive visualization of the surroundings with high rendering speed. To
accomplish this task, we limit ourselves to the use of a single front-mounted stereo
camera on a vehicle and fuse stereo measurements temporally.
First, we analyze the effects of temporal stereo fusion thoroughly. We estimate the
theoretically achievable accuracy and highlight limitations of temporal fusion and
our assumptions. We also derive a 1D extended information filter and a 3D extended
Kalman filter to fuse measurements temporally, which substantially improves the
depth error in our simulations. We integrate these results in a novel dense 3D
reconstruction framework, which models each point as a probabilistic filter. Projecting
3D points to the newest image allows us to fuse measurements temporally after a
clustering stage, which also gives us the ability to handle multiple depth layers per
pixel.
The 3D reconstruction framework is point-based, but it also has a mesh-based
extension. For that, we leverage a novel depth image triangulation method to render
the scene on the GPU using only RGB and depth images as input. We can exploit
the nature of urban scenery and the vehicle movement by first identifying and then
rendering pixels of the previous stereo camera frame that are no longer seen in the
current frame. These pixels at the previous image border form a tube over multiple
frames, which we call a tube mesh, and have the highest possible observable resolution.
We are also able to offload intensive filter propagation computations completely
to the GPU. Furthermore, we demonstrate a way to create a dense, dynamic virtual
sky background from the same camera to accompany our reconstructed 3D scene.
We evaluate our method against other approaches in an extensive benchmark on
the popular KITTI visual odometry dataset and on the synthetic SYNTHIA dataset.
Besides stereo error metrics in image space, we also compare how the approaches
perform regarding the available depth structure in the reference depth image and
in their ability to predict the appearance of the scene from different viewing angles
on SYNTHIA. Our method shows significant improvements in terms of disparity
and view prediction errors. We also achieve such a high rendering speed that we can
fulfill the framerate requirements of modern HMDs. Finally, we highlight challenges
in the evaluation, perform ablation studies of our framework and conclude with a
qualitative showcase on different datasets including the discussion of failure cases
Towards Object-Centric Scene Understanding
Visual perception for autonomous agents continues to attract community attention due to the disruptive technologies and the wide applicability of such solutions. Autonomous Driving (AD), a major application in this domain, promises to revolutionize our approach to mobility while bringing critical advantages in limiting accident fatalities.
Fueled by recent advances in Deep Learning (DL), more computer vision tasks are being addressed using a learning paradigm. Deep Neural Networks (DNNs) succeeded consistently in pushing performances to unprecedented levels and demonstrating the ability of such approaches to generalize to an increasing number of difficult problems, such as 3D vision tasks.
In this thesis, we address two main challenges arising from the current approaches. Namely, the computational complexity of multi-task pipelines, and the increasing need for manual annotations. On the one hand, AD systems need to perceive the surrounding environment on different levels of detail and, subsequently, take timely actions. This multitasking further limits the time available for each perception task. On the other hand, the need for universal generalization of such systems to massively diverse situations requires the use of large-scale datasets covering long-tailed cases. Such requirement renders the use of traditional supervised approaches, despite the data readily available in the AD domain, unsustainable in terms of annotation costs, especially for 3D tasks.
Driven by the AD environment nature and the complexity dominated (unlike indoor scenes) by the presence of other scene elements (mainly cars and pedestrians) we focus on the above-mentioned challenges in object-centric tasks. We, then, situate our contributions appropriately in fast-paced literature, while supporting our claims with extensive experimental analysis leveraging up-to-date state-of-the-art results and community-adopted benchmarks
- âŠ