1,438 research outputs found
Image-based photo hulls for fast and photo-realistic new view synthesis
We present an efficient image-based rendering algorithm that generates views of a scene's photo hull. The photo hull is the largest 3D shape that is photo-consistent with photographs taken of the scene from multiple viewpoints. Our algorithm, image-based photo hulls (IBPH), like the image-based visual hulls (IBVH) algorithm from Matusik et al. on which it is based, takes advantage of epipolar geometry to efficiently reconstruct the geometry and visibility of a scene. Our IBPH algorithm differs from IBVH in that it utilizes the color information of the images to identify scene geometry. These additional color constraints result in more accurately reconstructed geometry, which often projects to better synthesized virtual views of the scene. We demonstrate our algorithm running in a realtime 3D telepresence application using video data acquired from multiple viewpoints
Towards Real-Time Novel View Synthesis Using Visual Hulls
This thesis discusses fast novel view synthesis from multiple images taken from different viewpoints. We propose several new algorithms that take advantage of modern graphics hardware to create novel views. Although different approaches are explored, one geometry representation, the visual hull, is employed throughout our work. First the visual hull plays an auxiliary role and assists in reconstruction of depth maps that are utilized for novel view synthesis. Then we treat the visual hull as the principal geometry representation of scene objects. A hardwareaccelerated approach is presented to reconstruct and render visual hulls directly from a set of silhouette images. The reconstruction is embedded in the rendering process and accomplished with an alpha map trimming technique. We go on by combining this technique with hardware-accelerated CSG reconstruction to improve the rendering quality of visual hulls. Finally, photometric information is exploited to overcome an inherent limitation of the visual hull. All algorithms are implemented on a distributed system. Novel views are generated at interactive or real-time frame rates.In dieser Dissertation werden mehrere Verfahren vorgestellt, mit deren Hilfe
neue Ansichten einer Szene aus mehreren Bildströmen errechnet werden können.
Die Bildströme werden hierzu aus unterschiedlichen Blickwinkeln auf die
Szene aufgezeichnet. Wir schlagen mehrere Algorithmen vor, welche die Funktionen
moderner Grafikhardware ausnutzen, um die neuen Ansichten zu errechnen.
Obwohl die Verfahren sich methodisch unterscheiden, basieren sie auf der
gleichen Geometriedarstellung, der Visual Hull.
In der ersten Methode spielt die Visual Hull eine unterstĂŒtzende Rolle bei
der Rekonstruktion von Tiefenbildern, die zur Erzeugung neuer Ansichten verwendet werden. In den nachfolgend vorgestellten Verfahren dient die Visual
Hull primÀr der ReprÀsentation von Objekten in einer Szene. Eine hardwarebeschleunigte Methode, um Visual Hulls direkt aus mehreren Silhouettenbildern zu rekonstruieren und zu rendern, wird vorgestellt. Das Rekonstruktionsverfahren ist hierbei Bestandteil der Renderingmethode und basiert auf einer Alpha Map Trimming Technik. Ein weiterer Algorithmus verbessert die Qualitaet der gerenderten Visual Hulls, indem das Alpha-Map-basierte Verfahren mit einer hardware-beschleunigten CSG Rekonstruktiontechnik kombiniert wird. Eine vierte Methode nutzt zusaetzlich photometrische Information aus, um eine grundlegende Beschraenkung des Visual-Hull-Ansatzes zu umgehen. Alle Verfahren ermoeglichen die interaktive oder Echtzeit- Erzeugung neuer Ansichten
Accelerated volumetric reconstruction from uncalibrated camera views
While both work with images, computer graphics and computer vision are inverse problems. Computer graphics starts traditionally with input geometric models and produces image sequences. Computer vision starts with input image sequences and produces geometric models. In the last few years, there has been a convergence of research to bridge the gap between the two fields.
This convergence has produced a new field called Image-based Rendering and Modeling (IBMR). IBMR represents the effort of using the geometric information recovered from real images to generate new images with the hope that the synthesized
ones appear photorealistic, as well as reducing the time spent on model creation.
In this dissertation, the capturing, geometric and photometric aspects of an IBMR system are studied. A versatile framework was developed that enables the reconstruction of scenes from images acquired with a handheld digital camera. The proposed system targets applications in areas such as Computer Gaming and Virtual Reality, from a lowcost perspective. In the spirit of IBMR, the human operator is allowed to provide the high-level information, while underlying algorithms are used to perform low-level computational work. Conforming to the latest architecture trends, we propose a streaming voxel carving method, allowing a fast GPU-based processing on commodity hardware
3D-TV Production from Conventional Cameras for Sports Broadcast
3DTV production of live sports events presents a challenging problem involving conflicting requirements of main- taining broadcast stereo picture quality with practical problems in developing robust systems for cost effective deployment. In this paper we propose an alternative approach to stereo production in sports events using the conventional monocular broadcast cameras for 3D reconstruction of the event and subsequent stereo rendering. This approach has the potential advantage over stereo camera rigs of recovering full scene depth, allowing inter-ocular distance and convergence to be adapted according to the requirements of the target display and enabling stereo coverage from both existing and âvirtualâ camera positions without additional cameras. A prototype system is presented with results of sports TV production trials for rendering of stereo and free-viewpoint video sequences of soccer and rugby
From Image-based Motion Analysis to Free-Viewpoint Video
The problems of capturing real-world scenes with cameras and automatically analyzing the visible motion have traditionally been in the focus of computer vision research. The photo-realistic rendition of dynamic real-world scenes, on the other hand, is a problem that has been investigated in the field of computer graphics. In this thesis, we demonstrate that the joint solution to all three of these problems enables the creation of powerful new tools that are benecial for both research disciplines. Analysis and rendition of real-world scenes with human actors are amongst the most challenging problems. In this thesis we present new algorithmic recipes to attack them. The dissertation consists of three parts: In part I, we present novel solutions to two fundamental problems of human motion analysis. Firstly, we demonstrate a novel hybrid approach for markerfree human motion capture from multiple video streams. Thereafter, a new algorithm for automatic non-intrusive estimation of kinematic body models of arbitrary moving subjects from video is detailed. In part II of the thesis, we demonstrate that a marker-free motion capture approach makes possible the model-based reconstruction of free-viewpoint videos of human actors from only a handful of video streams. The estimated 3D videos enable the photo-realistic real-time rendition of a dynamic scene from arbitrary novel viewpoints. Texture information from video is not only applied to generate a realistic surface appearance, but also to improve the precision of the motion estimation scheme. The commitment to a generic body model also allows us to reconstruct a time-varying reflectance description of an actor`s body surface which allows us to realistically render the free-viewpoint videos under arbitrary lighting conditions. A novel method to capture high-speed large scale motion using regular still cameras and the principle of multi-exposure photography is described in part III. The fundamental principles underlying the methods in this thesis are not only applicable to humans but to a much larger class of subjects. It is demonstrated that, in conjunction, our proposed algorithmic recipes serve as building blocks for the next generation of immersive 3D visual media.Die Entwicklung neuer Algorithmen zur optischen Erfassung und Analyse der
Bewegung in dynamischen Szenen ist einer der Forschungsschwerpunkte in der
computergestĂŒtzten Bildverarbeitung. WĂ€hrend im maschinellen Bildverstehen
das Augenmerk auf der Extraktion von Informationen liegt, konzentriert sich die
Computergrafik auf das inverse Problem, die fotorealistische Darstellung bewegter Szenen. In jĂŒngster Vergangenheit haben sich die beiden Disziplinen kontinuierlich angenĂ€hert, da es eine Vielzahl an herausfordernden wissenschaftlichen Fragestellungen gibt, die eine gemeinsame Lösung des Bilderfassungs-, des Bildanalyse- und des Bildsyntheseproblems verlangen.
Zwei der schwierigsten Probleme, welche fĂŒr Forscher aus beiden Disziplinen
eine groĂe Relevanz besitzen, sind die Analyse und die Synthese von dynamischen
Szenen, in denen Menschen im Mittelpunkt stehen. Im Rahmen dieser
Dissertation werden Verfahren vorgestellt, welche die optische Erfassung dieser
Art von Szenen, die automatische Analyse der Bewegungen und die realistische
neue Darstellung im Computer erlauben. Es wid deutlich werden, dass eine Integration
von Algorithmen zur Lösung dieser drei Probleme in ein Gesamtsystem
die Erzeugung völlig neuartiger dreidimensionaler Darstellungen von Menschen
in Bewegung ermöglicht. Die Dissertation ist in drei Teile gegliedert:
Teil I beginnt mit der Beschreibung des Entwurfs und des Baus eines Studios
zur zeitsynchronen Erfassung mehrerer Videobildströme. Die im Studio aufgezeichneten
Multivideosequenzen dienen als Eingabedaten fĂŒr die im Rahmen
dieser Dissertation entwickelten videogestĂŒtzten Bewegunsanalyseverfahren und
die Algorithmen zur Erzeugung dreidimensionaler Videos.
Im AnschluĂ daran werden zwei neu entwickelte Verfahren vorgestellt,
die Antworten auf zwei fundamentale Fragen in der optischen Erfassung
menschlicher Bewegung geben, die Messung von Bewegungsparametern und
die Erzeugung von kinematischen Skelettmodellen. Das erste Verfahren ist ein
hybrider Algorithmus zur markierungslosen optischen Messung von Bewegunsgparametern
aus Multivideodaten. Der Verzicht auf optische Markierungen
wird dadurch ermöglicht, dass zur Bewegungsanalyse sowohl aus den Bilddaten
rekonstruierte Volumenmodelle als auch leicht zu erfassende Körpermerkmale
verwendet werden. Das zweite Verfahren dient der automatischen Rekonstruktion
eines kinematischen Skelettmodells anhand von Multivideodaten. Der Algorithmus
benötigt weder optischen Markierungen in der Szene noch a priori
Informationen ĂŒber die Körperstruktur, und ist in gleicher Form auf Menschen,
Tiere und Objekte anwendbar.
Das Thema das zweiten Teils dieser Arbeit ist ein modellbasiertes Verfahrenzur Rekonstruktion dreidimensionaler Videos von Menschen in Bewegung aus
nur wenigen zeitsynchronen Videoströmen. Der Betrachter kann die errechneten
3D Videos auf einem Computer in Echtzeit abspielen und dabei interaktiv
einen beliebigen virtuellen Blickpunkt auf die Geschehnisse einnehmen. Im
Zentrum unseres Ansatzes steht ein silhouettenbasierter Analyse-durch-Synthese
Algorithmus, der es ermöglicht, ohne optische Markierungen sowohl die Form
als auch die Bewegung eines Menschen zu erfassen. Durch die Berechnung
zeitverÀnderlicher OberÀchentexturen aus den Videodaten ist gewÀhrleistet,
dass eine Person aus jedem beliebigen Blickwinkel ein fotorealistisches Erscheinungsbild
besitzt. In einer ersten algorithmischen Erweiterung wird gezeigt, dass
die Texturinformation auch zur Verbesserung der Genauigkeit der Bewegunsgssch
Ă€tzung eingesetzt werden kann. Zudem ist es durch die Verwendung eines
generischen Körpermodells möglich, nicht nur dynamische Texturen sondern
sogar dynamische Reektionseigenschaften der KörperoberÀche zu messen.
Unser Reektionsmodell besteht aus einer parametrischen BRDF fĂŒr jeden Texel
und einer dynamischen Normalenkarte fĂŒr die gesamte KörperoberĂ€che. Auf
diese Weise können 3D Videos auch unter völlig neuen simulierten Beleuchtungsbedingungen
realistisch wiedergegeben werden.
Teil III dieser Arbeit beschreibt ein neuartiges Verfahren zur optischen
Messung sehr schneller Bewegungen. Bisher erforderten optische Aufnahmen
von Hochgeschwindigkeitsbewegungen sehr teure Spezialkameras mit hohen
Bildraten. Im Gegensatz dazu verwendet die hier beschriebene Methode einfache
Digitalfotokameras und das Prinzip der Multiblitzfotograe. Es wird gezeigt, dass
mit Hilfe dieses Verfahrens sowohl die sehr schnelle artikulierte Handbewegung
des Werfers als auch die Flugparameter des Balls wÀhrend eines Baseballpitches
gemessen werden können. Die hochgenau erfaĂten Parameter ermöglichen es, die
gemessene Bewegung in völlig neuer Weise im Computer zu visualisieren.
Obgleich die in dieser Dissertation vorgestellten Verfahren vornehmlich der
Analyse und Darstellung menschlicher Bewegungen dienen, sind die grundlegenden
Prinzipien auch auf viele anderen Szenen anwendbar. Jeder der beschriebenen
Algorithmen löst zwar in erster Linie ein bestimmtes Teilproblem, aber in Ihrer
Gesamtheit können die Verfahren als Bausteine verstanden werden, welche die
nÀchste Generation interaktiver dreidimensionaler Medien ermöglichen werden
Fehlerkaschierte Bildbasierte Darstellungsverfahren
Creating photo-realistic images has been one of the major goals in computer graphics since its early days. Instead of modeling the complexity of nature with standard modeling tools, image-based approaches aim at exploiting real-world footage directly,as they are photo-realistic by definition. A drawback of these approaches has always been that the composition or combination of different sources is a non-trivial task, often resulting in annoying visible artifacts. In this thesis we focus on different techniques to diminish visible artifacts when combining multiple images in a common image domain. The results are either novel images, when dealing with the composition task of multiple images, or novel video sequences rendered in real-time, when dealing with video footage from multiple cameras.Fotorealismus ist seit jeher eines der groĂen Ziele in der Computergrafik. Anstatt die KomplexitĂ€t der Natur mit standardisierten Modellierungswerkzeugen nachzubauen, gehen bildbasierte AnsĂ€tze den umgekehrten Weg und verwenden reale Bildaufnahmen zur Modellierung, da diese bereits per Definition fotorealistisch sind. Ein Nachteil dieser Variante ist jedoch, dass die Komposition oder Kombination mehrerer Quellbilder eine nichttriviale Aufgabe darstellt und hĂ€ufig unangenehm auffallende Artefakte im erzeugten Bild nach sich zieht. In dieser Dissertation werden verschiedene AnsĂ€tze verfolgt, um Artefakte zu verhindern oder abzuschwĂ€chen, welche durch die Komposition oder Kombination mehrerer Bilder in einer gemeinsamen BilddomĂ€ne entstehen. Im Ergebnis liefern die vorgestellten Verfahren
neue Bilder oder neue Ansichten einer Bildsammlung oder Videosequenz, je nachdem, ob die jeweilige Aufgabe die Komposition mehrerer Bilder ist oder die Kombination mehrerer Videos verschiedener Kameras darstellt
Matching and compressing sequences of visual hulls
Thesis (M. Eng.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2004.Includes bibliographical references (p. 61-63).In this thesis, we implement the polyhedral visual hull (PVH) algorithm in a modular software system to reconstruct 3D meshes from 2D images and camera poses. We also introduce the new idea of visual hull graphs. For data, using an eight camera synchronous system after multi-camera calibration, we collect video sequences to study the pose and motion of people. For efficiency in VH processing, we compress 2D input contours to reduce te number of triangles in the output mesh and demonstrate how subdivision surfaces smoothly approximate the irregular output mesh in 3D. After generating sequences of visual hulls from source video, to define a visual hull graph, we use a simple distance metric for pose by calculating Chamfer distances between 2D shape contours. At each frame of our graph, we store a view independent 3D pose and calculate the transition probability to any other frame based on similarity of pose. To test our approach, we synthesize new realistic motion by walking through cycles in the graph. Our results are new videos of arbitrary length and viewing direction based on a sample source video.by Naveen Goela.M.Eng
- âŠ