3 research outputs found
Ein Beitrag zur Entwicklung von Methoden zur Stereoanalyse und Bildsynthese im Anwendungskontext der Videokommunikation
This thesis contributes to the research area of stereo vision and view
synthesis in the field of private video communication. During private video
communication eye contact between the participants is typically lost due to
the different placement of the camera and the video window. The goal of
this thesis is to re-establish the eye contact by synthesizing of the view
of a virtual camera such that the virtual camera faces towards the
participant.
The thesis firstly sketches the positive effect of eye contact in video
communication. An in-depth review of mathematical foundations in the fields
of stereo vision and view synthesis follows. On this foundation the thesis
comprehensively covers the state of the art of image based rendering and
particularly of eye-gaze correction via 3D-analysis and synthesis.In the
first step of the method development the thesis establishes a model of
quality factors which determines decisions about camera placement and
recording system. Measurements with respect to synchronization and data
storage are presented. Local and global algorithms for stereo vision are
analyzed and adapted. The thesis contributes to the field of stereo vision
algorithms by means of development and combination of different cost
functions, consistency based inpainting, spatial and temporal smoothing and
segmentation with respect to the use case of private video communication.
Using the extracted disparity map, two approaches for view synthesis -
trifocal transfer and 3D warping - are employed and extended. One important
contribution of the thesis is a contour-based inpainting algorithm as well
as point base image smoothing techniques.
Two comprehensive subjective studies prove the assumption that eye contact
can be re-established by the proposed system. They demonstrate the well
perceived eye-contact as well as the significantly improved acceptance of
quality due to the developed methods compared to the initial situation. The
thesis finally discusses the results, followed by a qualitative comparison
to the state of the art.Die vorliegende Arbeit leistet einen Beitrag zum Forschungsbereich der
Stereoanalyse und Bildsynthese im speziellen Kontext der privaten
Videokommunikation. Bei der privaten Videokommunikation geht durch die
unterschiedliche Positionierung der Kamera und des Videofensters
typischerweise der Blickkontakt zwischen den Kommunikationsteilnehmern
verloren. Ziel dieser Arbeit ist die Wiederherstellung des Blickkontaktes
mittels der Synthese einer virtuellen Kameraansicht, die in Blickrichtung
der Kommunizierenden ausgerichtet ist.
Die Arbeit umreißt zunächst den positiven Einfluss des Blickkontaktes in
der Videokommunikation. Anschließend wird eine tiefgehende Betrachtung der
notwendigen technischen Grundlagen im Bereich Stereoanalyse und
Bildsynthese durchgeführt. Aufbauend auf diesen Grundlagen wird der der
Stand der Technik im Bereich des bildbasierten Renderings im Allgemeinen
sowie der Blickkorrektur mittels 3D-Analyse und -synthese im Speziellen
umfassend behandelt.
Zunächst wird ein Modell von Qualitätsparametern entwickelt, welches die
Entscheidungen hinsichtlich Kameraanordnung und Aufnahmesystem
determiniert. Notwendige Messungen hinsichtlich Synchronizität und
Datenspeicherung werden präsentiert. Im Bereich der Algorithmen der
Stereoanalyse werden etablierte lokale und globale Algorithmen analysiert
und adaptiert. Verschiedene Kostenmaße, konsistenzbasiertes Füllen,
zeitliche und örtliche Glättung sowie eine abschließende Segmentierung
werden hinsichtlich des konkreten Anwendungsfalls der Blickkorrektur in der
privaten Videokommunikation entwickelt. Darauf aufbauend werden die beiden
Syntheseverfahren des trifokalen Transfers sowie des 3D-Warpings weiter
entwickelt. Ein wichtiger Beitrag der Arbeit ist ein konturbasiertes
Füllverfahren sowie Maßnahmen im Bereich der Punktglättung.
Zwei umfangreiche Experimente mit zahlreichen Probanden bestätigen die
Korrektheit der Annahme, dass Blickkontakt durch das vorgestellte Verfahren
hergestellt werden kann. Sie demonstrieren sowohl die sehr gute Wahrnehmung
des Augenkontaktes als auch die signifikante Verbesserung der Akzeptanz und
subjektiven Qualitätswahrnehmung durch die entwickelten Algorithmen im
Vergleich zum Ausgangspunkt der Arbeit. Eine qualitativer Vergleich mit dem
Stand der Technik und eine Diskussion der Ergebnisse, gepaart mit einem
Ausblick in die Zukunft des behandelten Forschungsgebietes, schließen die
Arbeit ab
Videocodierung mit überlagerten bewegungskompensierten Signalen
This work discusses video coding with superimposed motion-compensated signals. We build on the theory of multihypothesis motion-compensated prediction for video coding and introduce the concept of motion compensation with complementary hypotheses. Multihypothesis motion compensation linearly combines more than one motion-compensated signal to form the superimposed motion-compensated signal. Motion-compensated signals that are used for the superposition are referred to as hypotheses. Further, a displacement error that captures the inaccuracy of motion compensation is associated with each hypothesis. This work proposes that the multiple displacement errors are jointly distributed and, in particular, correlated. We investigate the efficiency of superimposed motion compensation as a function of the displacement error correlation coefficient. We observe that decreasing the displacement error correlation coefficient improves the efficiency of superimposed motion compensation. We conclude that motion compensation with complementary hypotheses results in maximally negatively correlated displacement error. Motion compensation with complementary hypotheses implies two major results for the efficiency of superimposed motion-compensated prediction: First, the slope of the rate difference reaches up to 2 bits per sample per motion inaccuracy step whereas for single hypothesis motion-compensated prediction this slope is limited to 1 bit per sample per motion inaccuracy step. Here, we measure the rate difference with respect to optimum intra-frame encoding and use a high-rate approximation. Second, this slope of 2 bits per sample per inaccuracy step is already achieved for N=2 complementary hypotheses. Further, we investigate motion compensation with complementary hypotheses by integrating superimposed motion-compensated prediction into the ITU-T Rec. H.263. We linearly combine up to 4 motion-compensated blocks chosen from up to 20 previous reference frames to improve the performance of inter-predicted pictures. To determine the best N-hypothesis for each predicted block, we utilize an iterative algorithm that improves successively conditional optimal hypotheses. In addition, we discuss motion compensation with complementary hypotheses for B-pictures in the emerging ITU-T Rec. H.264. We focus on reference picture selection and linearly combined motion-compensated prediction signals. We show that bidirectional prediction exploits partially the efficiency of combined prediction signals. Superimposed prediction chooses hypotheses from an arbitrary set of reference pictures and, by this, outperforms bidirectional prediction. That is, superimposed motion-compensated prediction with multiple reference frames allows a more general form of B-pictures. Finally, we discuss superimposed motion-compensated signals for motion-compensated 3D subband coding of video. We investigate experimentally and theoretically motion-compensated lifted wavelet transforms for the temporal subband decomposition. The experiments show that the 5/3 wavelet kernel outperforms both the Haar kernel and, in many cases, the reference scheme utilizing motion-compensated predictive coding. Based on the motion-compensated lifting scheme, we develop an analytical model describing motion compensation for groups of K pictures. The theoretical discussion is based on a signal model for K motion-compensated pictures that are decorrelated by a linear transform. The dyadic decomposition of K pictures with motion-compensated lifted wavelets is replaced by an equivalent coding scheme with K motion-compensated pictures and a dyadic wavelet decomposition without motion compensation. We generalize the model and employ the Karhunen-Loeve Transform to obtain theoretical performance bounds at high bit-rates for motion-compensated 3D transform coding. For a very large group of pictures and negligible residual noise, the slope of the rate difference is limited by 1 bit per sample per inaccuracy step. The slope of the rate difference for motion-compensated prediction is also limited by 1 bit per sample per inaccuracy step but this coding scheme outperforms motion-compensated prediction by at most 0.5 bits per sample.Diese Arbeit erörtert Videocodierung mit überlagerten bewegungskompensierten Signalen. Es wird die Theorie der bewegungskompensierten Multihypothesen-Prädiktion für die Videocodierung erweitert und das Konzept der Prädiktion mit komplementären bewegungskompensierten Signalen eingeführt. Bewegungskompensierte Multihypothesen-Prädiktion überlagert linear mehr als ein bewegungskompensiertes Signal um das Prädiktionssignal zu bestimmen. Bewegungskompensierte Signale, die für die Überlagerung herangezogen werden, nennt man auch Hypothesen. Für das Modell wird jede Hypothese mit einem Versatzfehler assoziiert, der die Ungenauigkeit der Bewegungskompensation erfasst. Es wird vorgeschlagen, dass die Versatzfehler korreliert und durch eine Verbundwahrscheinlichkeit gekennzeichnet sind. Es wird die Effizienz der bewegungskompensierten Multihypothesen-Prädiktion in Abhängigkeit des Versatzfehler-Korrelationskoeffizienten untersucht. Es zeigt sich, dass eine Verringerung dieses Koeffizienten die Effizienz der bewegungskompensierten Multihypothesen-Prädiktion verbessert. Prädiktion mit komplementären bewegungskompensierten Signalen ist durch maximal negativ-korrelierte Versatzfehler gekennzeichnet. Die Prädiktion mit komplementären Hypothesen liefert zwei wichtige Ergebnisse für die Effizienz der bewegungskompensierten Multihypothesen-Prädiktion: Erstens, die Steigung der Ratendifferenz erreicht bis zu 2 bits pro Abtastwert und Bewegungsungenauigkeitsschritt. Diese Steigung ist bei der bewegungskompensierten Prädiktion mit einer Hypothese auf 1 bit pro Abtastwert und Bewegungsungenauigkeitsschritt beschränkt. Die Ratendifferenz wird hier bezüglich der optimalen Intra-Bild Codierung unter Verwendung einer Hochraten-Approximation gemessen. Zweitens, die Steigung von 2 bits pro Abtastwert und Ungenauigkeitsschritt wird bereits für N=2 komplementäre Hypothesen erreicht. Die vorliegenden Arbeit untersucht die Prädiktion mit komplementären Hypothesen indem die ITU-T Rec. H.263 um überlagerte bewegungskompensierte Prädiktion erweitert wird. Zur Verbesserung der Inter-Bilder werden bis zu 4 bewegungskompensierte Blöcke überlagert, die von bis zu 20 vorangehenden Referenzbildern ausgewählt werden. Ein iterativer Algorithmus, der sukzessiv bedingt-optimale Hypothesen verbessert, wird verwendet um für jeden zu prädizierenden Block die beste N-Hypothese zu bestimmen. Diese Arbeit untersucht auch bei B-Bildern die Prädiktion mit komplementären Hypothesen und verbessert diese für die neue ITU-T Rec. H.264. Dazu wird die Referenzbildauswahl für linear überlagerte bewegungskompensierte Signale diskutiert. Es wird gezeigt, dass die bi-direktionale Prädiktion die potentielle Effizienz der überlagertern Prädiktion nur teilweise nutzt. Überlagerte Prädiktion wählt aus einer beliebigen Referenzbildmenge die effizientesten Hypothesen aus und ist dadurch bi-direktionaler Prädiktion überlegen. Dies bedeutet, dass überlagerte Prädiktion mit mehreren Referenzbildern eine allgemeinere Form von B-Bildern zulässt. Schließlich werden linear überlagerte bewegungskompensierte Signale für die bewegungskompensierte 3D Teilbandcodierung von Videosignalen diskutiert. Für die zeitliche Teilbandcodierung werden experimentell und theoretisch bewegungskompensierte Wavelet Transformationen untersucht. Die Experimente zeigen, dass das 5/3 Wavelet dem Haar Wavelet, und in vielen Fällen, dem Referenzverfahren mit bewegungskompensierter prädiktiver Codierung überlegen ist. Basierend auf den untersuchten Wavelet Verfahren wird ein analytisches Modell zur Beschreibung der Bewegungskompensation für Gruppen von K Bildern entwickelt. Die theoretische Diskussion basiert auf einem Signalmodell für K bewegungskompensierte Bilder, die durch eine lineare Transformation dekorreliert werden. Dazu werden dyadische Zerlegungen von K Bildern mit bewegungskompensierten Wavelets durch äquivalente Codierverfahren mit K bewegungskompensierten Bildern und dyadischen Wavelet Zerlegungen ohne Bewegungskompensation ersetzt. Das Modell wird durch Anwendung der Karhunen-Loeve Transformation verallgemeinert und erlaubt eine Diskussion theoretischer Schranken für die bewegungskompensierte 3D Transformationscodierung bei hohen Bitraten. Für eine sehr große Anzahl von Bildern und vernachlässigbarem Rauschen ist die Steigung der Ratendifferenz auf 1 bit pro Abtastwert und Ungenauigkeitsschritt beschränkt. Die Steigung der Ratendifferenz für bewegungskompensierte Prädiktion ist auch auf 1 bit pro Abtastwert und Ungenauigkeitsschritt beschränkt, jedoch übertrifft dieses Codierverfahren die bewegungskompensierte Prädiktion um höchstens 0.5 bits pro Abtastwert