8 research outputs found
Long-term future prediction under uncertainty and multi-modality
Humans have an innate ability to excel at activities that involve prediction of complex object dynamics such as predicting the possible trajectory of a billiard ball after it has been hit by the player or the prediction of motion of pedestrians while on the road. A key feature that enables humans to perform such tasks is anticipation. There has been continuous research in the area of Computer Vision and Artificial Intelligence to mimic this human ability for autonomous agents to succeed in the real world scenarios. Recent advances in the field of deep learning and the availability of large scale datasets has enabled the pursuit of fully autonomous agents with complex decision making abilities such as self-driving vehicles or robots. One of the main challenges encompassing the deployment of these agents in the real world is their ability to perform anticipation tasks with at least human level efficiency.
To advance the field of autonomous systems, particularly, self-driving agents, in this thesis, we focus on the task of future prediction in diverse real world settings, ranging from deterministic scenarios such as prediction of paths of balls on a billiard table to the predicting the future of non-deterministic street scenes. Specifically, we identify certain core challenges for long-term future prediction: long-term prediction, uncertainty, multi-modality, and exact inference. To address these challenges, this thesis makes the following core contributions. Firstly, for accurate long-term predictions, we develop approaches that effectively utilize available observed information in the form of image boundaries in videos or interactions in street scenes. Secondly, as uncertainty increases into the future in case of non-deterministic scenarios, we leverage Bayesian inference frameworks to capture calibrated distributions of likely future events. Finally, to further improve performance in highly-multimodal non-deterministic scenarios such as street scenes, we develop deep generative models based on conditional variational autoencoders as well as normalizing flow based exact inference methods. Furthermore, we introduce a novel dataset with dense pedestrian-vehicle interactions to further aid the development of anticipation methods for autonomous driving applications in urban environments.Menschen haben die angeborene FĂ€higkeit, VorgĂ€nge mit komplexer Objektdynamik vorauszusehen, wie z. B. die Vorhersage der möglichen Flugbahn einer Billardkugel, nachdem sie vom Spieler gestoĂen wurde, oder die Vorhersage der Bewegung von FuĂgĂ€ngern auf der StraĂe. Eine SchlĂŒsseleigenschaft, die es dem Menschen ermöglicht, solche Aufgaben zu erfĂŒllen, ist die Antizipation. Im Bereich der Computer Vision und der KĂŒnstlichen Intelligenz wurde kontinuierlich daran geforscht, diese menschliche FĂ€higkeit nachzuahmen, damit autonome Agenten in der realen Welt erfolgreich sein können. JĂŒngste Fortschritte auf dem Gebiet des Deep Learning und die VerfĂŒgbarkeit groĂer DatensĂ€tze haben die Entwicklung vollstĂ€ndig autonomer Agenten mit komplexen EntscheidungsfĂ€higkeiten wie selbstfahrende Fahrzeugen oder Roboter ermöglicht. Eine der gröĂten Herausforderungen beim Einsatz dieser Agenten in der realen Welt ist ihre FĂ€higkeit, Antizipationsaufgaben mit einer Effizienz durchzufĂŒhren, die mindestens der menschlichen entspricht. Um das Feld der autonomen Systeme, insbesondere der selbstfahrenden Agenten, voranzubringen, konzentrieren wir uns in dieser Arbeit auf die Aufgabe der Zukunftsvorhersage in verschiedenen realen Umgebungen, die von deterministischen Szenarien wie der Vorhersage der Bahnen von Kugeln auf einem Billardtisch bis zur Vorhersage der Zukunft von nicht-deterministischen StraĂenszenen reichen. Insbesondere identifizieren wir bestimmte grundlegende Herausforderungen fĂŒr langfristige Zukunftsvorhersagen: Langzeitvorhersage, Unsicherheit, MultimodalitĂ€t und exakte Inferenz. Um diese Herausforderungen anzugehen, leistet diese Arbeit die folgenden grundlegenden BeitrĂ€ge. Erstens: FĂŒr genaue Langzeitvorhersagen entwickeln wir AnsĂ€tze, die verfĂŒgbare Beobachtungsinformationen in Form von Bildgrenzen in Videos oder Interaktionen in StraĂenszenen effektiv nutzen. Zweitens: Da die Unsicherheit in der Zukunft bei nicht-deterministischen Szenarien zunimmt, nutzen wir Bayesâsche Inferenzverfahren, um kalibrierte Verteilungen wahrscheinlicher zukĂŒnftiger Ereignisse zu erfassen. Drittens: Um die Leistung in hochmultimodalen, nichtdeterministischen Szenarien wie StraĂenszenen weiter zu verbessern, entwickeln wir tiefe generative Modelle, die sowohl auf konditionalen Variations-Autoencodern als auch auf normalisierenden flieĂenden exakten Inferenzmethoden basieren. DarĂŒber hinaus stellen wir einen neuartigen Datensatz mit dichten FuĂgĂ€nger-Fahrzeug- Interaktionen vor, um Antizipationsmethoden fĂŒr autonome Fahranwendungen in urbanen Umgebungen weiter zu entwickeln
Inclusive GAN: Improving Data and Minority Coverage in Generative Models
Generative Adversarial Networks (GANs) have brought about rapid progress
towards generating photorealistic images. Yet the equitable allocation of their
modeling capacity among subgroups has received less attention, which could lead
to potential biases against underrepresented minorities if left uncontrolled.
In this work, we first formalize the problem of minority inclusion as one of
data coverage, and then propose to improve data coverage by harmonizing
adversarial training with reconstructive generation. The experiments show that
our method outperforms the existing state-of-the-art methods in terms of data
coverage on both seen and unseen data. We develop an extension that allows
explicit control over the minority subgroups that the model should ensure to
include, and validate its effectiveness at little compromise from the overall
performance on the entire dataset. Code, models, and supplemental videos are
available at GitHub.Comment: Accepted to ECCV'2
Artificial Intelligence in the Creative Industries: A Review
This paper reviews the current state of the art in Artificial Intelligence
(AI) technologies and applications in the context of the creative industries. A
brief background of AI, and specifically Machine Learning (ML) algorithms, is
provided including Convolutional Neural Network (CNNs), Generative Adversarial
Networks (GANs), Recurrent Neural Networks (RNNs) and Deep Reinforcement
Learning (DRL). We categorise creative applications into five groups related to
how AI technologies are used: i) content creation, ii) information analysis,
iii) content enhancement and post production workflows, iv) information
extraction and enhancement, and v) data compression. We critically examine the
successes and limitations of this rapidly advancing technology in each of these
areas. We further differentiate between the use of AI as a creative tool and
its potential as a creator in its own right. We foresee that, in the near
future, machine learning-based AI will be adopted widely as a tool or
collaborative assistant for creativity. In contrast, we observe that the
successes of machine learning in domains with fewer constraints, where AI is
the `creator', remain modest. The potential of AI (or its developers) to win
awards for its original creations in competition with human creatives is also
limited, based on contemporary technologies. We therefore conclude that, in the
context of creative industries, maximum benefit from AI will be derived where
its focus is human centric -- where it is designed to augment, rather than
replace, human creativity
GAN-Leaks: A Taxonomy of Membership Inference Attacks against Generative Models
Deep learning has achieved overwhelming success, spanning from discriminative
models to generative models. In particular, deep generative models have
facilitated a new level of performance in a myriad of areas, ranging from media
manipulation to sanitized dataset generation. Despite the great success, the
potential risks of privacy breach caused by generative models have not been
analyzed systematically. In this paper, we focus on membership inference attack
against deep generative models that reveals information about the training data
used for victim models. Specifically, we present the first taxonomy of
membership inference attacks, encompassing not only existing attacks but also
our novel ones. In addition, we propose the first generic attack model that can
be instantiated in a large range of settings and is applicable to various kinds
of deep generative models. Moreover, we provide a theoretically grounded attack
calibration technique, which consistently boosts the attack performance in all
cases, across different attack settings, data modalities, and training
configurations. We complement the systematic analysis of attack performance by
a comprehensive experimental study, that investigates the effectiveness of
various attacks w.r.t. model type and training configurations, over three
diverse application scenarios (i.e., images, medical data, and location data).Comment: CCS 2020, 20 page
Probabilistic Parametric Curves for Sequence Modeling
ReprĂ€sentationen sequenzieller Daten basieren in der Regel auf der Annahme, dass beobachtete Sequenzen Realisierungen eines unbekannten zugrundeliegenden stochastischen Prozesses sind. Die Bestimmung einer solchen ReprĂ€sentation wird ĂŒblicherweise als Lernproblem ausgelegt und ergibt ein Sequenzmodell. Das Modell muss in diesem Zusammenhang in der Lage sein, die multimodale Natur der Daten zu erfassen, ohne einzelne Modi zu vermischen. Zur Modellierung eines zugrundeliegenden stochastischen Prozesses lernen hĂ€ufig verwendete, auf neuronalen Netzen basierende AnsĂ€tze entweder eine Wahrscheinlichkeitsverteilung zu parametrisieren oder eine implizite ReprĂ€sentation unter Verwendung stochastischer Eingaben oder Neuronen. Dabei integrieren diese Modelle in der Regel Monte Carlo Verfahren oder andere NĂ€herungslösungen, um die ParameterschĂ€tzung und probabilistische Inferenz zu ermöglichen. Dies gilt sogar fĂŒr regressionsbasierte AnsĂ€tze basierend auf Mixture Density Netzwerken, welche ebenso Monte Carlo Simulationen zur multi-modalen Inferenz benötigen. Daraus ergibt sich eine ForschungslĂŒcke fĂŒr vollstĂ€ndig regressionsbasierte AnsĂ€tze zur ParameterschĂ€tzung und probabilistischen Inferenz.
Infolgedessen stellt die vorliegende Arbeit eine probabilistische Erweiterung fĂŒr BĂ©zierkurven (-Kurven) als Basis fĂŒr die Modellierung zeitkontinuierlicher stochastischer Prozesse mit beschrĂ€nkter Indexmenge vor. Das vorgestellte Modell, bezeichnet als -Kurven - Modell, basiert auf Mixture Density Netzwerken (MDN) und BĂ©zierkurven, welche Kurvenkontrollpunkte als normalverteilt annehmen. Die Verwendung eines MDN-basierten Ansatzes steht im Einklang mit aktuellen Versuchen, UnsicherheitsschĂ€tzung als Regressionsproblem auszulegen, und ergibt ein generisches Modell, welches allgemein als Basismodell fĂŒr die probabilistische Sequenzmodellierung einsetzbar ist. Ein wesentlicher Vorteil des Modells ist unter anderem die Möglichkeit glatte, multi-modale Vorhersagen in einem einzigen Inferenzschritt zu generieren, ohne dabei Monte Carlo Simulationen zu benötigen. Durch die Verwendung von BĂ©zierkurven als Basis, kann das Modell auĂerdem theoretisch fĂŒr beliebig hohe Datendimensionen verwendet werden, indem die Kontrollpunkte in einen hochdimensionalen Raum eingebettet werden. Um die durch den Fokus auf beschrĂ€nkte Indexmengen existierenden theoretischen EinschrĂ€nkungen aufzuheben, wird zusĂ€tzlich eine konzeptionelle Erweiterung fĂŒr das -Kurven - Modell vorgestellt, mit der unendliche stochastische Prozesse modelliert werden können. Wesentliche Eigenschaften des vorgestellten Modells und dessen Erweiterung werden auf verschiedenen Beispielen zur Sequenzsynthese gezeigt.
Aufgrund der hinreichenden Anwendbarkeit des -Kurven - Modells auf die meisten AnwendungsfĂ€lle, wird dessen Tauglichkeit umfangreich auf verschiedenen MehrschrittprĂ€diktionsaufgaben unter Verwendung realer Daten evaluiert. ZunĂ€chst wird das Modell gegen hĂ€ufig verwendete probabilistische Sequenzmodelle im Kontext der Vorhersage von FuĂgĂ€ngertrajektorien evaluiert, wobei es sĂ€mtliche Vergleichsmodelle ĂŒbertrifft. In einer qualitativen Auswertung wird das Verhalten des Modells in einem Vorhersagekontext untersucht. AuĂerdem werden Schwierigkeiten bei der Bewertung probabilistischer Sequenzmodelle in einem multimodalen Setting diskutiert. DarĂŒber hinaus wird das Modell im Kontext der Vorhersage menschlicher Bewegungen angewendet, um die angestrebte Skalierbarkeit des Modells auf höherdimensionale Daten zu bewerten. Bei dieser Aufgabe ĂŒbertrifft das Modell allgemein verwendete einfache und auf neuronalen Netzen basierende Grundmodelle und ist in verschiedenen Situationen auf Augenhöhe mit verschiedenen State-of-the-Art-Modellen, was die Einsetzbarkeit in diesem höherdimensionalen Beispiel zeigt. Des Weiteren werden Schwierigkeiten bei der KovarianzschĂ€tzung und die GlĂ€ttungseigenschaften des -Kurven - Modells diskutiert
Probabilistic Parametric Curves for Sequence Modeling
This work proposes a probabilistic extension to BĂ©zier curves as a basis for effectively modeling stochastic processes with a bounded index set. The proposed stochastic process model is based on Mixture Density Networks and BĂ©zier curves with Gaussian random variables as control points. A key advantage of this model is given by the ability to generate multi-mode predictions in a single inference step, thus avoiding the need for Monte Carlo simulation
Human-Centric Deep Generative Models: The Blessing and The Curse
Over the past years, deep neural networks have achieved significant progress in a wide range of real-world applications. In particular, my research puts a focused lens in deep generative models, a neural network solution that proves effective in visual (re)creation. But is generative modeling a niche topic that should be researched on its own? My answer is critically no. In the thesis, I present the two sides of deep generative models, their blessing and their curse to human beings. Regarding what can deep generative models do for us, I demonstrate the improvement in performance and steerability of visual (re)creation. Regarding what can we do for deep generative models, my answer is to mitigate the security concerns of DeepFakes and improve minority inclusion of deep generative models.
For the performance of deep generative models, I probe on applying attention modules and dual contrastive loss to generative adversarial networks (GANs), which pushes photorealistic image generation to a new state of the art. For the steerability, I introduce Texture Mixer, a simple yet effective approach to achieve steerable texture synthesis and blending. For the security, my research spans over a series of GAN fingerprinting solutions that enable the detection and attribution of GAN-generated image misuse. For the inclusion, I investigate the biased misbehavior of generative models and present my solution in enhancing the minority inclusion of GAN models over underrepresented image attributes. All in all, I propose to project actionable insights to the applications of deep generative models, and finally contribute to human-generator interaction
"Best-of-Many-Samples" Distribution Matching
Generative Adversarial Networks (GANs) can achieve state-of-the-art sample quality in generative modelling tasks but suffer from the mode collapse problem. Variational Autoencoders (VAE) on the other hand explicitly maximize a reconstruction-based data log-likelihood forcing it to cover all modes, but suffer from poorer sample quality. Recent works have proposed hybrid VAE-GAN frameworks which integrate a GAN-based synthetic likelihood to the VAE objective to address both the mode collapse and sample quality issues, with limited success. This is because the VAE objective forces a trade-off between the data log-likelihood and divergence to the latent prior. The synthetic likelihood ratio term also shows instability during training. We propose a novel objective with a "Best-of-Many-Samples" reconstruction cost and a stable direct estimate of the synthetic likelihood. This enables our hybrid VAE-GAN framework to achieve high data log-likelihood and low divergence to the latent prior at the same time and shows significant improvement over both hybrid VAE-GANS and plain GANs in mode coverage and quality