6 research outputs found
Variance Loss in Variational Autoencoders
In this article, we highlight what appears to be major issue of Variational
Autoencoders, evinced from an extensive experimentation with different network
architectures and datasets: the variance of generated data is significantly
lower than that of training data. Since generative models are usually evaluated
with metrics such as the Frechet Inception Distance (FID) that compare the
distributions of (features of) real versus generated images, the variance loss
typically results in degraded scores. This problem is particularly relevant in
a two stage setting, where we use a second VAE to sample in the latent space of
the first VAE. The minor variance creates a mismatch between the actual
distribution of latent variables and those generated by the second VAE, that
hinders the beneficial effects of the second stage. Renormalizing the output of
the second VAE towards the expected normal spherical distribution, we obtain a
sudden burst in the quality of generated samples, as also testified in terms of
FID.Comment: Article accepted at the Sixth International Conference on Machine
Learning, Optimization, and Data Science. July 19-23, 2020 - Certosa di
Pontignano, Siena, Ital
Variational Autoencoders and the Variable Collapse Phenomenon
In Variational Autoencoders, when working in high-dimensional latent spaces, there is a natural collapse of latent variables with minor significance, that get altogether neglected by the generator. We discuss this known but controversial phenomenon, sometimes referred to as overpruning, to emphasize the under-use of the model capacity. In fact, it is an important form of self-regularization, with all the typical benefits associated with sparsity: it forces the model to focus on the really important features, enhancing their disentanglement and reducing the risk of overfitting. In this article, we discuss the issue, surveying past works, and particularly focusing on the exploitation of the variable collapse phenomenon as a methodological guideline for the correct tuning of the model capacity, and of the loss function parameters
Balancing reconstruction error and Kullback-Leibler divergence in Variational Autoencoders
In the loss function of Variational Autoencoders there is a well known
tension between two components: the reconstruction loss, improving the quality
of the resulting images, and the Kullback-Leibler divergence, acting as a
regularizer of the latent space. Correctly balancing these two components is a
delicate issue, easily resulting in poor generative behaviours. In a recent
work, Dai and Wipf obtained a sensible improvement by allowing the network to
learn the balancing factor during training, according to a suitable loss
function. In this article, we show that learning can be replaced by a simple
deterministic computation, helping to understand the underlying mechanism, and
resulting in a faster and more accurate behaviour. On typical datasets such as
Cifar and Celeba, our technique sensibly outperforms all previous VAE
architectures
Performance dei Variational Autoencoders in relazione al training set
Questa tesi tratta di modelli generativi in ambito di deep learning e delle metriche utilizzate per valutarli.
In particolare si analizza la Frechét Inception Distance (FID), il funzionamento dei Variational Autoencoders (VAE) e le diverse strategie che si possono adottare per comporre il training set per migliorare le performance di questi ultimi in fase generativa.
Vengono inoltre trattate l'adozione di un'architettura a due livelli e la stima ex-post della distribuzione dello spazio latente.
Viene altresì condotto uno studio sul comportamento della FID in base al dataset usato, e in particolare dataset composti da immagini ripetute progressivamente e dataset contenenti immagini scomposte in varie sezioni e ricomposte casualmente.
Unitamente allo studio sopracitato si prova a selezionare il dataset secondo due criteri. Il primo criterio, l'errore di ricostruzione, permette di selezionare le immagini sulle quali il VAE ha meno difficoltĂ in fase di ricostruzione. Il secondo criterio, la distanza di Mahalanobis, permette di calcolare quanto un'immagine sia rappresentativa dell'insieme delle immagini usate per calcolare la FID.
In conclusione, i risultati ottenuti vengono presentati e confrontati con i risultati in bibliografia
Generazione di attributi facciali mediante Feature-wise Linear Modulation
L’aspetto dell’apprendimento automatico su cui si sta lavorando di più, negli ultimi anni, è quello della generazione di dati, come ad esempio suoni, testi e immagini. Un aspetto interessante nel campo della generazione è la possibilità di condizionare il modo in cui la rete neurale genera nuovi dati. Recentemente è stata introdotta la tecnica del Feature-wise Linear Modulation, abbreviato “FiLM”, usata per influenzare in modo adattivo l’output di una rete neurale basandosi su un input arbitrario, applicando una trasformazione affine sulle features intermedie della rete. Lo scopo dell’elaborato è mostrare l’integrazione di livelli FiLM all'interno di un modello Variational Autoencoder (VAE). Il modello così ottenuto verrà analizzato per le sue capacità di ricostruzione dell’input e di generazione di nuovi volti umani, sulla base di specifici attributi. Il modello verrà allenato sui volti presenti nel dataset CelebA e ne verrà valutata la capacità di ricostruzione e generazione attraverso la metrica della Fréchet Inception Distance (FID). Inoltre verrà condotto un piccolo esperimento per valutare la capacità del FID di discriminare alcuni attributi
About Generative Aspects of Variational Autoencoders
An essential prerequisite for random generation of good quality samples in Variational Autoencoders (VAE) is that the distribution of variables in the latent space has a known distribution, typically a normal distribution N(0, 1). This should be induced by a regularization term in the loss function, minimizing for each data X, the Kullback-Leibler distance between the posterior inference distribution of latent variables Q(z|X) and N(0, 1). In this article, we investigate the marginal inference distribution Q(z) as a Gaussian Mixture Model, proving, under a few reasonable assumptions, that although the first and second moment of Q(z) might indeed be coherent with those of a normal distribution, there is no reason to believe the same for other moments; in particular, its Kurtosis is likely to be different from 3. The actual distribution of Q(z) is possibly very far from a Normal, raising doubts on the effectiveness of generative sampling according to the vanilla VAE framework