6 research outputs found

    Variance Loss in Variational Autoencoders

    Get PDF
    In this article, we highlight what appears to be major issue of Variational Autoencoders, evinced from an extensive experimentation with different network architectures and datasets: the variance of generated data is significantly lower than that of training data. Since generative models are usually evaluated with metrics such as the Frechet Inception Distance (FID) that compare the distributions of (features of) real versus generated images, the variance loss typically results in degraded scores. This problem is particularly relevant in a two stage setting, where we use a second VAE to sample in the latent space of the first VAE. The minor variance creates a mismatch between the actual distribution of latent variables and those generated by the second VAE, that hinders the beneficial effects of the second stage. Renormalizing the output of the second VAE towards the expected normal spherical distribution, we obtain a sudden burst in the quality of generated samples, as also testified in terms of FID.Comment: Article accepted at the Sixth International Conference on Machine Learning, Optimization, and Data Science. July 19-23, 2020 - Certosa di Pontignano, Siena, Ital

    Variational Autoencoders and the Variable Collapse Phenomenon

    Get PDF
    In Variational Autoencoders, when working in high-dimensional latent spaces, there is a natural collapse of latent variables with minor significance, that get altogether neglected by the generator. We discuss this known but controversial phenomenon, sometimes referred to as overpruning, to emphasize the under-use of the model capacity. In fact, it is an important form of self-regularization, with all the typical benefits associated with sparsity: it forces the model to focus on the really important features, enhancing their disentanglement and reducing the risk of overfitting. In this article, we discuss the issue, surveying past works, and particularly focusing on the exploitation of the variable collapse phenomenon as a methodological guideline for the correct tuning of the model capacity, and of the loss function parameters

    Balancing reconstruction error and Kullback-Leibler divergence in Variational Autoencoders

    Get PDF
    In the loss function of Variational Autoencoders there is a well known tension between two components: the reconstruction loss, improving the quality of the resulting images, and the Kullback-Leibler divergence, acting as a regularizer of the latent space. Correctly balancing these two components is a delicate issue, easily resulting in poor generative behaviours. In a recent work, Dai and Wipf obtained a sensible improvement by allowing the network to learn the balancing factor during training, according to a suitable loss function. In this article, we show that learning can be replaced by a simple deterministic computation, helping to understand the underlying mechanism, and resulting in a faster and more accurate behaviour. On typical datasets such as Cifar and Celeba, our technique sensibly outperforms all previous VAE architectures

    Performance dei Variational Autoencoders in relazione al training set

    Get PDF
    Questa tesi tratta di modelli generativi in ambito di deep learning e delle metriche utilizzate per valutarli. In particolare si analizza la Frechét Inception Distance (FID), il funzionamento dei Variational Autoencoders (VAE) e le diverse strategie che si possono adottare per comporre il training set per migliorare le performance di questi ultimi in fase generativa. Vengono inoltre trattate l'adozione di un'architettura a due livelli e la stima ex-post della distribuzione dello spazio latente. Viene altresì condotto uno studio sul comportamento della FID in base al dataset usato, e in particolare dataset composti da immagini ripetute progressivamente e dataset contenenti immagini scomposte in varie sezioni e ricomposte casualmente. Unitamente allo studio sopracitato si prova a selezionare il dataset secondo due criteri. Il primo criterio, l'errore di ricostruzione, permette di selezionare le immagini sulle quali il VAE ha meno difficoltà in fase di ricostruzione. Il secondo criterio, la distanza di Mahalanobis, permette di calcolare quanto un'immagine sia rappresentativa dell'insieme delle immagini usate per calcolare la FID. In conclusione, i risultati ottenuti vengono presentati e confrontati con i risultati in bibliografia

    Generazione di attributi facciali mediante Feature-wise Linear Modulation

    Get PDF
    L’aspetto dell’apprendimento automatico su cui si sta lavorando di più, negli ultimi anni, è quello della generazione di dati, come ad esempio suoni, testi e immagini. Un aspetto interessante nel campo della generazione è la possibilità di condizionare il modo in cui la rete neurale genera nuovi dati. Recentemente è stata introdotta la tecnica del Feature-wise Linear Modulation, abbreviato “FiLM”, usata per influenzare in modo adattivo l’output di una rete neurale basandosi su un input arbitrario, applicando una trasformazione affine sulle features intermedie della rete. Lo scopo dell’elaborato è mostrare l’integrazione di livelli FiLM all'interno di un modello Variational Autoencoder (VAE). Il modello così ottenuto verrà analizzato per le sue capacità di ricostruzione dell’input e di generazione di nuovi volti umani, sulla base di specifici attributi. Il modello verrà allenato sui volti presenti nel dataset CelebA e ne verrà valutata la capacità di ricostruzione e generazione attraverso la metrica della Fréchet Inception Distance (FID). Inoltre verrà condotto un piccolo esperimento per valutare la capacità del FID di discriminare alcuni attributi

    About Generative Aspects of Variational Autoencoders

    No full text
    An essential prerequisite for random generation of good quality samples in Variational Autoencoders (VAE) is that the distribution of variables in the latent space has a known distribution, typically a normal distribution N(0, 1). This should be induced by a regularization term in the loss function, minimizing for each data X, the Kullback-Leibler distance between the posterior inference distribution of latent variables Q(z|X) and N(0, 1). In this article, we investigate the marginal inference distribution Q(z) as a Gaussian Mixture Model, proving, under a few reasonable assumptions, that although the first and second moment of Q(z) might indeed be coherent with those of a normal distribution, there is no reason to believe the same for other moments; in particular, its Kurtosis is likely to be different from 3. The actual distribution of Q(z) is possibly very far from a Normal, raising doubts on the effectiveness of generative sampling according to the vanilla VAE framework
    corecore