5 research outputs found
Learning with MISELBO: The Mixture Cookbook
Mixture models in variational inference (VI) is an active field of research.
Recent works have established their connection to multiple importance sampling
(MIS) through the MISELBO and advanced the use of ensemble approximations for
large-scale problems. However, as we show here, an independent learning of the
ensemble components can lead to suboptimal diversity. Hence, we study the
effect of instead using MISELBO as an objective function for learning mixtures,
and we propose the first ever mixture of variational approximations for a
normalizing flow-based hierarchical variational autoencoder (VAE) with
VampPrior and a PixelCNN decoder network. Two major insights led to the
construction of this novel composite model. First, mixture models have
potential to be off-the-shelf tools for practitioners to obtain more flexible
posterior approximations in VAEs. Therefore, we make them more accessible by
demonstrating how to apply them to four popular architectures. Second, the
mixture components cooperate in order to cover the target distribution while
trying to maximize their diversity when MISELBO is the objective function. We
explain this cooperative behavior by drawing a novel connection between VI and
adaptive importance sampling. Finally, we demonstrate the superiority of the
Mixture VAEs' learned feature representations on both image and single-cell
transcriptome data, and obtain state-of-the-art results among VAE architectures
in terms of negative log-likelihood on the MNIST and FashionMNIST datasets.
Code available here: \url{https://github.com/Lagergren-Lab/MixtureVAEs}
Förgreningar med mixturer: Fylogenetisk inferens som inte räds lite osäkerhet
Phylogeny, the study of evolutionary relationships among species and other taxa, plays a crucial role in understanding the history of life. Bayesian analysis using Markov chain Monte Carlo (MCMC) is a widely used approach for inferring phylogenetic trees, but it suffers from slow convergence in higher dimensions and is slow to converge. This thesis focuses on exploring variational inference (VI), a methodology that is believed to lead to improved speed and accuracy of phylogenetic models. However, VI models are known to concentrate the density of the learned approximation in high-likelihood areas. This thesis evaluates the current state of Variational Inference Bayesian Phylogenetics (VBPI) and proposes a solution using a mixture of components to improve the VBPI method's performance on complex datasets and multimodal latent spaces. Additionally, we cover the basics of phylogenetics to provide a comprehensive understanding of the field.Fylogeni, vilket är studien av evolutionära relationer mellan arter och andra taxonomiska grupper, spelar en viktig roll för att förstå livets historia. En ofta använd metod för att dra slutsatser om fylogenetiska träd är bayesiansk analys med Markov Chain Monte Carlo (MCMC), men den lider av långsam konvergens i högre dimensioner och kräver oändligt med tid. Denna uppsats fokuserar på att undersöka hur variationsinferens (VI) kan nyttjas inom fylogenetisk inferens med hög noggranhet. Vi fokuserar specifik på en modell kallad VBPI. Men VI-modeller är allmänt kända att att koncentrera sig på höga sannolikhetsområden i posteriorfördelningar. Vi utvärderar prestandan för Variatinal Inference Baysian Phylogenetics (VBPI) och föreslår en förbättring som använder mixturer av förslagsfördelningar för att förbättra VBPI-modellens förmåga att hantera mer komplexa datamängder och multimodala posteriorfördelningar. Utöver dettta går vi igenom grunderna i fylogenetik för att ge en omfattande förståelse av området
Förgreningar med mixturer: Fylogenetisk inferens som inte räds lite osäkerhet
Phylogeny, the study of evolutionary relationships among species and other taxa, plays a crucial role in understanding the history of life. Bayesian analysis using Markov chain Monte Carlo (MCMC) is a widely used approach for inferring phylogenetic trees, but it suffers from slow convergence in higher dimensions and is slow to converge. This thesis focuses on exploring variational inference (VI), a methodology that is believed to lead to improved speed and accuracy of phylogenetic models. However, VI models are known to concentrate the density of the learned approximation in high-likelihood areas. This thesis evaluates the current state of Variational Inference Bayesian Phylogenetics (VBPI) and proposes a solution using a mixture of components to improve the VBPI method's performance on complex datasets and multimodal latent spaces. Additionally, we cover the basics of phylogenetics to provide a comprehensive understanding of the field.Fylogeni, vilket är studien av evolutionära relationer mellan arter och andra taxonomiska grupper, spelar en viktig roll för att förstå livets historia. En ofta använd metod för att dra slutsatser om fylogenetiska träd är bayesiansk analys med Markov Chain Monte Carlo (MCMC), men den lider av långsam konvergens i högre dimensioner och kräver oändligt med tid. Denna uppsats fokuserar på att undersöka hur variationsinferens (VI) kan nyttjas inom fylogenetisk inferens med hög noggranhet. Vi fokuserar specifik på en modell kallad VBPI. Men VI-modeller är allmänt kända att att koncentrera sig på höga sannolikhetsområden i posteriorfördelningar. Vi utvärderar prestandan för Variatinal Inference Baysian Phylogenetics (VBPI) och föreslår en förbättring som använder mixturer av förslagsfördelningar för att förbättra VBPI-modellens förmåga att hantera mer komplexa datamängder och multimodala posteriorfördelningar. Utöver dettta går vi igenom grunderna i fylogenetik för att ge en omfattande förståelse av området
Skräp in, skräp ut : En utredning av bruskänslighet i graf-baserad rörelseigenkänning
Human action recognition is the task of classifying human movement and actions from video data. To benchmark different algorithms within the action recognition field, a common benchmark dataset, called NTU-RGB+D is used. However, this dataset is not without its issues as some samples contain data that is mistakenly captured as a human. In the context of this thesis, these are defined as ghost bodies. This thesis explores to what extent the accuracy of a state-of-the-art directed graph neural net, DGNN, is affected if trained without ghost bodies. The results suggest that the accuracy increases by 1.79 percentage points when ghost bodies are excluded during testing with an unofficial implementation of the DGNN. However, the results of the original DGNN could not be fully replicated which undermines the strength of the results. Despite this, given the importance of the NTU dataset within action recognition, we suggest considering a new benchmark dataset that takes ghost bodies into account. While the results of the study are not generalizable, the measured difference in recognition accuracy still points to the the necessity of looking deeper into the phenomenon of ghost bodies within action recognition. Mänsklig rörelseigenkänning (en. human action recognition) är forskningsområdet ägnat åt att känna igen mänskliga rörelser från videodata. För att kunna jämföra olika algoritmer inom området förekommer ofta ett standardiserat datasetet, NTU-RGB+D, som bland annat innehåller skelettrepresentationer av människor som utför rörelser. Trots datasetets vida användning inom rörelseigenkänning innehåller det vad som i denna uppsats benämns spökkroppar (en. ghost bodies). Dessa artefakter i datasetet är skelettrepresentationer som felaktigt klassats som att de tillhör en människokropp när de i själva verket utgör något annat icke-mänskligt objekt i videodatan. Experimentet som redogörs för i denna uppsats har ägnats åt att undersöka hur dessa spökkroppar påverkar rörelseigenkänningsprecisionen (en. action recognition accuracy) hos ett nutida riktad-graf-baserat neuralt nätverk (en. directed graph neural network, DGNN). Resultaten visar att igenkänningsprecisionen tycks öka med 1,79 procentenheter när grafnätverket tränas utan förekomster av spökkroppar. Resultaten bör dock tolkas med försiktighet då den igenkänningsprecision som rapporterats för grafnätverket i originalexperimentet inte kunde replikeras. Trots detta utgör NTU ett så pass viktigt dataset för forskning inom rörelseigenkänning, att vidare analys och förbättring av datasetet med avseende på spökkropparna är att rekommendera. Även om resultaten inte kan generaliseras bortom det grafnätverk som experimentet utfördes med, pekar ändå den uppmätta skillnaden i igenkänningsprecision på vikten av vidare analys vad gäller spökkroppars inverkan på moderna algoritmer inom rörelseigenkänning
Skräp in, skräp ut : En utredning av bruskänslighet i graf-baserad rörelseigenkänning
Human action recognition is the task of classifying human movement and actions from video data. To benchmark different algorithms within the action recognition field, a common benchmark dataset, called NTU-RGB+D is used. However, this dataset is not without its issues as some samples contain data that is mistakenly captured as a human. In the context of this thesis, these are defined as ghost bodies. This thesis explores to what extent the accuracy of a state-of-the-art directed graph neural net, DGNN, is affected if trained without ghost bodies. The results suggest that the accuracy increases by 1.79 percentage points when ghost bodies are excluded during testing with an unofficial implementation of the DGNN. However, the results of the original DGNN could not be fully replicated which undermines the strength of the results. Despite this, given the importance of the NTU dataset within action recognition, we suggest considering a new benchmark dataset that takes ghost bodies into account. While the results of the study are not generalizable, the measured difference in recognition accuracy still points to the the necessity of looking deeper into the phenomenon of ghost bodies within action recognition. Mänsklig rörelseigenkänning (en. human action recognition) är forskningsområdet ägnat åt att känna igen mänskliga rörelser från videodata. För att kunna jämföra olika algoritmer inom området förekommer ofta ett standardiserat datasetet, NTU-RGB+D, som bland annat innehåller skelettrepresentationer av människor som utför rörelser. Trots datasetets vida användning inom rörelseigenkänning innehåller det vad som i denna uppsats benämns spökkroppar (en. ghost bodies). Dessa artefakter i datasetet är skelettrepresentationer som felaktigt klassats som att de tillhör en människokropp när de i själva verket utgör något annat icke-mänskligt objekt i videodatan. Experimentet som redogörs för i denna uppsats har ägnats åt att undersöka hur dessa spökkroppar påverkar rörelseigenkänningsprecisionen (en. action recognition accuracy) hos ett nutida riktad-graf-baserat neuralt nätverk (en. directed graph neural network, DGNN). Resultaten visar att igenkänningsprecisionen tycks öka med 1,79 procentenheter när grafnätverket tränas utan förekomster av spökkroppar. Resultaten bör dock tolkas med försiktighet då den igenkänningsprecision som rapporterats för grafnätverket i originalexperimentet inte kunde replikeras. Trots detta utgör NTU ett så pass viktigt dataset för forskning inom rörelseigenkänning, att vidare analys och förbättring av datasetet med avseende på spökkropparna är att rekommendera. Även om resultaten inte kan generaliseras bortom det grafnätverk som experimentet utfördes med, pekar ändå den uppmätta skillnaden i igenkänningsprecision på vikten av vidare analys vad gäller spökkroppars inverkan på moderna algoritmer inom rörelseigenkänning