10 research outputs found

    Nonlinear population Monte Carlo methods for bayesian inference

    Get PDF
    In the present work we address the problem of Monte Carlo approximation of posterior probability distributions and associated integrals in the Bayesian framework. In particular, we investigate a technique known as population Monte Carlo (PMC), which is based on an iterative importance sampling (IS) approach. The PMC method displays important advantages over the widely used family of Markov chain Monte Carlo (MCMC) algorithms. Opposite to MCMC methods, the PMC algorithm yields independent samples, allows for a simpler parallel implementation and does not require a convergence period. However, both IS and PMC suffer from the well known problem of degeneracy of the importance weights (IWs), which is closely related to the curse of dimensionality, and limits their applicability in large-scale practical problems. In this thesis we present a novel family of PMC algorithms which specifically addresses the degeneracy problem arising in high dimensional problems. In particular, we propose to perform nonlinear transformations to the IWs in order to smooth their variations and increase the efficiency of the underlying IS procedure, specially when drawing from proposal functions which are poorly adapted to the true posterior. This technique, termed nonlinear PMC (NPMC), avoids the need for a careful selection of the proposal distribution and can be applied in fairly general settings. We propose a basic NPMC algorithm with a multivariate Gaussian proposal distribution, which is better suited for unimodal target distributions. For general multimodal target distributions, we propose a nonlinear extension of the mixture PMC (MPMC) algorithm, termed adaptive nonlinear MPMC (NMPMC) method, which constructs the importance functions as mixtures of kernels. Additionally, the new technique incorporates an adaptation step for the number of mixture components, which provides valuable information about the target distribution. We also introduce a particle NPMC (PNPMC) algorithm for offline Bayesian inference in state-space models, which allows to approximate the posterior distribution of both the model parameters and the hidden states given a set of observed data. A major difficulty associated to this problem is that the likelihood function becomes intractable in general nonlinear, non-Gaussian state-space models. To overcome this drawback, the new technique resorts to a particle filter (PF) approximation of the likelihood, in a manner equivalent to the widely used particle MCMC (PMCMC) algorithm. All the proposed algorithms are described in Chapter 3. In Chapter 4 we provide a convergence analysis of the nonlinear IS (NIS) technique which is at the core of the proposed NPMC inference algorithms. We investigate the error introduced by two types of nonlinear transformations of the IWs, termed tempering and clipping. We also account for the additional error introduced by the weight approximation obtained with a PF. We provide explicit upper bounds for the errors incurred when approximating integrals of bounded functions using the NIS technique. Through Chapters 5, 6 and 7 we numerically assess the performance of the proposed techniques and compare them to state of the art algorithms. In Chapter 5 we present some simple simulation examples which illustrate the principle behind NPMC and NMPMC and the performance improvement attained by the NIS technique. As a first practical application, in Chapter 6 we have considered the popular (and challenging) problem of estimating the rate parameters and the hidden states in a stochastic kinetic model (SKM). SKMs are highly multivariate systems that model molecular interactions in biological and chemical problems. We have applied the proposed PNPMC algorithm to this problem and performed an extensive simulation comparison with the powerful PMCMC method. In Chapter 7 we address the problem of Bayesian parameter estimation in α-stable distributions, which allow to describe heavy-tailed and asymmetric data. In this last application example, we provide simulation results both with synthetic and real data.En este trabajo hemos abordado el problema de la aproximación de distribuciones a posteriori, e integrales con respecto a éstas, mediante métodos de Monte Carlo. En concreto, nos hemos centrado en una técnica conocida como population Monte Carlo (PMC), que está basada en un enfoque de muestreo enfatizado (importance sampling, IS) iterativo. El método PMC presenta importantes ventajas frente a la familia de métodos de Monte Carlo basados en cadenas de Markov (Markov chain Monte Carlo, MCMC). Al contrario que los algoritmos MCMC, el método PMC permite generar muestras independientes de la distribución de interés, admite una implementación paralelizada y no requiere establecer períodos de convergencia. Sin embargo, tanto el método IS como el PMC sufren el conocido problema de degeneración de los pesos, que está muy relacionado con la maldición de la dimensión y limita su aplicabilidad en problemas prácticos de alta complejidad. En esta tesis doctoral presentamos una nueva familia de algoritmos PMC que aborda de manera específica el problema de la degeneración de los pesos en alta dimensión. Concretamente, proponemos realizar transformaciones no lineales a los pesos para suavizar sus variaciones e incrementar la eficiencia del proceso de IS, en particular cuando la función de importancia no se ajusta bien a la distribución a posteriori de interés. La técnica propuesta, llamada PMC no lineal (nonlinear PMC, NPMC), no requiere una selección cuidadosa de la función de importancia y se puede aplicar en gran variedad de problemas. Proponemos un esquema NPMC básico que emplea una función de importancia Gaussiana, que es más adecuada para aproximar distribuciones unimodales. Para el caso general de distribuciones a posteriori multimodales, proponemos una extensión no lineal del algoritmo mixture PMC (MPMC), que denominamos MPMC no lineal adaptativo (nonlinear MPMC, NMPMC), que construye las funciones de importancia como mezclas de distribuciones núcleo. Además, el método propuesto incorpora un paso de adaptación del número de componentes de la mezcla, lo cual proporciona una valiosa información acerca de la distribución objetivo. También proponemos un algoritmo llamado particle NPMC (PNPMC) para inferencia Bayesiana offline en modelos de espacio de estados, que permite aproximar distribuciones a posteriori tanto de los parámetros fijos del modelo como de la secuencia de estados ocultos, en base a una secuencia de observaciones. La principal dificultad en esta clase de problemas es que la función de verosimilitud no se puede evaluar de forma exacta en modelos de espacio de estados no lineales y/o no Gaussianos. Para afrontar esta limitación, el algoritmo propuesto recurre a una aproximación de la verosimilitud mediante filtrado de partículas (particle filtering, PF), de manera equivalente al ampliamente usado algoritmo de particle MCMC (PMCMC). Los algoritmos propuestos se describen en el Capítulo 3. El Capítulo 4 presenta un análisis de convergencia de la técnica de muestreo enfatizado no lineal (nonlinear IS, NIS). Hemos investigado el error de aproximación introducido por dos tipos de transformación no lineal en los pesos, denominados tempering (suavizado) y clipping (recorte). También analizamos el error adicional introducido por la aproximación de los pesos obtenida mediante PF. En todos los casos, proporcionamos cotas explícitas para el error de aproximación obtenido mediante la técnica de NIS. A lo largo de los Capítulos 5, 6 y 7, evaluamos numéricamente las prestaciones de los algoritmos propuestos y los comparamos a otros algoritmos existentes en la literatura. En el Capítulo 5 presentamos algunos ejemplos sencillos que ilustran los principios básicos de los métodos NPMC y NMPMC y la mejora en el rendimiento introducida por la técnica de NIS. Como primera aplicación práctica, en el Capítulo 6 hemos considerado el popular y complejo problema de la estimación de parámetros y poblaciones en modelos estocásticos cinéticos (stochastic kinetic models, SKMs). Los SKMs son sistemas de alta dimensión que modelan las interaciones moleculares que ocurren en problemas biológicos y químicos. Hemos aplicado el algoritmo PNPMC propuesto a este problema y hemos realizado una comparación exhaustiva con el algoritmo PMCMC. Por otro lado, en el Capítulo 7 abordamos el problema de estimación de parámetros en distribuciones α-estables, que permiten modelar datos asimétricos y de colas pesadas. En este último caso, mostramos resultados de simulaciones realizadas tanto con datos sintéticos como reales.Programa Oficial de Doctorado en Multimedia y ComunicacionesPresidente: Antonio Artés Rodríguez.- Secretario: Mónica Fernández Bugallo.- Vocal: François Le Glan

    A comparison of nonlinear population Monte Carlo and particle Markov chain Monte Carlo algorithms for Bayesian inference in stochastic kinetic models

    Get PDF
    Documento depositado en el repositorio arXiv.org. Versión: arXiv:1404.5218v1 [stat.ME]In this paper we address the problem of Monte Carlo approximation of posterior probability distributions in stochastic kinetic models (SKMs). SKMs are multivariate Markov jump processes that model the interactions among species in biochemical systems according to a set of uncertain parameters. Markov chain Monte Carlo (MCMC) methods have been typically preferred for this Bayesian inference problem. Specifically, the particle MCMC (pMCMC) method has been recently shown to be an effective, while computationally demanding, method applicable to this problem. Within the pMCMC framework, importance sampling (IS) has been used only as the basis of the sequential Monte Carlo (SMC) approximation of the acceptance ratio in the Metropolis-Hastings kernel. However, the recently proposed nonlinear population Monte Carlo (NPMC) algorithm, based on an iterative IS scheme, has also been shown to be effective as a Bayesian inference tool for low dimensional (predator-prey) SKMs. In this paper, we provide an extensive performance comparison of pMCMC versus NPMC, when applied to the challenging prokaryotic autoregulatory network. We show how the NPMC method can greatly outperform the pMCMC algorithm in this scenario, with an overall moderate computational effort. We complement the numerical comparison of the two techniques with an asymptotic convergence analysis of the nonlinear IS scheme at the core of the proposed method when the importance weights can only be computed approximatelyE. K. acknowledges the support of Ministerio de Educacióon of Spain ( Programa de Formación de Profesorado Universitario , ref. AP2008-00469). This work has been partially supported by Ministerio de Economía y Competitividad of Spain (program Consolider-Ingenio 2010 CSD2008-00010 COMONSENS and project COMPREHENSION TEC2012-38883-C02-01)

    Micro-database for sustainability (ESG) indicators developed at the Banco de España (2022)

    Get PDF
    En los últimos años, la preocupación por los temas sociales y medioambientales ha ido en aumento y, en consecuencia, la demanda de datos sobre sostenibilidad se ha incrementado exponencialmente. Por esta razón, se ha desarrollado en el Departamento de Estadística del Banco de España una base de microdatos sobre indicadores de sostenibilidad (ESG). Este documento presenta dos artículos que analizan el proceso desarrollado para capturar esta información, así como las numerosas limitaciones y dificultades encontradas a lo largo del camino de búsqueda de microdatos sobre sostenibilidad. Concretamente, los dos temas que tratan los artículos son: “Analysing climate change data gaps” (presentado en la 11th Biennial IFC Conference on “Post-pandemic landscape for central bank statistics” durante los días 25-27 de agosto de 2022 en la sesión 3.B “Environmental statistics”) “Creation of a structured sustainability database from company reports: A web application prototype for information retrieval and storage” (presentado en el IFC Bank of Italy workshop on “Data science in central banking” los días 14-17 de febrero de 2022 en la sesión 4.3 “Text Mining and ML utilized in Economic Research”) (Koblents and Morales (2022)) El primer artículo se centra en las numerosas limitaciones encontradas y logros conseguidos en el proceso de desarrollo de la base de microdatos sobre indicadores de sostenibilidad para sociedades no financieras. Tras analizar detalladamente los estándares actuales de información ESG, consultar a expertos en la materia, analizar las obligaciones regulatorias y llevar a cabo un ejercicio práctico de búsqueda de esta información, se seleccionó una lista de los 39 indicadores más relevantes para comenzar la búsqueda. Actualmente se han recopilado más de 15.000 datos correspondientes al período 2019-2020 utilizando una herramienta semiautomática de búsqueda de información desarrollada internamente (presentado en detalle en el segundo artículo). Durante el proyecto se identificaron numerosas dificultades tales como el uso de diferentes métricas al reportar los indicadores, falta de información y de soporte digital para la descarga, así como dificultades de comparabilidad y restricciones regulatorias. El segundo artículo se centra en la herramienta desarrollada para crear la base de microdatos presentada en el primer artículo. Esta aplicación web tiene como objetivo, mediante la extracción y almacenamiento semiautomático, obtener los indicadores de sostenibilidad de los estados no financieros anuales presentados por las sociedades no financieras españolas. El objetivo de la aplicación es facilitar a los usuarios el trabajo de búsqueda de indicadores de sostenibilidad en múltiples documentos y su almacenamiento en una base de datos estructurada. La herramienta desarrollada incorpora un conjunto de términos de búsqueda predefinidos para cada indicador que han sido seleccionados en base a conocimiento experto e inteligencia artificial en desarrollos posteriores. Para cada empresa e indicador, la herramienta sugiere los fragmentos de texto más relevantes al usuario, quien a su vez identifica el valor correcto del indicador y lo almacena en la base de datos utilizando la interfaz web de usuario. Esta herramienta ha sido creada por dos científicos de datos en tres meses, con el apoyo continuo de un equipo de expertos que ha contribuido a la definición de requisitos y propuestas de mejora, la recopilación de datos, así como la validación y prueba de la herramienta. A lo largo del artículo, se realiza una descripción del enfoque técnico y los principales módulos del prototipo implementado, incluyendo la extracción de texto, indexación y búsqueda, almacenamiento de datos y visualización

    A nonlinear population Monte Carlo scheme for the Bayesian estimation of parameters of alpha-stable distributions

    Get PDF
    The class of alpha-stable distributions enjoys multiple practical applications in signal processing, finance, biology and other areas because it allows to describe interesting and complex data patterns, such as asymmetry or heavy tails, in contrast with the simpler and widely used Gaussian distribution. The density associated with a general alpha-stable distribution cannot be obtained in closed form, which hinders the process of estimating its parameters. A nonlinear population Monte Carlo (NPMC) scheme is applied in order to approximate the posterior probability distribution of the parameters of an alpha-stable random variable given a set of random realizations of the latter. The approximate posterior distribution is computed by way of an iterative algorithm and it consists of a collection of samples in the parameter space with associated nonlinearly-transformed importance weights. A numerical comparison of the main existing methods to estimate the alpha-stable parameters is provided, including the traditional frequentist techniques as well as a Markov chain Monte Carlo (MCMC) and a likelihood-free Bayesian approach. It is shown by means of computer simulations that the NPMC method outperforms the existing techniques in terms of parameter estimation error and failure rate for the whole range of values of a, including the smaller values for which most existing methods fail to work properly. Furthermore, it is shown that accurate parameter estimates can often be computed based on a low number of observations. Additionally, numerical results based on a set of real fish displacement data are providedE.K. acknowledges the support of Ministerio de Educación of Spain (Programa de Formación de Profesorado Universitario, Ref. AP2008-00469). J.M. acknowledges the partial support of Ministerio de Economía y Competitividad of Spain (program Consolider-Ingenio 2010 CSD2008-00010 COMONSENS and project COMPREHENSION TEC2012-38883-C02-01) and the Office of Naval Research Global (award no. N62909-15-1-2011). At the time of the original submission of this paper, J.M. was with the Department of Signal Theory and Communications, Universidad Carlos III de Madrid (Spain). M.A acknowledges the financial support of the Natural Sciences and Engineering Council of Canada (Discovery Grant 138680), the Coordenação de Apoioao Pessoal do Ensino Superior (grant No.1351/11-7) and the Fundação de Amparo à Pesquisado Estado do Rio de Janeiro (grant No.E-26/110.864/2012), and thanks J. Nolan for providing a free copy of the STABLE software. A.M.S. acknowledges the financial support from Conselho Nacional de Desenvolvimento Científico e Tecnológico(grant No. 308016/2014-9) and Coordenação de Apoio ao Pessoal do Ensino Superior, DGU Program (grant No. 257/12)

    A population Monte Carlo scheme with transformed weights and its application to stochastic kinetic models

    Get PDF
    This paper addresses the problem of Monte Carlo approximation of posterior probability distributions. In particular, we have considered a recently proposed technique known as population Monte Carlo (PMC), which is based on an iterative importance sampling approach. An important drawback of this methodology is the degeneracy of the importance weights when the dimension of either the observations or the variables of interest is high. To alleviate this difficulty, we propose a novel method that performs a nonlinear transformation on the importance weights. This operation reduces the weight variation, hence it avoids their degeneracy and increases the efficiency of the importance sampling scheme, specially when drawing from a proposal functions which are poorly adapted to the true posterior. For the sake of illustration, we have applied the proposed algorithm to the estimation of the parameters of a Gaussian mixture model. This is a very simple problem that enables us to clearly show and discuss the main features of the proposed technique. As a practical application, we have also considered the popular (and challenging) problem of estimating the rate parameters of stochastic kinetic models (SKM). SKMs are highly multivariate systems that model molecular interactions in biological and chemical problems. We introduce a particularization of the proposed algorithm to SKMs and present numerical results.Comment: 35 pages, 8 figure

    Evidence recommendation in forensics based on cyclic meta-paths in heterogeneous information networks

    Full text link
    In this article we propose a novel approach for evidence recommendation in digital forensic applications. The so-called Evidence Graph (EG) is a Heterogeneous Information Network (HIN) constructed from entities and relationships extracted from large collections of low quality video footage, collected by surveillance cameras in relation to a crime. The EG has been developed in the context of the EU-funded project LASIE. It presents multiple types of nodes and edges and a generic network schema in which all types of nodes can be connected. In this work, relevant cyclic meta-paths are identified and an iterative scheme for evidence recommendation is proposed and evaluated on real data
    corecore