22 research outputs found

    Computing the Stochastic Complexity of Simple Probabilistic Graphical Models

    Get PDF
    Minimum Description Length (MDL) is an information-theoretic principle that can be used for model selection and other statistical inference tasks. There are various ways to use the principle in practice. One theoretically valid way is to use the normalized maximum likelihood (NML) criterion. Due to computational difficulties, this approach has not been used very often. This thesis presents efficient floating-point algorithms that make it possible to compute the NML for multinomial, Naive Bayes and Bayesian forest models. None of the presented algorithms rely on asymptotic analysis and with the first two model classes we also discuss how to compute exact rational number solutions.Koneoppimisessa ollaan kiinnostuneita löytämään automaattisesti malleja, jotka sopivat yhteen mahdollisimman hyvin havaintojen kanssa. Nämä havainnot esitetään usein mittaustuloksina taulukkomuodossa. Tällaisen taulukon toivotaan sisältävän kaikki tarkasteltavan ilmiön kannalta oleelliset ominaisuudet. Ilmiötä on kuitenkin vaikea hahmottaa vain tarkastelemalla taulukkoa, mistä johtuen taulukon sisältämästä tiedosta rakennetaan usein malli. Koneoppimisessa annetaan tietokoneen etsiä tällainen malli automaattisesti ennalta määritellystä valtavan suuresta mallijoukosta. Hyvä malli on sellainen, joka ei pyri kuvaamaan esitettyä äärellistä aineistoa mahdollisimman tarkasti, vaan pystyy yleistämään ja kuvaamaan siten myös tulevaisuudessa kerättävät havainnot. Koneoppimismenetelmät sisältävät useita erilaisia mittareita mallien hyvyyden määrittämiseksi. Hyvä mittari pystyy löytämään hyvän, ilmiötä kuvaavan mallin myös pienen havaintoaineiston perusteella. Nämä mittarit, joita kutsutaan mallinvalintakriteereiksi, ovat yleisiä mallijoukosta riippumattomia periaatteita, joskin ne joudutaan käytännössä usein sovittamaan tiettyyn mallijoukkoon soveltuviksi. Tällainen sovittaminen saattaa olla monesti hankalaa ja sovitettua menetelmää käytettäessä saatetaan tarvita paljon laskentatehoa. Yksi mallinvalintamenetelmistä on informaatioteoriaan pohjautuva, erityisesti lyhimmän kuvauspituuden periaatteeseen ja stokastisen kompleksisuuden käsitteeseen pohjautuva normalisoidun suurimman uskottavuuden kriteeri. Tämä menetelmä on teoreettisesti hyvin perusteltu ja osoittautunut myös useissa testeissä hyvin toimivaksi. Kuitenkin monien tilastomallityyppien hyvyyden arvioiminen tällä menetelmällä on laskennallisesti erittäin työlästä, joten monissa sovelluksissa kyseisen menetelmän käyttö on ollut pitkälti mahdotonta. Tässä väitöskirjassa esitetään tehokkaita normalisoidun suurimman uskottavuuden laskentamenetelmiä kolmelle yksinkertaiselle graafisiin malleihin kuuluvalle mallityypille. Lisäksi työssä selkiytetään kokonaiskuvaa aikaisempien laskentamenetelmien suhteen ja osoitetaan yhteyksiä muihin tutkimusongelmiin

    Computationally Efficient Methods for MDL-Optimal Density Estimation and Data Clustering

    Get PDF
    The Minimum Description Length (MDL) principle is a general, well-founded theoretical formalization of statistical modeling. The most important notion of MDL is the stochastic complexity, which can be interpreted as the shortest description length of a given sample of data relative to a model class. The exact definition of the stochastic complexity has gone through several evolutionary steps. The latest instantation is based on the so-called Normalized Maximum Likelihood (NML) distribution which has been shown to possess several important theoretical properties. However, the applications of this modern version of the MDL have been quite rare because of computational complexity problems, i.e., for discrete data, the definition of NML involves an exponential sum, and in the case of continuous data, a multi-dimensional integral usually infeasible to evaluate or even approximate accurately. In this doctoral dissertation, we present mathematical techniques for computing NML efficiently for some model families involving discrete data. We also show how these techniques can be used to apply MDL in two practical applications: histogram density estimation and clustering of multi-dimensional data.Yksi laskennallisen mallinnuksen keskeisistä ongelmista on mallinvalinta, jossa tehtävänä on valita joukosta kilpailevia matemaattisia malleja se, joka selittää annetun aineistojoukon parhaiten. Lyhimmän kuvauspituuden (MDL) periaate on yleinen, teoreettisesti ja intuitiivisesti mielekäs lähestymistapa tähän ongelmaan. Modernein formaali versio MDL-periaatteesta perustuu normalisoidun suurimman uskottavuuden (NML) jakaumaan, jonka laskeminen on matemaattisesti haastava ongelma. Väitöskirjassa esitetään tehokkaita laskentatapoja NML-jakaumalle kahden tärkeän malliperheen tapauksessa. Näiden laskennallisten tulosten käyttökelpoisuus osoitetaan soveltamalla menetelmiä kahteen käytännölliseen ongelmaan: histogrammi-muotoisten tiheysfunktioiden estimointiin ja kasauma-analyysiin

    Probabilistic, Information-Theoretic Models for Etymological Alignment

    Get PDF
    This thesis starts out by reviewing Bayesian reasoning and Bayesian network models. We present results related to discriminative learning of Bayesian network parameters. Along the way, we explicitly identify a number of problems arising in Bayesian model class selection. This leads us to information theory and, more speci cally, the minimum description length (MDL) principle. We look at its theoretic foundations and practical implications. The MDL approach provides elegant solutions for the problem of model class selection and enables us to objectively compare any set of models, regardless of their parametric structure. Finally, we apply these methods to problems arising in computational etymology. We develop model families for the task of sound-by-sound alignment across kindred languages. Fed with linguistic data in the form of cognate sets, our methods provide information about the correspondence of sounds, as well as the history and ancestral structure of a language family. As a running example we take the family of Uralic languages.Tämä väitöskirja käsittelee kolme aihepiiriä. Ensimmäinen niistä on todennäköisyyslaskenta ja Bayesiläinen päättely. Tämä lähestymistapa on hyödyllinen monessa tapauksessa, kun halutaan kuvata jotakin dataa yleistäen, voidakseen eristää sen omanaisuuksia tai ennustaa jonkin ei havaitun osan siitä. Tapauksissa joissa malliluokka, eli kuvaamistapa ei ole etukäteen tiedossa, tarvitaan valintakriteeri jonka avulla löytyy sopiva luokka. Tällaisen kriiterin määritteleminen objektiivisella tavalla on monesti vaativaa. Bayesiläinen päättely tarjoaa siihen tehtävään joitakin työkaluja, mutta usein on suotuisaa valita toisenlaisen lähestymistavan. Lyhyimmän kuvaamisen periaate MDL katsoo todennäköisyyden maksimoinnin olevan ekvivalentti ongelma kuvaamispituuden minimoinnin kanssa, siis mahdollisimman tehokkaan tiedon pakkaamisen. Datan kuvaustapa, ja sen kautta saavutettu tiedostonkoko on useasti helposti määritelty ongelman luonteeseen sopivalla tavalla. On myös helppo verrata eri kuvaamistavat, joita voi siis lukea malliluokkinakin, pakkaamistehokkuuden avulla objetiivisella tavalla. Nämä tulokset informaatioteorian maailmasta sovelletaan kolmannessa teoksen osassa ongelmiin, jotka syntyvät etymologiassa, sanojen historiallisen alkuperän tieteessä. Kehitetään tietokonemalleja jotka kuvaavat sukulaiskielten suhteet toisiinsä. Niitten avulla tutkitaan säännöt joiden mukaan äänteet vastaavat toisiaan ja miten ovat muuttuneet, ja missä kontekstissa mikä sääntö soveltuu. Esitetään mekanismin joka automatisoidusti arvaa puuttuvat sanamuodot, sekä rakentaa kieliperheelle sukupuun. Esimerkkinä käytetään suomalais-ugrilaiset kielet

    Analysis of spatially correlated functional data objects

    Get PDF
    Space-time data are of great interest in many fields of research, but they are inherently complex in nature which leads to practical issues when formulating statistical models to analyse them. In classical analysis of space-time data the temporal variation is modelled using traditional time-series analysis. This thesis focuses on build- ing a comprehensive framework for analysing space-time data, where the temporal component is considered to be a continuous function and modelled using functional data analytic tools. There are several approaches for analysis spatially correlated functional data, but most of them are designed for specific applications and there is no easy way of comparing these methods. In summary, the challenge in modelling space-time data using functional data analytic techniques is that there is no clear rule regarding which method is most appropriate for analysing a new dataset. Existing methods have been developed for specific applications without giving a clear indication for a practitioner regarding their appropriateness. This motivates us to propose a clear flow chart of the analysis of space-time data using functional data analysis methods and develop a framework under which different existing methods can be compared. In this research, we provide a clear comparison between two widely different methods of modelling spatial dependence one using parametric and the other using non-parametric spatial dependence. These techniques were developed for datasets with different complexities. First, we had to generalise the methodologies and codes of both of these methods to analyse data with features they were not originally designed for. We then compared the performance of these two methods on two real life datasets, the enhanced vegetation index (EVI) data and the electroencephalography (EEG) data. Further we have generalised our framework to accommodate replicated data and used it to build classification tools that outperforms all existing approaches. One major contribution of this thesis is the development of the methodological framework and computational tool for the analysis of spatially correlated functional data. We have also clearly demonstrated, theoretically, and through simulations that our approach outperforms existing methods. Finally, for the EEG data we have demonstrated that classification tools built on representations from our models can outperform classification tools using the raw data

    On incorporating inductive biases into deep neural networks

    Get PDF
    A machine learning (ML) algorithm can be interpreted as a system that learns to capture patterns in data distributions. Before the modern \emph{deep learning era}, emulating the human brain, the use of structured representations and strong inductive bias have been prevalent in building ML models, partly due to the expensive computational resources and the limited availability of data. On the contrary, armed with increasingly cheaper hardware and abundant data, deep learning has made unprecedented progress during the past decade, showcasing incredible performance on a diverse set of ML tasks. In contrast to \emph{classical ML} models, the latter seeks to minimize structured representations and inductive bias when learning, implicitly favoring the flexibility of learning over manual intervention. Despite the impressive performance, attention is being drawn towards enhancing the (relatively) weaker areas of deep models such as learning with limited resources, robustness, minimal overhead to realize simple relationships, and ability to generalize the learned representations beyond the training conditions, which were (arguably) the forte of classical ML. Consequently, a recent hybrid trend is surfacing that aims to blend structured representations and substantial inductive bias into deep models, with the hope of improving them. Based on the above motivation, this thesis investigates methods to improve the performance of deep models using inductive bias and structured representations across multiple problem domains. To this end, we inject a priori knowledge into deep models in the form of enhanced feature extraction techniques, geometrical priors, engineered features, and optimization constraints. Especially, we show that by leveraging the prior knowledge about the task in hand and the structure of data, the performance of deep learning models can be significantly elevated. We begin by exploring equivariant representation learning. In general, the real-world observations are prone to fundamental transformations (e.g., translation, rotation), and deep models typically demand expensive data-augmentations and a high number of filters to tackle such variance. In comparison, carefully designed equivariant filters possess this ability by nature. Henceforth, we propose a novel \emph{volumetric convolution} operation that can convolve arbitrary functions in the unit-ball (B3\mathbb{B}^3) while preserving rotational equivariance by projecting the input data onto the Zernike basis. We conduct extensive experiments and show that our formulations can be used to construct significantly cheaper ML models. Next, we study generative modeling of 3D objects and propose a principled approach to synthesize 3D point-clouds in the spectral-domain by obtaining a structured representation of 3D points as functions on the unit sphere (S2\mathbb{S}^2). Using the prior knowledge about the spectral moments and the output data manifold, we design an architecture that can maximally utilize the information in the inputs and generate high-resolution point-clouds with minimal computational overhead. Finally, we propose a framework to build normalizing flows (NF) based on increasing triangular maps and Bernstein-type polynomials. Compared to the existing NF approaches, our framework consists of favorable characteristics for fusing inductive bias within the model i.e., theoretical upper bounds for the approximation error, robustness, higher interpretability, suitability for compactly supported densities, and the ability to employ higher degree polynomials without training instability. Most importantly, we present a constructive universality proof, which permits us to analytically derive the optimal model coefficients for known transformations without training

    Connected Attribute Filtering Based on Contour Smoothness

    Get PDF
    corecore