51 research outputs found

    NML Computation Algorithms for Tree-Structured Multinomial Bayesian Networks

    Get PDF
    Typical problems in bioinformatics involve large discrete datasets. Therefore, in order to apply statistical methods in such domains, it is important to develop efficient algorithms suitable for discrete data. The minimum description length (MDL) principle is a theoretically well-founded, general framework for performing statistical inference. The mathematical formalization of MDL is based on the normalized maximum likelihood (NML) distribution, which has several desirable theoretical properties. In the case of discrete data, straightforward computation of the NML distribution requires exponential time with respect to the sample size, since the definition involves a sum over all the possible data samples of a fixed size. In this paper, we first review some existing algorithms for efficient NML computation in the case of multinomial and naive Bayes model families. Then we proceed by extending these algorithms to more complex, tree-structured Bayesian networks

    Computationally Efficient Methods for MDL-Optimal Density Estimation and Data Clustering

    Get PDF
    The Minimum Description Length (MDL) principle is a general, well-founded theoretical formalization of statistical modeling. The most important notion of MDL is the stochastic complexity, which can be interpreted as the shortest description length of a given sample of data relative to a model class. The exact definition of the stochastic complexity has gone through several evolutionary steps. The latest instantation is based on the so-called Normalized Maximum Likelihood (NML) distribution which has been shown to possess several important theoretical properties. However, the applications of this modern version of the MDL have been quite rare because of computational complexity problems, i.e., for discrete data, the definition of NML involves an exponential sum, and in the case of continuous data, a multi-dimensional integral usually infeasible to evaluate or even approximate accurately. In this doctoral dissertation, we present mathematical techniques for computing NML efficiently for some model families involving discrete data. We also show how these techniques can be used to apply MDL in two practical applications: histogram density estimation and clustering of multi-dimensional data.Yksi laskennallisen mallinnuksen keskeisistä ongelmista on mallinvalinta, jossa tehtävänä on valita joukosta kilpailevia matemaattisia malleja se, joka selittää annetun aineistojoukon parhaiten. Lyhimmän kuvauspituuden (MDL) periaate on yleinen, teoreettisesti ja intuitiivisesti mielekäs lähestymistapa tähän ongelmaan. Modernein formaali versio MDL-periaatteesta perustuu normalisoidun suurimman uskottavuuden (NML) jakaumaan, jonka laskeminen on matemaattisesti haastava ongelma. Väitöskirjassa esitetään tehokkaita laskentatapoja NML-jakaumalle kahden tärkeän malliperheen tapauksessa. Näiden laskennallisten tulosten käyttökelpoisuus osoitetaan soveltamalla menetelmiä kahteen käytännölliseen ongelmaan: histogrammi-muotoisten tiheysfunktioiden estimointiin ja kasauma-analyysiin

    Computing the Stochastic Complexity of Simple Probabilistic Graphical Models

    Get PDF
    Minimum Description Length (MDL) is an information-theoretic principle that can be used for model selection and other statistical inference tasks. There are various ways to use the principle in practice. One theoretically valid way is to use the normalized maximum likelihood (NML) criterion. Due to computational difficulties, this approach has not been used very often. This thesis presents efficient floating-point algorithms that make it possible to compute the NML for multinomial, Naive Bayes and Bayesian forest models. None of the presented algorithms rely on asymptotic analysis and with the first two model classes we also discuss how to compute exact rational number solutions.Koneoppimisessa ollaan kiinnostuneita löytämään automaattisesti malleja, jotka sopivat yhteen mahdollisimman hyvin havaintojen kanssa. Nämä havainnot esitetään usein mittaustuloksina taulukkomuodossa. Tällaisen taulukon toivotaan sisältävän kaikki tarkasteltavan ilmiön kannalta oleelliset ominaisuudet. Ilmiötä on kuitenkin vaikea hahmottaa vain tarkastelemalla taulukkoa, mistä johtuen taulukon sisältämästä tiedosta rakennetaan usein malli. Koneoppimisessa annetaan tietokoneen etsiä tällainen malli automaattisesti ennalta määritellystä valtavan suuresta mallijoukosta. Hyvä malli on sellainen, joka ei pyri kuvaamaan esitettyä äärellistä aineistoa mahdollisimman tarkasti, vaan pystyy yleistämään ja kuvaamaan siten myös tulevaisuudessa kerättävät havainnot. Koneoppimismenetelmät sisältävät useita erilaisia mittareita mallien hyvyyden määrittämiseksi. Hyvä mittari pystyy löytämään hyvän, ilmiötä kuvaavan mallin myös pienen havaintoaineiston perusteella. Nämä mittarit, joita kutsutaan mallinvalintakriteereiksi, ovat yleisiä mallijoukosta riippumattomia periaatteita, joskin ne joudutaan käytännössä usein sovittamaan tiettyyn mallijoukkoon soveltuviksi. Tällainen sovittaminen saattaa olla monesti hankalaa ja sovitettua menetelmää käytettäessä saatetaan tarvita paljon laskentatehoa. Yksi mallinvalintamenetelmistä on informaatioteoriaan pohjautuva, erityisesti lyhimmän kuvauspituuden periaatteeseen ja stokastisen kompleksisuuden käsitteeseen pohjautuva normalisoidun suurimman uskottavuuden kriteeri. Tämä menetelmä on teoreettisesti hyvin perusteltu ja osoittautunut myös useissa testeissä hyvin toimivaksi. Kuitenkin monien tilastomallityyppien hyvyyden arvioiminen tällä menetelmällä on laskennallisesti erittäin työlästä, joten monissa sovelluksissa kyseisen menetelmän käyttö on ollut pitkälti mahdotonta. Tässä väitöskirjassa esitetään tehokkaita normalisoidun suurimman uskottavuuden laskentamenetelmiä kolmelle yksinkertaiselle graafisiin malleihin kuuluvalle mallityypille. Lisäksi työssä selkiytetään kokonaiskuvaa aikaisempien laskentamenetelmien suhteen ja osoitetaan yhteyksiä muihin tutkimusongelmiin

    Causal Inference by Stochastic Complexity

    Full text link
    The algorithmic Markov condition states that the most likely causal direction between two random variables X and Y can be identified as that direction with the lowest Kolmogorov complexity. Due to the halting problem, however, this notion is not computable. We hence propose to do causal inference by stochastic complexity. That is, we propose to approximate Kolmogorov complexity via the Minimum Description Length (MDL) principle, using a score that is mini-max optimal with regard to the model class under consideration. This means that even in an adversarial setting, such as when the true distribution is not in this class, we still obtain the optimal encoding for the data relative to the class. We instantiate this framework, which we call CISC, for pairs of univariate discrete variables, using the class of multinomial distributions. Experiments show that CISC is highly accurate on synthetic, benchmark, as well as real-world data, outperforming the state of the art by a margin, and scales extremely well with regard to sample and domain sizes

    Probabilistic, Information-Theoretic Models for Etymological Alignment

    Get PDF
    This thesis starts out by reviewing Bayesian reasoning and Bayesian network models. We present results related to discriminative learning of Bayesian network parameters. Along the way, we explicitly identify a number of problems arising in Bayesian model class selection. This leads us to information theory and, more speci cally, the minimum description length (MDL) principle. We look at its theoretic foundations and practical implications. The MDL approach provides elegant solutions for the problem of model class selection and enables us to objectively compare any set of models, regardless of their parametric structure. Finally, we apply these methods to problems arising in computational etymology. We develop model families for the task of sound-by-sound alignment across kindred languages. Fed with linguistic data in the form of cognate sets, our methods provide information about the correspondence of sounds, as well as the history and ancestral structure of a language family. As a running example we take the family of Uralic languages.Tämä väitöskirja käsittelee kolme aihepiiriä. Ensimmäinen niistä on todennäköisyyslaskenta ja Bayesiläinen päättely. Tämä lähestymistapa on hyödyllinen monessa tapauksessa, kun halutaan kuvata jotakin dataa yleistäen, voidakseen eristää sen omanaisuuksia tai ennustaa jonkin ei havaitun osan siitä. Tapauksissa joissa malliluokka, eli kuvaamistapa ei ole etukäteen tiedossa, tarvitaan valintakriteeri jonka avulla löytyy sopiva luokka. Tällaisen kriiterin määritteleminen objektiivisella tavalla on monesti vaativaa. Bayesiläinen päättely tarjoaa siihen tehtävään joitakin työkaluja, mutta usein on suotuisaa valita toisenlaisen lähestymistavan. Lyhyimmän kuvaamisen periaate MDL katsoo todennäköisyyden maksimoinnin olevan ekvivalentti ongelma kuvaamispituuden minimoinnin kanssa, siis mahdollisimman tehokkaan tiedon pakkaamisen. Datan kuvaustapa, ja sen kautta saavutettu tiedostonkoko on useasti helposti määritelty ongelman luonteeseen sopivalla tavalla. On myös helppo verrata eri kuvaamistavat, joita voi siis lukea malliluokkinakin, pakkaamistehokkuuden avulla objetiivisella tavalla. Nämä tulokset informaatioteorian maailmasta sovelletaan kolmannessa teoksen osassa ongelmiin, jotka syntyvät etymologiassa, sanojen historiallisen alkuperän tieteessä. Kehitetään tietokonemalleja jotka kuvaavat sukulaiskielten suhteet toisiinsä. Niitten avulla tutkitaan säännöt joiden mukaan äänteet vastaavat toisiaan ja miten ovat muuttuneet, ja missä kontekstissa mikä sääntö soveltuu. Esitetään mekanismin joka automatisoidusti arvaa puuttuvat sanamuodot, sekä rakentaa kieliperheelle sukupuun. Esimerkkinä käytetään suomalais-ugrilaiset kielet

    Minimax Optimal Bayes Mixtures for Memoryless Sources

    Get PDF
    Tasks such as data compression and prediction commonly require choosing a probability distribution over all possible sequences. To achieve an efficient prediction strategy, the chosen distribution should be a good approximation of the true distribution underlying the data. Similarly, an efficient compression strategy should assign shorter codes for more probable sequences. In particular, a compression strategy that minimizes the code-length can be shown to minimize the often-used logarithmic prediction loss. However, the optimal strategy requires knowing the true distribution which is not available in most applications. In universal compression or prediction we assume that the true probability distribution is not known but belongs to a known class of distributions. A universal code is a code that can compress the data essentially as well as the best distribution in the class in hindsight. Similarly, a universal predictor achieves low prediction loss regardless of the distribution. We call a universal code minimax optimal if it minimizes the worst-case regret, i.e. excess code-length or prediction loss compared to the best distribution in the class. In this thesis we assume the known class to be discrete memoryless sources. The minimax optimal code for this class is given by the normalized maximum likelihood (NML) distribution. However, in practice computationally more efficient distributions such as Bayes mixtures have to be used. A Bayes mixture is a mixture of the probability distributions in the class weighted by a prior distribution. The conjugate prior to the multinomial distribution is the Dirichlet distribution, using which asymptotically minimax codes have been developed. The Dirichlet distribution requires a hyperparameter that dictates the amount of prior mass given to the outcomes. The distribution given by the symmetric hyperparameter 1/2 has been widely studied and has been shown to minimize the worst-case expected regret asymptotically. Previous work on minimax optimal Bayes mixtures has mainly been concerned with large sample sizes in comparison to the alphabet size. In this thesis we investigate the minimax optimal Dirichlet prior in the large alphabet setting. In particular, we find that when the alphabet size is large compared to the sample size, the optimal hyperparameter for the Dirichlet distribution is 1/3. The worst-case regret of this mixture turns out to approach the NML regret when the alphabet size grows and the distribution provides an efficient approximation of the NML distribution. Furthermore, we develop an efficient algorithm for finding the optimal hyperparameter for any sample size or alphabet size

    On Model Selection for Bayesian Networks and Sparse Logistic Regression

    Get PDF
    Model selection is one of the fundamental tasks in scientific research. In this thesis, we addresses several research problems in statistical model selection, which aims to select a statistical model that fits the data best. We focus on the model selection problems in Bayesian networks and logistic regression from both theoretical and practical aspects. We first compare different model selection criteria for learning Bayesian networks and focus on the Fisher information approximation (FIA) criterion. We describe how FIA fails when the candidate models are complex and there is only limited data available. We show that although the Bayesian information criterion (BIC) is a more coarse than FIA, it achieves better results in most of the cases. Then, we present a method named Semstem, based on the structural expectation maximization algorithm, for learning stemmatic trees as a special type of Bayesian networks, which model the evolutionary relationships among historical manuscripts. Semstem selects best models by the maximum likelihood criterion, which is equivalent to BIC in this case. We show that Semstem achieves results with usually higher accuracies and better interpretability than other popular methods when applied on two benchmark data sets. Before we turn to the topic of learning another type of Bayesian networks, we start with a study on how to efficiently learn interactions among variables. To reduce the search space, we apply basis functions on the input variables and transform the original problem into a model selection problem in logistic regression. Then we can use Lasso to select a small set of effective predictors out of a large set of candidates. We show that the Lasso-based method is more robust than an earlier method under different situations. We extend the Lasso-based method for learning Bayesian networks with local structure, i.e. regularities in conditional probability distributions. We show that our method is more suitable than some classic methods that do not consider local structure. Moreover, when the local structure is complex, our method outperforms two other methods that are also designed for learning local structure.Mallinvalinta on eräs tieteellisen tutkimuksen perustavanlaatuisista ongelmista. Tässä väitöskirjassa käsittelemme useita tutkimuskysymyksiä liittyen tilastollisen mallinvalintaan, jossa tavoitteena on valita aineistoon parhaiten sopiva tilastollinen malli. Tarkastelemme Bayes-verkkojen ja logistisen regression mallinvalintaongelmia sekä teoreettisesta että soveltavasta näkökulmasta. Vertaamme ensin eri mallinvalintakriteereitä Bayes-verkkojen oppimiseen ja keskitymme Fisher-informaatioapproksimaatioon (Fisher Information Approximation, FIA) pohjautuvaan kriteeriin. Näytämme, että FIA epäonnistuu mallinvalinnassa kun kandidaattimallit ovat monimutkaisia ja aineiston määrä on rajoitettu. Osoitamme, että vaikka bayesiläinen informaatiokriteeri (Bayesian Information Criterion, BIC) on FIA:ta karkeampi, se tuottaa useimmiten parempia tuloksia. Seuraavaksi esittelemme rakenteelliseen odotusarvon maksimointiin perustuvan Semstem-algoritmin, jota voidaan käyttää historiallisten käsikirjoitusten evolutionaarisia suhteita mallintavien stemmatologisten puiden oppimiseen Bayes-verkkojen erikoistapauksina. Semstem valitsee parhaat mallit käyttämällä suurimman uskottavuuden kriteeriä, joka on tässä tapauksessa yhtäpitävä BIC:n kanssa. Näytämme, kuinka Semstem tuottaa kahdella suorituskyvyn mittaamiseen käytetyllä aineistolla yleensä tarkempia ja paremmin tulkittavia tuloksia kuin tietyt muut tunnetut menetelmät. Ennen kuin käsittelemme eräitä toisentyyppisiä Bayes-verkkoja, tarkastelemme tehokasta muuttujienvälisten yhteisvaikutusten oppimista. Sovellamme syötemuuttujiin kantafunktioita pienentääksemme hakuavaruutta ja muunnamme alkuperäisen ongelman logistisen regression mallinvalintaongelmaksi. Näin voimme käyttää Lasso-menetelmää valitsemaan pienen ja tehokkaan osajoukon suuresta joukosta ennustemuuttujia. Näytämme, että Lasso-perustainen menetelmä on useissa eri tilanteissa vakaampi kuin eräs aiempi menetelmä. Laajennamme Lassoon perustuvaa menetelmää sellaisten Bayes-verkkojen oppimiseen, jotka sisältävät paikallisia rakenteita eli säännönmukaisuuksia ehdollisissa todennäköisyysjakaumissa. Osoitamme menetelmämme olevan tehtävään soveltuvampi kuin eräät klassiset menetelmät, jotka eivät huomioi paikallisia rakenteita. Jos paikalliset rakenteet ovat monimutkaisia, menetelmämme tulokset ovat lisäksi parempia kuin kahden muun paikallisten rakenteiden oppimiseen suunnitellun menetelmän

    Exploring the topical structure of short text through probability models : from tasks to fundamentals

    Get PDF
    Recent technological advances have radically changed the way we communicate. Today’s communication has become ubiquitous and it has fostered the need for information that is easier to create, spread and consume. As a consequence, we have experienced the shortening of text messages in mediums ranging from electronic mailing, instant messaging to microblogging. Moreover, the ubiquity and fast-paced nature of these mediums have promoted their use for unthinkable tasks. For instance, reporting real-world events was classically carried out by news reporters, but, nowadays, most interesting events are first disclosed on social networks like Twitter by eyewitness through short text messages. As a result, the exploitation of the thematic content in short text has captured the interest of both research and industry. Topic models are a type of probability models that have traditionally been used to explore this thematic content, a.k.a. topics, in regular text. Most popular topic models fall into the sub-class of LVMs (Latent Variable Models), which include several latent variables at the corpus, document and word levels to summarise the topics at each level. However, classical LVM-based topic models struggle to learn semantically meaningful topics in short text because the lack of co-occurring words within a document hampers the estimation of the local latent variables at the document level. To overcome this limitation, pooling and hierarchical Bayesian strategies that leverage on contextual information have been essential to improve the quality of topics in short text. In this thesis, we study the problem of learning semantically meaningful and predictive representations of text in two distinct phases: • In the first phase, Part I, we investigate the use of LVM-based topic models for the specific task of event detection in Twitter. In this situation, the use of contextual information to pool tweets together comes naturally. Thus, we first extend an existing clustering algorithm for event detection to use the topics learned from pooled tweets. Then, we propose a probability model that integrates topic modelling and clustering to enable the flow of information between both components. • In the second phase, Part II and Part III, we challenge the use of local latent variables in LVMs, specially when the context of short messages is not available. First of all, we study the evaluation of the generalization capabilities of LVMs like PFA (Poisson Factor Analysis) and propose unbiased estimation methods to approximate it. With the most accurate method, we compare the generalization of chordal models without latent variables to that of PFA topic models in short and regular text collections. In summary, we demonstrate that by integrating clustering and topic modelling, the performance of event detection techniques in Twitter is improved due to the interaction between both components. Moreover, we develop several unbiased likelihood estimation methods for assessing the generalization of PFA and we empirically validate their accuracy in different document collections. Finally, we show that we can learn chordal models without latent variables in text through Chordalysis, and that they can be a competitive alternative to classical topic models, specially in short text.Els avenços tecnològics han canviat radicalment la forma que ens comuniquem. Avui en dia, la comunicació és ubiqua, la qual cosa fomenta l’ús de informació fàcil de crear, difondre i consumir. Com a resultat, hem experimentat l’escurçament dels missatges de text en diferents medis de comunicació, des del correu electrònic, a la missatgeria instantània, al microblogging. A més de la ubiqüitat, la naturalesa accelerada d’aquests medis ha promogut el seu ús per tasques fins ara inimaginables. Per exemple, el relat d’esdeveniments era clàssicament dut a terme per periodistes a peu de carrer, però, en l’actualitat, el successos més interessants es publiquen directament en xarxes socials com Twitter a través de missatges curts. Conseqüentment, l’explotació de la informació temàtica del text curt ha atret l'interès tant de la recerca com de la indústria. Els models temàtics (o topic models) són un tipus de models de probabilitat que tradicionalment s’han utilitzat per explotar la informació temàtica en documents de text. Els models més populars pertanyen al subgrup de models amb variables latents, els quals incorporen varies variables a nivell de corpus, document i paraula amb la finalitat de descriure el contingut temàtic a cada nivell. Tanmateix, aquests models tenen dificultats per aprendre la semàntica en documents curts degut a la manca de coocurrència en les paraules d’un mateix document, la qual cosa impedeix una correcta estimació de les variables locals. Per tal de solucionar aquesta limitació, l’agregació de missatges segons el context i l’ús d’estratègies jeràrquiques Bayesianes són essencials per millorar la qualitat dels temes apresos. En aquesta tesi, estudiem en dos fases el problema d’aprenentatge d’estructures semàntiques i predictives en documents de text: En la primera fase, Part I, investiguem l’ús de models temàtics amb variables latents per la detecció d’esdeveniments a Twitter. En aquest escenari, l’ús del context per agregar tweets sorgeix de forma natural. Per això, primer estenem un algorisme de clustering per detectar esdeveniments a partir dels temes apresos en els tweets agregats. I seguidament, proposem un nou model de probabilitat que integra el model temàtic i el de clustering per tal que la informació flueixi entre ambdós components. En la segona fase, Part II i Part III, qüestionem l’ús de variables latents locals en models per a text curt sense context. Primer de tot, estudiem com avaluar la capacitat de generalització d’un model amb variables latents com el PFA (Poisson Factor Analysis) a través del càlcul de la likelihood. Atès que aquest càlcul és computacionalment intractable, proposem diferents mètodes d estimació. Amb el mètode més acurat, comparem la generalització de models chordals sense variables latents amb la del models PFA, tant en text curt com estàndard. En resum, demostrem que integrant clustering i models temàtics, el rendiment de les tècniques de detecció d’esdeveniments a Twitter millora degut a la interacció entre ambdós components. A més a més, desenvolupem diferents mètodes d’estimació per avaluar la capacitat generalizadora dels models PFA i validem empíricament la seva exactitud en diverses col·leccions de text. Finalment, mostrem que podem aprendre models chordals sense variables latents en text a través de Chordalysis i que aquests models poden ser una bona alternativa als models temàtics clàssics, especialment en text curt.Postprint (published version

    Proceedings of the Fifth Workshop on Information Theoretic Methods in Science and Engineering

    Get PDF
    These are the online proceedings of the Fifth Workshop on Information Theoretic Methods in Science and Engineering (WITMSE), which was held in the Trippenhuis, Amsterdam, in August 2012

    Causal Inference by Stochastic Complexity

    No full text
    The algorithmic Markov condition states that the most likely causal direction between two random variables X and Y can be identified as that direction with the lowest Kolmogorov complexity. Due to the halting problem, however, this notion is not computable. We hence propose to do causal inference by stochastic complexity. That is, we propose to approximate Kolmogorov complexity via the Minimum Description Length (MDL) principle, using a score that is mini-max optimal with regard to the model class under consideration. This means that even in an adversarial setting, such as when the true distribution is not in this class, we still obtain the optimal encoding for the data relative to the class. We instantiate this framework, which we call CISC, for pairs of univariate discrete variables, using the class of multinomial distributions. Experiments show that CISC is highly accurate on synthetic, benchmark, as well as real-world data, outperforming the state of the art by a margin, and scales extremely well with regard to sample and domain sizes
    corecore