8 research outputs found

    Kromosomien välisten genotyyppiassosiaatioiden etsintä

    Get PDF
    Perimän eri kohdissa sijaitsevat genotyypit ovat assosioituneita, jos niiden välillä on tilastollinen riippuvuus. Tässä tutkielmassa esitellään ja vertaillaan menetelmiä kromosomien välisten genotyyppiassosiaatioiden etsintään. Saatavilla olevista genotyyppiaineistoista voidaan muodostaa miljardeja kromosomien välisiä ehdokkaita mahdollisesti assosioituneiksi genotyyppipareiksi. Etsintätehtävä voidaan jakaa kolmeen erilliseen osaan: assosiaation voimakkuutta kuvaavan tunnusluvun valinta, tuloksen merkitsevyyden laskeminen sekä tarpeeksi merkitsevien tulosten valinta. Tunnusluvun valintaan ja merkitsevyyden laskemiseen liittyen tutkielmassa esitellään pari alleeliassosiaation mittaamiseen tarkoitettua perinteistä alleeliassosiaatiomittaa sekä yleisempiä riippumattomuustestejä kuten khii-toiseen-testi, G-testi ja erilaisia satunnaiseen näytteenottoon perustuvia testaustapoja. Lisäksi ehdotetaan kahta menetelmää tarkkaan merkitsevyyden laskemiseen: genotyyppikohtaista tarkkaa testiä ja maksimipoikkeamatestiä. Merkitsevien tulosten valintaan liittyen tutustutaan koekohtaista virhetodennäköisyyttä rajoittavaan Bonferroni-korjaukseen, hylkäysvirheastetta rajoittavaan FDR-kontrollointiin sekä näiden muunnelmiin. Lopuksi kokeillaan muutamaa esiteltyä menetelmää sekä keinotekoisesti tuotetulla että aidolla genotyyppiaineistolla ja analysoidaan löydettyjä assosiaatioita. Koetuloksista on havaittavissa joukko vahvasti merkitseviä assosiaatioita kromosomien välillä. Osa näistä on selitettävissä populaation sisäisillä osapopulaatioilla, ja muutamat näyttäisivät olevan seurausta aineistossa väärin sijoitelluista markkereista. Suuri osa riippuvuuksista aiheutuu kolmesta sukupuolen kanssa vahvasti assosioituneesta perimän kohdasta. Näiden lisäksi jäljelle jää joukko assosiaatioita, joiden syyt ovat tuntemattomia

    Approximation Strategies for Structure Learning in Bayesian Networks

    Get PDF
    Bayesian networks are probabilistic graphical models, which can compactly represent complex probabilistic dependencies between a set of variables. Once learned from data or constructed by some other means, they can both give insight into the modeled domain and be used for probabilistic reasoning tasks, such as prediction of future data points. Learning a Bayesian network consists of two tasks: discovering a graphical dependency structure on variables, and finding the numerical parameters of a conditional distribution for each variable. Structure discovery has attracted considerable interest in the recent decades. Attention has mostly been paid to finding a structure that best fits the data under certain criterion. The optimization approach can lead to noisy and partly arbitrary results due to the uncertainty caused by a small amount of data. The so-called full Bayesian approach addresses this shortcoming by learning the posterior distribution of structures. In practice, the posterior distribution is summarized by constructing a representative sample of structures, or by computing marginal posterior probabilities of individual arcs or other substructures. This thesis presents algorithms for the full Bayesian approach to structure learning in Bayesian networks. Because the existing exact algorithms only scale to small networks of up to about 25 variables, we investigate sampling based, Monte Carlo methods. The state-of-the-art sampling algorithms draw orderings of variables along a Markov chain. We propose several improvements to this algorithm. First, we show that sampling partial orders instead of linear orders can lead to radically improved mixing of the Markov chain and consequently better estimates. Second, we suggest replacing Markov chain Monte Carlo by annealed importance sampling. This can further improve the accuracy of estimates and has also other advantages such as independent samples and easy parallelization. Third, we propose a way to correct the bias that is caused by sampling orderings of variables instead of structures. Fourth, we present an algorithm that can significantly speed up per-sample computations via approximation. In addition, the thesis proposes a new algorithm for so-called local learning of the Bayesian network structure. In local learning the task is to discover the neighborhood of a given target variable. In contrast to previous algorithms that are based on conditional independence tests between variables, our algorithm gives scores to larger substructures. This approach often leads to more accurate results.Bayes-verkot ovat todennäköisyysmalleja, joilla voidaan mallintaa muuttujien välisiä monimutkaisia tilastollisia riippuvuuksia. Havainnollisuutensa vuoksi ne voivat auttaa mallinnuksen kohteena olevan ilmiön syvemmässä ymmärtämisessä. Muun muassa tästä syystä Bayes-verkkoja halutaan muodostaa eli "oppia" automaattisesti havaintoaineistojen perusteella. Tärkein ja samalla vaikein tehtävä Bayes-verkon oppimisessa on suunnatusta verkosta koostuvan rakenteen muodostaminen. Verkon solmut edustavat muuttujia, ja solmujen välillä kulkevat kaaret kuvaavat muuttujien välisiä riippuvuuksia. Yksi oppimiseen usein liittyvä ongelma on havaintoaineiston pienestä koosta johtuva epävarmuus oikeasta rakenteesta. Niin kutsutussa täysin bayesiläisessä lähestymistavassa tämä epävarmuus otetaan huomioon ja yksittäisen rakenteen valitsemisen sijaan opitaan todennäköisyydet kaikille mahdollisille rakenteille. Koska erilaisia rakenteita on tyypillisesti epäkäytännöllisen paljon, oppimisen tulos esitetään yleensä joko keräämällä edustava otos todennäköisimpiä rakenteita tai laskemalla todennäköisyyksiä yksittäisille rakenteiden osille. Tässä väitöstyössä esitellään menetelmiä Bayes-verkkojen rakenteen bayesiläiseen oppimiseen. Koska tunnetut täsmälliset menetelmät suoriutuvat korkeitaan vain noin 25 muuttujan aineistoista, työssä keskitytään satunnaisotantaan perustuviin likimääräisiin Monte Carlo -menetelmiin. Näihin työssä esitellään useita parannuksia, jotka (1) parantavat tulosten täsmällisyyttä, (2) monipuolistavat menetelmiä ja (3) tekevät menetelmistä nopeampia. Väitöstyön loppuosassa käsitellään Bayes-verkkojen paikallista oppimista, jossa tavoitteena ei ole muodostaa koko rakennetta vaan löytää ainoastaan valitun kohdemuuttujan lähimmät naapurit. Työssä esitellään menetelmä, joka perustuu rakenteen osien pisteyttämiseen. Näin saavutetaan usein parempi lopputulos kuin aiemmilla tilastollisiin riippumattomuustesteihin perustuvilla menetelmillä

    Partial Order MCMC for Structure Discovery in Bayesian Networks

    Get PDF
    We present a new Markov chain Monte Carlo method for estimating posterior probabilities of structural features in Bayesian networks. The method draws samples from the posterior distribution of partial orders on the nodes; for each sampled partial order, the conditional probabilities of interest are computed exactly. We give both analytical and empirical results that suggest the superiority of the new method compared to previous methods, which sample either directed acyclic graphs or linear orders on the nodes.Peer reviewe

    A Scalable Scheme for Counting Linear Extensions

    Get PDF
    Peer reviewe

    Counting Linear Extensions in Practice : MCMC versus Exponential Monte Carlo

    Get PDF
    Counting the linear extensions of a given partial order is a #P-complete problem that arises in numerous applications. For polynomial-time approximation, several Markov chain Monte Carlo schemes have been proposed; however, little is known of their efficiency in practice. This work presents an empirical evaluation of the state-of-the-art schemes and investigates a number of ideas to enhance their performance. In addition, we introduce a novel approximation scheme, adaptive relaxation Monte Carlo (ARMC), that leverages exact exponential-time counting algorithms. We show that approximate counting is feasible up to a few hundred elements on various classes of partial orders, and within this range ARMC typically outperforms the other schemes.Peer reviewe

    Representation transfer for differentially private drug sensitivity prediction

    Get PDF
    Motivation Human genomic datasets often contain sensitive information that limits use and sharing of the data. In particular, simple anonymization strategies fail to provide sufficient level of protection for genomic data, because the data are inherently identifiable. Differentially private machine learning can help by guaranteeing that the published results do not leak too much information about any individual data point. Recent research has reached promising results on differentially private drug sensitivity prediction using gene expression data. Differentially private learning with genomic data is challenging because it is more difficult to guarantee privacy in high dimensions. Dimensionality reduction can help, but if the dimension reduction mapping is learned from the data, then it needs to be differentially private too, which can carry a significant privacy cost. Furthermore, the selection of any hyperparameters (such as the target dimensionality) needs to also avoid leaking private information. Results We study an approach that uses a large public dataset of similar type to learn a compact representation for differentially private learning. We compare three representation learning methods: variational autoencoders, principal component analysis and random projection. We solve two machine learning tasks on gene expression of cancer cell lines: cancer type classification, and drug sensitivity prediction. The experiments demonstrate significant benefit from all representation learning methods with variational autoencoders providing the most accurate predictions most often. Our results significantly improve over previous state-of-the-art in accuracy of differentially private drug sensitivity prediction. Availability and implementation Code used in the experiments is available at https://github.com/DPBayes/dp-representation-transfer.Peer reviewe

    Structure discovery in Bayesian networks by sampling partial orders

    No full text
    We present methods based on Metropolis-coupled Markov chain Monte Carlo (MC3) and annealed importance sampling (AIS) for estimating the posterior distribution of Bayesian networks. The methods draw samples from an appropriate distribution of partial orders on the nodes, continued by sampling directed acyclic graphs (DAGs) conditionally on the sampled partial orders. We show that the computations needed for the sampling algorithms are feasible as long as the encountered partial orders have relatively few down-sets. While the algorithms assume suitable modularity properties of the priors, arbitrary priors can be handled by dividing the importance weight of each sampled DAG by the number of topological sorts it has - we give a practical dynamic programming algorithm to compute these numbers. Our empirical results demonstrate that the presented partial-order-based samplers are superior to previous Markov chain Monte Carlo methods, which sample DAGs either directly or via linear orders on the nodes. The results also suggest that the convergence rate of the estimators based on AIS are competitive to those of MC3. Thus AIS is the preferred method, as it enables easier large-scale parallelization and, in addition, supplies good probabilistic lower bound guarantees for the marginal likelihood of the model.Peer reviewe
    corecore