56 research outputs found

    Computing Exact Clustering Posteriors with Subset Convolution

    Full text link
    An exponential-time exact algorithm is provided for the task of clustering n items of data into k clusters. Instead of seeking one partition, posterior probabilities are computed for summary statistics: the number of clusters, and pairwise co-occurrence. The method is based on subset convolution, and yields the posterior distribution for the number of clusters in O(n * 3^n) operations, or O(n^3 * 2^n) using fast subset convolution. Pairwise co-occurrence probabilities are then obtained in O(n^3 * 2^n) operations. This is considerably faster than exhaustive enumeration of all partitions.Comment: 6 figure

    Splinisilottimen käyttö SiZer-menetelmässä

    Get PDF
    Tilastollisessa data-analyysissä käytetään usein silottamista havaintoaineiston paikallisten piirteiden etsimiseen. Keskeinen ongelma tässä on, miten voidaan erottaa todelliset piirteet satunnaisvirheiden aiheuttamista näennäisistä piirteistä. SiZer on menetelmä, joka automaattisesti etsii tilastollisesti merkitseviä piirteitä eri silotustasoilla ja visualisoi ne niinsanottuna SiZer-karttana. Tässä työssä tarkastellaan, miten SiZer-menetelmä soveltuu splinisilotteen tilastollisesti merkitsevien piirteiden löytämiseen ja tarkasteluun. Työssä on toteutettu SiZer-kirjasto, jossa voi käyttää valinnan mukaan splinisilotusta tai lokaalia lineaariregressiota. Näillä eri silottimilla saatuja SiZer-karttoja vertaillaan kokeellisesti sekä simuloiduilla että reaalimaailman havaintoaineistoilla. Myös SiZer-kartan tuottamisessa tarvittavan luottamusvälien approksimointimenetelmän vaikutusta tutkitaan kokeellisesti. Kokeellisten tarkastelujen päähavainto on, ettei silotusmenetelmällä yleensä ole suurta vaikutusta siihen, millaisia piirteitä SiZer-menetelmällä löydetään, edellyttäen, että silottimien efektiiviset ikkunanleveydet on kalibroitu toisiaan vastaaviksi. Samoin havaitaan, ettei luottamusvälien approksimointimenetelmällä ole suurta vaikutusta, mikäli approksimoinnissa käytetyt parametrit on huolellisesti kalibroitu

    Explicit Correlation Amplifiers for Finding Outlier Correlations in Deterministic Subquadratic Time

    Get PDF
    We derandomize G. Valiant\u27s [J.ACM 62(2015) Art.13] subquadratic-time algorithm for finding outlier correlations in binary data. Our derandomized algorithm gives deterministic subquadratic scaling essentially for the same parameter range as Valiant\u27s randomized algorithm, but the precise constants we save over quadratic scaling are more modest. Our main technical tool for derandomization is an explicit family of correlation amplifiers built via a family of zigzag-product expanders in Reingold, Vadhan, and Wigderson [Ann. of Math 155(2002), 157-187]. We say that a function f:{-1,1}^d ->{-1,1}^D is a correlation amplifier with threshold 0 = 1, and strength p an even positive integer if for all pairs of vectors x,y in {-1,1}^d it holds that (i) ||| | >= tau*d implies (/gamma^d})^p*D /d)^p*D
    corecore