56 research outputs found
Computing Exact Clustering Posteriors with Subset Convolution
An exponential-time exact algorithm is provided for the task of clustering n
items of data into k clusters. Instead of seeking one partition, posterior
probabilities are computed for summary statistics: the number of clusters, and
pairwise co-occurrence. The method is based on subset convolution, and yields
the posterior distribution for the number of clusters in O(n * 3^n) operations,
or O(n^3 * 2^n) using fast subset convolution. Pairwise co-occurrence
probabilities are then obtained in O(n^3 * 2^n) operations. This is
considerably faster than exhaustive enumeration of all partitions.Comment: 6 figure
Splinisilottimen käyttö SiZer-menetelmässä
Tilastollisessa data-analyysissä käytetään usein silottamista havaintoaineiston paikallisten piirteiden etsimiseen. Keskeinen ongelma tässä on, miten voidaan erottaa todelliset piirteet satunnaisvirheiden aiheuttamista näennäisistä piirteistä. SiZer on menetelmä, joka automaattisesti etsii tilastollisesti merkitseviä piirteitä eri silotustasoilla ja visualisoi ne niinsanottuna SiZer-karttana.
Tässä työssä tarkastellaan, miten SiZer-menetelmä soveltuu splinisilotteen tilastollisesti merkitsevien piirteiden löytämiseen ja tarkasteluun. Työssä on toteutettu SiZer-kirjasto, jossa voi käyttää valinnan mukaan splinisilotusta tai lokaalia lineaariregressiota. Näillä eri silottimilla saatuja SiZer-karttoja vertaillaan kokeellisesti sekä simuloiduilla että reaalimaailman havaintoaineistoilla. Myös SiZer-kartan tuottamisessa tarvittavan luottamusvälien approksimointimenetelmän vaikutusta tutkitaan kokeellisesti.
Kokeellisten tarkastelujen päähavainto on, ettei silotusmenetelmällä yleensä ole suurta vaikutusta siihen, millaisia piirteitä SiZer-menetelmällä löydetään, edellyttäen, että silottimien efektiiviset ikkunanleveydet on kalibroitu toisiaan vastaaviksi. Samoin havaitaan, ettei luottamusvälien approksimointimenetelmällä ole suurta vaikutusta, mikäli approksimoinnissa käytetyt parametrit on huolellisesti kalibroitu
Explicit Correlation Amplifiers for Finding Outlier Correlations in Deterministic Subquadratic Time
We derandomize G. Valiant\u27s [J.ACM 62(2015) Art.13] subquadratic-time algorithm for finding outlier correlations in binary data. Our derandomized algorithm gives deterministic subquadratic scaling essentially for the same parameter range as Valiant\u27s randomized algorithm, but the precise constants we save over quadratic scaling are more modest. Our main technical tool for derandomization is an explicit family of correlation amplifiers built via a family of zigzag-product expanders in Reingold, Vadhan, and Wigderson [Ann. of Math 155(2002), 157-187]. We say that a function f:{-1,1}^d ->{-1,1}^D is a correlation amplifier with threshold 0 = 1, and strength p an even positive integer if for all pairs of vectors x,y in {-1,1}^d it holds that (i) ||| | >= tau*d implies (/gamma^d})^p*D /d)^p*D
- …