53 research outputs found

    Learning metrics and discriminative clustering

    Get PDF
    In this work methods have been developed to extract relevant information from large, multivariate data sets in a flexible, nonlinear way. The techniques are applicable especially at the initial, explorative phase of data analysis, in cases where an explicit indicator of relevance is available as part of the data set. The unsupervised learning methods, popular in data exploration, often rely on a distance measure defined for data items. Selection of the distance measure, part of which is feature selection, is therefore fundamentally important. The learning metrics principle is introduced to complement manual feature selection by enabling automatic modification of a distance measure on the basis of available relevance information. Two applications of the principle are developed. The first emphasizes relevant aspects of the data by directly modifying distances between data items, and is usable, for example, in information visualization with the self-organizing maps. The other method, discriminative clustering, finds clusters that are internally homogeneous with respect to the interesting variation of the data. The techniques have been applied to text document analysis, gene expression clustering, and charting the bankruptcy sensitivity of companies. In the first, more straightforward approach, a new local metric of the data space measures changes in the conditional distribution of the relevance-indicating data by the Fisher information matrix, a local approximation of the Kullback-Leibler distance. Discriminative clustering, on the other hand, directly minimizes a Kullback-Leibler based distortion measure within the clusters, or equivalently maximizes the mutual information between the clusters and the relevance indicator. A finite-data algorithm for discriminative clustering is also presented. It maximizes a partially marginalized posterior probability of the model and is asymptotically equivalent to maximizing mutual information.reviewe

    Low-rank approximations of second-order document representations

    Get PDF
    Document embeddings, created with methods ranging from simple heuristics to statistical and deep models, are widely applicable. Bag-of-vectors models for documents include the mean and quadratic approaches (Torki, 2018). We present evidence that quadratic statistics alone, without the mean information, can offer superior accuracy, fast document comparison, and compact document representations. In matching news articles to their comment threads, low-rank representations of only 3-4 times the size of the mean vector give most accurate matching, and in standard sentence comparison tasks, results are state of the art despite faster computation. Similarity measures are discussed, and the Frobenius product implicit in the proposed method is contrasted to Wasserstein or Bures metric from the transportation theory. We also shortly demonstrate matching of unordered word lists to documents, to measure topicality or sentiment of documents.Peer reviewe

    Infinite factorization of multiple non-parametric views

    Get PDF
    Combined analysis of multiple data sources has increasing application interest, in particular for distinguishing shared and source-specific aspects. We extend this rationale of classical canonical correlation analysis into a flexible, generative and non-parametric clustering setting, by introducing a novel non-parametric hierarchical mixture model. The lower level of the model describes each source with a flexible non-parametric mixture, and the top level combines these to describe commonalities of the sources. The lower-level clusters arise from hierarchical Dirichlet Processes, inducing an infinite-dimensional contingency table between the views. The commonalities between the sources are modeled by an infinite block model of the contingency table, interpretable as non-negative factorization of infinite matrices, or as a prior for infinite contingency tables. With Gaussian mixture components plugged in for continuous measurements, the model is applied to two views of genes, mRNA expression and abundance of the produced proteins, to expose groups of genes that are co-regulated in either or both of the views. Cluster analysis of co-expression is a standard simple way of screening for co-regulation, and the two-view analysis extends the approach to distinguishing between pre- and post-translational regulation

    Soiden ennallistamisen suoluonto-, vesistö- ja ilmastovaikutukset : Luontopaneelin yhteenveto ja suositukset luontopolitiikan suunnittelun ja pÀÀtöksenteon tueksi

    Get PDF
    Suomen alkuperĂ€isestĂ€ 10,4 miljoonan hehtaarin suoalasta yli puolet on ojitettu metsĂ€- ja maatalouden sekĂ€ turvetuotannon tarpeisiin. EtelĂ€-Suomessa ojitus on ollut voimakkainta: keskimÀÀrin noin 75 prosenttia ja monin paikoin vielĂ€ suurempi osa soista on ojitettu. Suot ovat Euroopan luontotyypeistĂ€ kaikkein uhanalaisin luontotyyppiryhmĂ€ ja Suomella on erityisvastuu soiden suojelusta. Kaikkiaan 54 prosenttia Suomen 50 suoluontotyypistĂ€ on uhanalaisia ja lisĂ€ksi 20 prosenttia on silmĂ€llĂ€-pidettĂ€viĂ€. Ensisijaisesti Suomen soilla elĂ€vistĂ€ lajeista 11 prosenttia eli yhteensĂ€ 120 lajia on uhanalaisia. Uhanalaisilla lajeilla ja luontotyypeillĂ€ on korkea riski hĂ€vitĂ€ Suomesta. Mittava ojitus nĂ€kyy suolajiston ja -luontotyyppien uhanalaisuuden lisĂ€ksi myös vesistöhaittoina, soilta hĂ€vinneenĂ€ hiilivarastona ja muina heikentyneinĂ€ ekosysteemipalveluina. Uutena uhkana suoluonnolle on rahkasammaleen kuoriminen suon pinnasta. Soita ennallistetaan eli palautetaan kohti luonnontilaa ojia tukkimalla ja patoamalla sekĂ€ vesiĂ€ uudelleen ohjailemalla ja poistamalla ylimÀÀrĂ€istĂ€ puustoa. Ennallistamisella pyritÀÀn ensisijaisesti suoluontotyyppien tilan parantamiseen ja suolajiston palauttamiseen. Tutkimusten valossa ennallistaminen johtaa suon oleellisten ekologisten toimintojen palautumiseen nopeasti, pÀÀsÀÀntöisesti vajaassa vuosikymmenessĂ€. Lajiston palautuminen vaikuttaa lupaavalta, mutta on toimintojen palautumista hitaampaa. Kaikki ennallistamisen vaikutukset eivĂ€t ole myönteisiĂ€ lyhyellĂ€ aikavĂ€lillĂ€. Soiden ennallistaminen lisÀÀ metaanipÀÀstöjĂ€, jonka seurauksena kokonaiskasvihuonekaasupÀÀstöt voivat kasvaa seuraavan 10–20 vuoden aikana. PitkĂ€llĂ€ aikavĂ€lillĂ€ pÀÀstöt alkavat kuitenkin usein vĂ€hentyĂ€ ja etenkin rehevĂ€t suot ennallistuvat hiilinieluiksi. Karuilla suoluontotyypeillĂ€ ilmastovaikutus voi olla pitkÀÀn kielteinen. Vesistöjen ravinne-kuormitus voi kasvaa etenkin rehevien soiden ennallistamisen seurauksena, mutta haitallinen vaikutus on pÀÀsÀÀntöisesti lyhyt, ja jo vuosikymmenen kuluttua ennallistettu suo puhdistaa valuma-alueen vesiĂ€ ja toimii luonnontilaisen suon tavoin tasaten valumia. Ennallistaminen on tĂ€rkeĂ€ työkalu historiallisten luontohaittojen korjaamisessa ja luonnon monimuotoisuuden turvaamisessa. Ennallistamisen hyödyissĂ€ ja haitoissa on joitakin tietopuutteista johtuvia epĂ€varmuuksia, mutta vaikuttaa siltĂ€, ettĂ€ soiden pitkĂ€jĂ€nteinen ennallistaminen on kokonaisuuden kannalta suoluonnolle, vesistöille ja ilmastolle parempi ratkaisu kuin ennallistamatta jĂ€ttĂ€minen. Luontopaneeli korostaa, ettĂ€ nimenomaan soiden ennallistamiskysymyksessĂ€ on tĂ€rkeÀÀ ymmĂ€rtÀÀ, ettĂ€ hiilensidontaa ja ilmaston-muutosta hillitseviĂ€ ratkaisuja voidaan tehdĂ€ monilla erilaisilla soista riippumattomilla keinoilla, mutta suoluontotyyppien erityispiirteet ja lajisto eivĂ€t ole turvattavissa ilman soiden ennallistamista. Ennallistamisen lisĂ€ksi luonnontilaisen kaltaisena sĂ€ilyneen suoluonnon lisĂ€suojeluun tulee panostaa merkittĂ€vĂ€sti. Suomen Luontopaneeli on laatinut tĂ€mĂ€n yhteenvedon suositukset luontopolitiikan suunnittelun ja pÀÀtöksenteon tueksi perustuen asettamansa asiantuntijatyöryhmĂ€n kattavaan vertaisarvioituun selvitykseen soiden ennallistamisen suoluonto-, vesistö- ja ilmastovaikutuksista1. nonPeerReviewe
    • 

    corecore