53 research outputs found
Learning metrics and discriminative clustering
In this work methods have been developed to extract relevant information from large, multivariate data sets in a flexible, nonlinear way. The techniques are applicable especially at the initial, explorative phase of data analysis, in cases where an explicit indicator of relevance is available as part of the data set.
The unsupervised learning methods, popular in data exploration, often rely on a distance measure defined for data items. Selection of the distance measure, part of which is feature selection, is therefore fundamentally important.
The learning metrics principle is introduced to complement manual feature selection by enabling automatic modification of a distance measure on the basis of available relevance information. Two applications of the principle are developed. The first emphasizes relevant aspects of the data by directly modifying distances between data items, and is usable, for example, in information visualization with the self-organizing maps. The other method, discriminative clustering, finds clusters that are internally homogeneous with respect to the interesting variation of the data. The techniques have been applied to text document analysis, gene expression clustering, and charting the bankruptcy sensitivity of companies.
In the first, more straightforward approach, a new local metric of the data space measures changes in the conditional distribution of the relevance-indicating data by the Fisher information matrix, a local approximation of the Kullback-Leibler distance. Discriminative clustering, on the other hand, directly minimizes a Kullback-Leibler based distortion measure within the clusters, or equivalently maximizes the mutual information between the clusters and the relevance indicator. A finite-data algorithm for discriminative clustering is also presented. It maximizes a partially marginalized posterior probability of the model and is asymptotically equivalent to maximizing mutual information.reviewe
Low-rank approximations of second-order document representations
Document embeddings, created with methods ranging from simple heuristics to statistical and deep models, are widely applicable. Bag-of-vectors models for documents include the mean and quadratic approaches (Torki, 2018). We present evidence that quadratic statistics alone, without the mean information, can offer superior accuracy, fast document comparison, and compact document representations. In matching news articles to their comment threads, low-rank representations of only 3-4 times the size of the mean vector give most accurate matching, and in standard sentence comparison tasks, results are state of the art despite faster computation. Similarity measures are discussed, and the Frobenius product implicit in the proposed method is contrasted to Wasserstein or Bures metric from the transportation theory. We also shortly demonstrate matching of unordered word lists to documents, to measure topicality or sentiment of documents.Peer reviewe
Infinite factorization of multiple non-parametric views
Combined analysis of multiple data sources has increasing application interest, in particular for distinguishing shared and source-specific aspects. We extend this rationale of classical canonical correlation analysis into a flexible, generative and non-parametric clustering
setting, by introducing a novel non-parametric hierarchical
mixture model. The lower level of the model describes each source with a flexible non-parametric mixture, and the top level combines these to describe commonalities of the sources. The lower-level clusters arise from hierarchical Dirichlet Processes, inducing an infinite-dimensional contingency table between the views. The commonalities between the sources are modeled by an infinite block
model of the contingency table, interpretable as non-negative factorization of infinite matrices, or as a prior for infinite contingency tables. With Gaussian mixture components plugged in for continuous measurements, the model is applied to two views of genes, mRNA expression and abundance of the produced proteins, to expose groups of genes that are co-regulated in either or both of the views.
Cluster analysis of co-expression is a standard simple way of screening for co-regulation, and the two-view analysis extends the approach to distinguishing between pre- and post-translational regulation
Soiden ennallistamisen suoluonto-, vesistö- ja ilmastovaikutukset : Luontopaneelin yhteenveto ja suositukset luontopolitiikan suunnittelun ja pÀÀtöksenteon tueksi
Suomen alkuperÀisestÀ 10,4 miljoonan hehtaarin suoalasta yli puolet on ojitettu metsÀ- ja maatalouden sekÀ turvetuotannon tarpeisiin. EtelÀ-Suomessa ojitus on ollut voimakkainta: keskimÀÀrin noin 75 prosenttia ja monin paikoin vielÀ suurempi osa soista on ojitettu. Suot ovat Euroopan luontotyypeistÀ kaikkein uhanalaisin luontotyyppiryhmÀ ja Suomella on erityisvastuu soiden suojelusta.
Kaikkiaan 54 prosenttia Suomen 50 suoluontotyypistÀ on uhanalaisia ja lisÀksi 20 prosenttia on silmÀllÀ-pidettÀviÀ. Ensisijaisesti Suomen soilla elÀvistÀ lajeista 11 prosenttia eli yhteensÀ 120 lajia on uhanalaisia. Uhanalaisilla lajeilla ja luontotyypeillÀ on korkea riski hÀvitÀ Suomesta. Mittava ojitus nÀkyy suolajiston ja
-luontotyyppien uhanalaisuuden lisÀksi myös vesistöhaittoina, soilta hÀvinneenÀ hiilivarastona ja muina heikentyneinÀ ekosysteemipalveluina. Uutena uhkana suoluonnolle on rahkasammaleen kuoriminen suon pinnasta.
Soita ennallistetaan eli palautetaan kohti luonnontilaa ojia tukkimalla ja patoamalla sekÀ vesiÀ uudelleen ohjailemalla ja poistamalla ylimÀÀrÀistÀ puustoa. Ennallistamisella pyritÀÀn ensisijaisesti suoluontotyyppien tilan parantamiseen ja suolajiston palauttamiseen. Tutkimusten valossa ennallistaminen johtaa suon oleellisten ekologisten toimintojen palautumiseen nopeasti, pÀÀsÀÀntöisesti vajaassa vuosikymmenessÀ. Lajiston palautuminen vaikuttaa lupaavalta, mutta on toimintojen palautumista hitaampaa.
Kaikki ennallistamisen vaikutukset eivĂ€t ole myönteisiĂ€ lyhyellĂ€ aikavĂ€lillĂ€. Soiden ennallistaminen lisÀÀ metaanipÀÀstöjĂ€, jonka seurauksena kokonaiskasvihuonekaasupÀÀstöt voivat kasvaa seuraavan 10â20 vuoden aikana. PitkĂ€llĂ€ aikavĂ€lillĂ€ pÀÀstöt alkavat kuitenkin usein vĂ€hentyĂ€ ja etenkin rehevĂ€t suot ennallistuvat hiilinieluiksi. Karuilla suoluontotyypeillĂ€ ilmastovaikutus voi olla pitkÀÀn kielteinen. Vesistöjen ravinne-kuormitus voi kasvaa etenkin rehevien soiden ennallistamisen seurauksena, mutta haitallinen vaikutus on pÀÀsÀÀntöisesti lyhyt, ja jo vuosikymmenen kuluttua ennallistettu suo puhdistaa valuma-alueen vesiĂ€ ja toimii luonnontilaisen suon tavoin tasaten valumia.
Ennallistaminen on tÀrkeÀ työkalu historiallisten luontohaittojen korjaamisessa ja luonnon monimuotoisuuden turvaamisessa. Ennallistamisen hyödyissÀ ja haitoissa on joitakin tietopuutteista johtuvia epÀvarmuuksia, mutta vaikuttaa siltÀ, ettÀ soiden pitkÀjÀnteinen ennallistaminen on kokonaisuuden kannalta suoluonnolle, vesistöille ja ilmastolle parempi ratkaisu kuin ennallistamatta jÀttÀminen. Luontopaneeli korostaa, ettÀ nimenomaan soiden ennallistamiskysymyksessÀ on tÀrkeÀÀ ymmÀrtÀÀ, ettÀ hiilensidontaa ja ilmaston-muutosta hillitseviÀ ratkaisuja voidaan tehdÀ monilla erilaisilla soista riippumattomilla keinoilla, mutta suoluontotyyppien erityispiirteet ja lajisto eivÀt ole turvattavissa ilman soiden ennallistamista. Ennallistamisen lisÀksi luonnontilaisen kaltaisena sÀilyneen suoluonnon lisÀsuojeluun tulee panostaa merkittÀvÀsti.
Suomen Luontopaneeli on laatinut tĂ€mĂ€n yhteenvedon suositukset luontopolitiikan suunnittelun ja pÀÀtöksenteon tueksi perustuen asettamansa asiantuntijatyöryhmĂ€n kattavaan vertaisarvioituun selvitykseen soiden ennallistamisen suoluonto-, vesistö- ja ilmastovaikutuksista1.ânonPeerReviewe
- âŠ