1,832 research outputs found

    Clustering di traiettorie in ambito big data

    Get PDF
    Uno dei trend più interessanti del momento è l'analisi e mining dei dati di traiettoria. Questa categoria di dati si compone principalmente delle tracce di movimento generate dalle più svariate categorie di dispositivi. Una traiettoria può essere interpretata come il cambiamento della posizione di un utente o oggetto nello spazio rispetto al tempo. Nell'ambito dell'analisi di traiettorie, le tecniche di clustering possono essere impiegate con diversi obbiettivi, come ad esempio la ricerca delle strade più frequentate o la profilazione degli utenti. Altrettante potenzialità sono racchiuse nella ricerca di itemset frequenti su dati di traiettoria. A metà tra questi due approcci si colloca l'analisi dei co-movements pattern. I pattern di co-movimento identificano quei gruppi di utenti che hanno viaggiato assieme per un certo periodo significativo di tempo.La ricerca di questi gruppi può estrarre diverse informazioni, come ad esempio le abitudini di un utente sulla base dei gruppi di appartenenza e dell'orario del giorno o ancora il mezzo di trasporto utilizzato da una certa categoria di utenti. Obiettivo del lavoro di questa tesi è l'analisi di due algoritmi per la ricerca di pattern di co-movimento in ambito big data. Il primo è SPARE, framework descritto in letteratura, che permette di ricercare diversi pattern di movimento grazie a un mix delle tecniche di clustering di traiettorie e quelle di mining di itemset frequenti. L'altro algoritmo invece è CUTE, nuovo approccio definito e implementato in questo lavoro di tesi. CUTE si pone come framework di clustering sovrapposto basato su un insieme di dimensioni personalizzabili, che sfrutta le tecniche di colossal itemset mining per ricercare gruppi di movimento sulle dimensioni specificate. La struttura di CUTE è adattabile alla ricerca di pattern di co-movimento specificando le dimensioni spazio temporali come dimensioni su cui eseguire la ricerca

    Homomorphic Pattern Mining from a Single Large Data Tree

    Get PDF

    Mining Top-K Large Structural Patterns in a Massive Network

    Get PDF
    With ever-growing popularity of social networks, web and bio-networks, mining large frequent patterns from a single huge network has become increasingly important. Yet the existing pattern mining methods cannot offer the efficiency desirable for large pattern discovery. We propose Spider- Mine, a novel algorithm to efficiently mine top-K largest frequent patterns from a single massive network with any user-specified probability of 1-??. Deviating from the existing edge-by-edge (i.e., incremental) pattern-growth framework, SpiderMine achieves its efficiency by unleashing the power of small patterns of a bounded diameter, which we call 'spiders'. With the spider structure, our approach adopts a probabilistic mining framework to find the top-k largest patterns by (i) identifying an affordable set of promising growth paths toward large patterns, (ii) generating large patterns with much lower combinatorial complexity, and finally (iii) greatly reducing the cost of graph isomorphism tests with a new graph pattern representation by a multi-set of spiders. Extensive experimental studies on both synthetic and real data sets show that our algorithm outperforms existing methods. ? 2011 VLDB Endowment.EI011807-818

    Randomly sampling maximal itemsets

    Full text link

    Data analytics 2016: proceedings of the fifth international conference on data analytics

    Get PDF

    Methods of Association Mining by Variable-to-Set Affinity Testing

    Get PDF
    Statistical data mining refers to methods for identifying and validating interesting patterns from an overabundance of data. Data mining tasks in which the objective involves pairwise relationships between variables are known as association mining. In general, features sought by association mining methods are sets of variables, often small subsets of a larger collection, that are more associated internally than externally. Methods vary in both the measure of association that is studied and the algorithm by which associated sets are identified. This dissertation discusses provide a generalized framework for association mining called Variable-to-Set Affinity Testing (VSAT). Unlike conventional techniques for clustering or community detection, which usually maximize a score from a dissimilarity or adjacency matrix, the VSAT approach is an adaptive procedure grounded in statistical hypothesis testing principles. The framework is adaptable to a broad class of measurements for variable relationships, and is equipped with theoretical guarantees of error control. This dissertation also presents in detail two new association mining methods built in the VSAT framework. The first, Differential Correlation Mining (DCM), identifies variable sets that have higher average pairwise correlation in one sample condition than in another. Such artifacts are of scientific interest in many fields, including statistical genetics and neuroscience. Differential Correlation Mining is applied to high-dimensional data sets in these two fields. The second method, Coherent Set Mining (CSM), is a novel approach to association mining in binary data. Dichotomous observations are assumed to derive from a latent variable of interest via thresholding. The Coherent Set Mining method identifies variable sets that are strongly associated in the latent measure, despite distortions in the association structure of the observed data due to the thresholding process. Coherent Set Mining is applied to problems in text mining, statistical genetics, and product recommendation.Doctor of Philosoph
    corecore