Advances in Possibilistic Clustering with Application to Hyperspectral Image Processing

Abstract

Η ομαδοποίηση δεδομένων είναι μια εδραιωμένη μεθοδολογία ανάλυσης δεδομένων που έχει χρησιμοποιηθεί εκτενώς σε διάφορα πεδία εφαρμογών κατά τη διάρκεια των τελευταίων δεκαετιών. Η παρούσα διατριβή εστιάζει κυρίως στην ευρύτερη οικογένεια των αλγορίθμων βελτιστοποίησης κόστους και πιο συγκεκριμένα στους αλγόριθμους ομαδοποίησης με βάση τα ενδεχόμενα (Possibilistic c-Means, PCM). Συγκεκριμένα, αφού εκτίθενται τα αδύνατα σημεία τους, προτείνονται νέοι (batch και online) PCM αλγόριθμοι που αποτελούν επεκτάσεις των προηγουμένων και αντιμετωπίζουν τα αδύνατα σημεία των πρώτων. Οι προτεινόμενοι αλγόριθμοι ομαδοποίησης βασίζονται κυρίως στην υιοθέτηση των εννοιών (α) της προσαρμοστικότητας παραμέτρων (parameter adaptivity), οι οποίες στους κλασσικούς PCM αλγορίθμους παραμένουν σταθερές κατά την εκτέλεσή τους και (β) της αραιότητας (sparsity). Αυτά τα χαρακτηριστικά προσδίδουν νέα δυναμική στους προτεινόμενους αλγορίθμους οι οποίοι πλέον: (α) είναι (κατ' αρχήν) σε θέση να προσδιορίσουν τον πραγματικό αριθμό των φυσικών ομάδων που σχηματίζονται από τα δεδομένα, (β) είναι ικανοί να αποκαλύψουν την υποκείμενη δομή ομαδοποίησης, ακόμη και σε δύσκολες περιπτώσεις, όπου οι φυσικές ομάδες βρίσκονται κοντά η μία στην άλλη ή/και έχουν σημαντικές διαφορές στις διακυμάνσεις ή/και στις πυκνότητές τους και (γ) είναι εύρωστοι στην παρουσία θορύβου και ακραίων σημείων. Επίσης, δίνονται θεωρητικά αποτελέσματα σχετικά με τη σύγκλιση των προτεινόμενων αλγορίθμων, τα οποία βρίσκουν επίσης εφαρμογή και στους κλασσικούς PCM αλγορίθμους. Η δυναμική των προτεινόμενων αλγορίθμων αναδεικνύεται μέσω εκτεταμένων πειραμάτων, τόσο σε συνθετικά όσο και σε πραγματικά δεδομένα. Επιπλέον, οι αλγόριθμοι αυτοί έχουν εφαρμοστεί με επιτυχία στο ιδιαίτερα απαιτητικό πρόβλημα της ομαδοποίησης σε υπερφασματικές εικόνες. Τέλος, αναπτύχθηκε και μια μέθοδος επιλογής χαρακτηριστικών κατάλληλη για υπερφασματικές εικόνες.Clustering is a well established data analysis methodology that has been extensively used in various fields of applications during the last decades. The main focus of the present thesis is on a well-known cost-function optimization-based family of clustering algorithms, called Possibilistic C-Means (PCM) algorithms. Specifically, the shortcomings of PCM algorithms are exposed and novel batch and online PCM schemes are proposed to cope with them. These schemes rely on (i) the adaptation of certain parameters which remain fixed during the execution of the original PCMs and (ii) the adoption of sparsity. The incorporation of these two characteristics renders the proposed schemes: (a) capable, in principle, to reveal the true number of physical clusters formed by the data, (b) capable to uncover the underlying clustering structure even in demanding cases, where the physical clusters are closely located to each other and/or have significant differences in their variances and/or densities, and (c) immune to the presence of noise and outliers. Moreover, theoretical results concerning the convergence of the proposed algorithms, also applicable to the classical PCMs, are provided. The potential of the proposed methods is demonstrated via extensive experimentation on both synthetic and real data sets. In addition, they have been successfully applied on the challenging problem of clustering in HyperSpectral Images (HSIs). Finally, a feature selection technique suitable for HSIs has also been developed

    Similar works