El bagging en casos no supervisats: Implementació a GESCONDA per algoritmes de clustering

Abstract

Els algorismes de clustering per entorns no supervisats que es basen en una inicialització aleatòria (p. Ex.: tria inicial de llavors en l’algorisme Kmeans), presenten un problema a l’hora d’obtenir solucions fiables. Una solució per eliminar aquest factor d’aleatorietat seria emprar altres tècniques d’inicialització. Però com es veurà posteriorment en l’article, aquestes tècniques tenen una altre problemàtica, i és la de trobar solucions òptimes locals o solucions esbiaixades. La solució que es proposa és la utilització de la tècnica de bagging que s’usa en entorns supervisats, i que a través de la unió de diversos resultats de classificació respecte unes mateixes dades, permet obtenir particions òptimes. Així mateix, es va implementar tres formes de dur a terme el bagging segons la forma de seleccionar la classificació de referència a partir de la qual s’uneixen la resta de classificacions. Aquestes tres tècniques són: agafant la primera classificació, triant la que presenta una major inèrcia (relació variança entre-classes i intra-classes) i triant la que aporta una major informació (mitjançant el càlcul d’Informació Mútua de Shannon). Finalment es van provar les tècniques d’inèrcia i informació mútua amb dades ambientals reals preses d’una depuradora d’aigües residuals, per tal de comprovar l’efectivitat dels resultats respecte al mètode tradicional. Totes les implementacions i proves es van dur a terme sobre el Sistema Intel·ligent d’Anàlisi de Dades GESCONDA, el qual es descriurà en el pròxim apartat. L’estudi finalitza amb una breu discussió dels resultats obtinguts i unes conclusions sobre el treball realitzat

    Similar works

    Full text

    thumbnail-image

    Available Versions