Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları

Abstract

BÖLÜNMELİ KÜMELEME YÖNTEMLERİ İLE VERİ MADENCİLİĞİ UYGULAMALARI Veri madenciliği, çok büyük veri yığınlarından kritik bilgilerin elde edilmesini ve bu bilgilerin ışığında stratejik kararlar alınmasını sağlar. Gelecek ile ilgili tahminde bulunabilmemizi sağlayan yararlı ve anlaşılır bilgiler, çeşitli yöntem ve tekniklerin bilgisayar programları sayesinde verilere uygulanmasıyla elde edilir. Bu teknikler artan veri miktarının etkili bir şekilde kullanılmasını sağlar. Veri madenciliğinde önemli tekniklerden biri kümeleme analizidir. Kümeleme analizinde, veri içerisindeki grupların önceden hiçbir bilgi olmadan bulunması amaçlanır. Kümeleme analizinde çeşitli yöntemler ve bu yöntemlere bağlı çeşitli algoritmalar bulunmaktadır. Bu çalışmada, bölünmeli kümeleme yöntemleri kullanılarak sentetik ve gerçek veri setleri üzerinde çeşitli testler yapıldı ve algoritmaların performansları karşılaştırıldı. Öncelikle veri madenciliği ve kümeleme analizi hakkında genel bilgiler verildi. Daha sonra, bölünmeli kümeleme algoritmaları hakkında ayrıntılı teorik bilgiler verilip, bu bilgilerin ışığında kümeleme algoritmalarının kolaylıkla uygulanması ve görsel olarak yorumlanması için MATLAB ortamında iki tane program geliştirildi. Birinci program bölünmeli kümeleme algoritmalarının iki boyutlu veriler üzerinde uygulanmasını sağlayan ve sonuçları grafiksel olarak gösteren bir yapıya sahiptir. K-means, k-medoids ve fuzzy c-means algoritmaları beş ayrı sentetik veri seti üzerinde uygulanarak bu algoritmaların birbirlerine olan üstünlükleri ve zayıflıkları tespit edildi. Gerçek veri seti uygulaması için web sayfası kümeleme analizi yapmayı sağlayan ikinci program geliştirildi. İnternetin gittikçe yaygınlaşması ve boyutlarının çok genişlemesi World Wide Web’inde büyük bir veri deposu haline gelmesine ve karmaşıklığının artmasına neden olmuştur. Bu nedenlerle web’de arama yapma ve kullanıcı profili çıkarma alanlarında veri madenciliğine ilgi artmıştır. Bu tezde, k-means ve fuzzy c-means algoritmalarının web dokümanları üzerinde kümeleme başarıları karşılaştırılmalı olarak incelendi. ABSTRACT DATA MINING APPLICATIONS USING PARTITIONAL CLUSTERING METHODS Data mining, discovers critical and previously unknown information from large collection of data. These potentially useful and understandable informations achieved by applying various techniques and methods with computer programs can be used for prediction. These techniques ensure efficient use of growing data. Clustering is one of the important technique in data mining. In the cluster analysis, unknown data groups are discovered. There are number of techniques and algorithms in cluster analysis. In this study, using partitional clustering method on synthetic and real datasets various test are performed and the peformance of algorithms are compared. Firstly, data mining and cluster analysis described briefly. Then, detailed theorical information about partitional clustering algorithms have been explained and with the help of these informations two clustering applications have been developed in MATLAB platform to understand algorithms easily and analyze visually. In the first program, partitional clustering algorithms have been applied to two dimensional data and analyse results are visualized graphically. K-means, k-medoids and fuzzy c-means algorithms have been applied to five diferent synthetic datasets and advantages and weakness of each algorithm have been determined. For real dataset application second program that implements web page analysis has been designed. With rapid grow in internet World Wide Web becomes a big data repository. For these reasons, in the field of searching and analyzing user profile interest to data mining is increased. In this thesis, k-means and fuzzy c-means algorithms were applied to web documents and clustering performances were investigated comparatively

    Similar works