18 research outputs found

    Perbaikan Inisialisasi K-means Menggunakan Graf Hutan yang Minimum

    Get PDF
    K-Means adalah salah satu algoritma clustering yang sangat popular karena kesederhanaan dan kemampuannya dalam menangani data dengan skala besar. Namun demikian algoritma ini sangat sensitif terhadap centroid awal. Perbedaancentroid awal akan memberikan perbedaan hasil clustering dan apabila centroid awal yang diberikan adalah centroid yang tidak baik maka dapat dipastikan hasil clusteringnya juga tidak baik. Artikel ini memuat sebuah metode baru yang dikembangkan penulis untuk meningkatkan kualitas centroid awal melalui teknik perbaikan k yang didasarkan pada graf hutan yang minimum (minimum forest graf). Hasil percobaan yang telah dilakukan menunjukkan bahwa metode inisialisasi menggunakan graf hutan yang minimum menghasilkan centroid awal yang lebih baik dan konsisten dibandingkan metode Forgy. Disamping itu jumlah Perulangan yang harus dilakukan dalam proses clustering dengan menggunakan metode ini adalah lebih sedikit (rerata 3,2) dibandingkan metode Forgy (rerata 6,4)

    Akuisisi dan Clustering Data Sosial Media Menggunakan Algoritma K-Means sebagai Dasar untuk Mengetahui Profil Pengguna

    Get PDF
    Banyaknya informasi yang tersebar melalui sosial media menyebabkan data sosial media menjadi salah satu sumber data yang menarik untuk diteliti. Pada Twitter, hanya 11,84% dari akun protected di Twitter yang berarti sebagian besar tweetnya terlihat dan mudah dibagikan. Twitter menyediakan layanan Application Programming Interface (API) yang dapat digunakan untuk mengakuisisi data. Untuk bisa menjadikan data yang diakuisi tersebut menjadi sebuah informasi yang berguna diperlukan sebuah proses salah satunya dengan clustering. Algoritma K-Means mempunyai kemampuan mengelompokkan data dalam jumlah cukup besar dengan waktu komputasi yang cepat dan efisien. Salah satu budaya asing yang saat ini sedang terkenal di Indonesia yaitu kebudayaan Korea Selatan (Hallyu). Oleh karena itu Hallyu menjadi studi kasus dalam Tugas Akhir ini. Proses Akuisisi Data Twitter dilakukan dengan cara membangun aplikasi Twitter untuk mendapatkan OAuth Twitter kemudian melakukan akuisisi dengan filter fitur-fitur yang disediakan oleh Twitter API. Dari hasil akuisisi data Twitter yang dilakukan dalam 5 hari dengan ujicoba 87 keyword “K-Pop” dan “K-Drama” dengan batasan latitude -4.640003 dan longitude 109.866141 pada radius 590km didapat 68.393 tweet. Hasil akuisisi data tersebut kemudian dilakukan clustering dengan = 3. Dimana 1 menunjukkan waktu tweet yang dianggap pagi. Sedangkan 2 menunjukkan waktu tweet yang dianggap siang. Dan 3 menunjukkan waktu tweet yang dianggap malam. Sehingga setelah melakukan clustering di dapat jam 21.00 – 01.00 merupakan mayoritas orang-orang melakukan tweet.tweet. Hasil akuisisi data tersebut kemudian dilakukan clustering dengan = 3. Dimana 1 menunjukkan waktu tweet yang dianggap pagi. Sedangkan 2 menunjukkan waktu tweet yang dianggap siang. Dan 3 menunjukkan waktu tweet yang dianggap malam. Sehingga setelah melakukan clustering di dapat jam 21.00 – 01.00 merupakan mayoritas orang-orang melakukan tweet

    PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM

    Get PDF
    K-Means adalah salah satu algoritma clustering yang sangat popular karena kesederhanaan dan kemampuannya dalam menangani data dengan skala besar. Namun demikian algoritma ini sangat sensitif terhadap centroid awal. Perbedaancentroid awal akan memberikan perbedaan hasil clustering dan apabila centroid awal yang diberikan adalah centroid yang tidak baik maka dapat dipastikan hasil clusteringnya juga tidak baik. Artikel ini memuat sebuah metode baru yang dikembangkan penulis untuk meningkatkan kualitas centroid awal melalui teknik perbaikan k yang didasarkan pada graf hutan yang minimum (minimum forest graf). Hasil percobaan yang telah dilakukan menunjukkan bahwa metode inisialisasi menggunakan graf hutan yang minimum menghasilkan centroid awal yang lebih baik dan konsisten dibandingkan metode Forgy. Disamping itu jumlah perulangan yang harus dilakukan dalam proses clustering dengan menggunakan metode ini adalah lebih sedikit (rerata 3,2) dibandingkan metode Forgy (rerata 6,4)

    PENINGKATAN KINERJA ALGORITMA K MEANS DENGAN MENGGUNAKAN PARTICLE SWARM OPTIMIZATION DALAM PENGELOMPOKAN DATA PENYEDIAAN AKSES

    Get PDF
               Water is one of the things that plays a very important role in human survival, because the Indonesian government has a community-based water supply and sanitation (PAMSIMAS) program, so that all the programs run well need a regional status grouping technique in this thesis. with the K-means algorithm. K-means is a partition algorithm that aims to divide the data into the specified number of clusters, the results of the K means algorithm depend on the selection of the initial klater center but problems that often occur when selecting the initial centroid are randomly drawn from the solution. from the grouping is not quite right. To overcome this problem the author wants to use the PSO algorithm in the initial centroid selector for the K-means algorithm, in this study also compared the selection of the first 3 centroids according to random, second according to government standards the value of high, medium and low drinking water quality then the third method proposed by the PSO algorithm was then tested with Davies Bouldin Index. From the test results, the K-means method with the selection of random initial centroid with a value of 0.208856082, the K-means method with the selection of centroids in accordance with government standards about SAM conditions of 0.280077 and the best selection method is K-means PSO 0, 08383. So testing the PAMSIMAS data using K-means PSO found that the method was more optimal. &nbsp

    Histogram Thersholding for Automatic Color Segmentation Based on K-means Clustering

    Get PDF
    Abstract. Color segmentation method has been proposed and developed by many researchers, however it still become a challenging topic on how to automatically segment color image based on color information. This research proposes a method to estimate number of color and performs color segmentation. The method initiates cluster centers using histogram thresholding and peak selection on CIE L*a*b* chromatic channels. k-means is performed to find optimal cluster centers and to assign each color data into color labels using previously estimated clusters centers. Finally, initial color labels can be split or merge in order to segment black, dark, bright, or white color using luminosity histogram. The final cluster is evaluated using silhouette to measure the cluster quality and calculate the accuracy of color label prediction. The result shows that the proposed method achieves up to 85% accuracy on 20 test images and average silhouette value is 0.694 on 25 test images. Keywords: Automatic color segmentation; Histogram thresholding; Cluster centers initialization; k-means clustering

    Optimal mathematical programming and variable neighborhood search for k-modes categorical data clustering

    Get PDF
    The conventional k-modes algorithm and its variants have been extensively used for categorical data clustering. However, these algorithms have some drawbacks, e.g., they can be trapped into local optima and sensitive to initial clusters/modes. Our numerical experiments even showed that the k-modes algorithm could not identify the optimal clustering results for some special datasets regardless the selection of the initial centers. In this paper, we developed an integer linear programming (ILP) approach for the k-modes clustering, which is independent to the initial solution and can obtain directly the optimal results for small-sized datasets. We also developed a heuristic algorithm that implements iterative partial optimization in the ILP approach based on a framework of variable neighborhood search, known as IPO-ILP-VNS, to search for near-optimal results of medium and large sized datasets with controlled computing time. Experiments on 38 datasets, including 27 synthesized small datasets and 11 known benchmark datasets from the UCI site were carried out to test the proposed ILP approach and the IPO-ILP-VNS algorithm. The experimental results outperformed the conventional and other existing enhanced k-modes algorithms in literature, updated 9 of the UCI benchmark datasets with new and improved results
    corecore