8 research outputs found

    IMPLEMENTASI DENSITY BASED CLUSTERING MENGGUNAKAN GRAPHICS PROCESSING UNIT (GPU)

    Get PDF
    Data merupakan sumber informasi yang berguna untuk kelangsungan hidup manusia. Untuk menjadikan data tersebut bermanfaat, diperlukan suatu metode yang dapat menggali informasi penting dari data yang ada. Salah satu metode penarikan informasi dari sekumpulan data dikenal dengan Data Mining. Teknik menambang informasi pada Data Mining pun beragam, salah satunya Clustering. Clustering merupakan metode pengelompokkan data yang memiliki kesamaan atribut kedalam satu kelompok dengan aturan tertentu. Pada penelitian ini algoritma Clustering yang digunakan adalah Density Based Spatial Clustering Application with Noise (DBSCAN). DBSCAN merupakan algoritma Cluster yang bersifat density-based, yaitu mengelompokkan data berdasarkan kepadatannya ke dalam satu kelompok, dan data yang jarang pada kelompok lainnya. Untuk mengelompokkan data dengan dimensi yang tinggi, diperlukan perangkat yang dapat meminimalkan biaya komputasi. GPU (Graphics Processing Unit) memungkinan mengolah data dengan dimensi tinggi dalam waktu yang singkat. Jika GPU dikombinasikan dengan DBSCAN pengelompokkan data dapat menghasilkan performansi kerja algoritma yang baik dengan akurasi yang tinggi serta biaya komputasi yang minimum. Salah satu metode penerapan GPU pada DBSCAN dengan melakukan perhitungan jarak antar data secara paralel di GPU. Hasil perhitungan ini mampu menghemat biaya komputasi rata – rata sebesar 1.035921875 detik untuk data dengan dimensi 15154 dan 0.063893878 detik untuk data dengan dimensi 12600. Selain itu pada evaluasi performansi, GPU menghasilkan nilai yang cukup baik dibandingkan dengan algoritma serialnya

    High-speed detection of emergent market clustering via an unsupervised parallel genetic algorithm

    Full text link
    We implement a master-slave parallel genetic algorithm (PGA) with a bespoke log-likelihood fitness function to identify emergent clusters within price evolutions. We use graphics processing units (GPUs) to implement a PGA and visualise the results using disjoint minimal spanning trees (MSTs). We demonstrate that our GPU PGA, implemented on a commercially available general purpose GPU, is able to recover stock clusters in sub-second speed, based on a subset of stocks in the South African market. This represents a pragmatic choice for low-cost, scalable parallel computing and is significantly faster than a prototype serial implementation in an optimised C-based fourth-generation programming language, although the results are not directly comparable due to compiler differences. Combined with fast online intraday correlation matrix estimation from high frequency data for cluster identification, the proposed implementation offers cost-effective, near-real-time risk assessment for financial practitioners.Comment: 10 pages, 5 figures, 4 tables, More thorough discussion of implementatio

    IMPLEMENTASI DAN ANALISIS ALGORITMA PARALEL FUZZY C-MEANS CLUSTERING DENGAN PENDEKATAN GRAPHICS PROCESSING UNITS (GPU)

    Get PDF
    Data mining adalah metode untuk mengambil informasi pada dataset. Pada data mining teknik clustering mempunyai peran yang penting karena dapat digunakan untuk mengelompokkan penyakit berdasarkan karakteristik yang diderita. Permasalahan pada data medis adalah kesulitan mendapatkan kecepatan waktu eksekusi dan performansi yang baik dalam mengolah data berdimensi tinggi. Fuzzy C-Means Clustering (FCM) adalah algoritma clustering yang pengerjaannya berdasarkan pada logika fuzzy, dimana pengelompokan data berdasarkan pada nilai derajat keanggotaan dan mengizinkan data menjadi anggota lebih dari satu kelompok. Untuk mengatasi permasalahan tersebut maka FCM diimplementasikan dengan pendekatan Graphics Processing Units (GPU) sehingga dapat meningkatkan kecepatan waktu eksekusi dan performansi dibandingkan penerapannya secara sekuensial. Penerapan GPU mengoptimalkan kinerja komputasi karena dapat bekerja secara paralel. Salah satu metode penerapannya dengan menjadikan fungsi perhitungan dalam mencari nilai derajat keanggotaan dijalankan secara paralel di GPU. Hasilnya mampu mempersingkat waktu eksekusi sebesar 10,70287 detik untuk data berdimensi 15.154 dan 4,13423 detik untuk data berdimensi 12.600

    Towards Optimal Execution of Density-based Clustering on Heterogeneous Hardware

    Get PDF
    Abstract Data Clustering is an important and highly utilized data mining technique in various application domains. With ever increasing data volumes in the era of big data, the efficient execution of clustering algorithms is a fundamental prerequisite to gain understanding and acquire novel, previously unknown knowledge from data. To establish an efficient execution, the clustering algorithms have to be re-engineered to fully exploit the provided hardware capabilities. Shared-memory multiprocessor systems like graphics processing units (GPUs) provide extremely high parallelism combined with a high bandwidth transfer at low cost. The availability of such computing units increases with upcoming processors, where a common CPU and various computing units, like GPU, are tightly coupled using a unified shared memory hierarchy. In this paper, we consider density-based clustering for such heterogeneous systems. In particular, we optimize the configuration of CUDA-DClust -a density-based clustering algorithm for GPUs -and show that our configuration approach enables an efficient and deterministic execution. Our configuration approach is based on data as well as hardware properties, so that we are able to adjust the algorithm execution in both directions. In our evaluation, we show the applicability of our approach and present open challenges which have to be solved next

    Theoretically-Efficient and Practical Parallel DBSCAN

    Full text link
    The DBSCAN method for spatial clustering has received significant attention due to its applicability in a variety of data analysis tasks. There are fast sequential algorithms for DBSCAN in Euclidean space that take O(nlogn)O(n\log n) work for two dimensions, sub-quadratic work for three or more dimensions, and can be computed approximately in linear work for any constant number of dimensions. However, existing parallel DBSCAN algorithms require quadratic work in the worst case, making them inefficient for large datasets. This paper bridges the gap between theory and practice of parallel DBSCAN by presenting new parallel algorithms for Euclidean exact DBSCAN and approximate DBSCAN that match the work bounds of their sequential counterparts, and are highly parallel (polylogarithmic depth). We present implementations of our algorithms along with optimizations that improve their practical performance. We perform a comprehensive experimental evaluation of our algorithms on a variety of datasets and parameter settings. Our experiments on a 36-core machine with hyper-threading show that we outperform existing parallel DBSCAN implementations by up to several orders of magnitude, and achieve speedups by up to 33x over the best sequential algorithms
    corecore