4 research outputs found

    KNN Optimization for Multi-Dimensional Data

    Get PDF
    The K-Nearest Neighbors (KNN) algorithm is a simple but powerful technique used in the field of data analytics. It uses a distance metric to identify existing samples in a dataset which are similar to a new sample. The new sample can then be classified via a class majority voting of its most similar samples, i.e. nearest neighbors. The KNN algorithm can be applied in many fields, such as recommender systems where it can be used to group related products or predict user preferences. In most cases, the performance of the KNN algorithm tends to suffer as the size of the dataset increases because the number of comparisons performed increases exponentially. In this paper, we propose a KNN optimization algorithm which leverages vector space models to enhance the nearest neighbors search for a new sample. It accomplishes this enhancement by restricting the search area, and therefore reducing the number of comparisons necessary to find the nearest neighbors. The experimental results demonstrate significant performance improvements without degrading the algorithm’s accuracy. The applicability of this optimization algorithm is further explored in the field of Big Data by parallelizing the work using Apache Spark. The experimental results of the Spark implementation demonstrate that it outperforms the serial, or local, implementation of this optimization algorithm after the dataset size reaches a specific threshold. Thus, further improving the performance of this optimization algorithm in the field of Big Data, where large datasets are prevalent

    APPLICATION OF MAСHINE LEARNING METHODS FOR DETECTING OF JPEG IMAGE INTEGRITY VIOLATIONS

    Get PDF
    Subject of Research. The paper presents the study on the JPEG image integrity violations and existing methods of their detection. We propose a method for detection of modified image and the source of its modification. The method gives the possibility to determine the original image and camera model that recorded it. Method. The method was developed with the use of machine learning tools. The following machine learning methods have been studied: naive Bayesian classifier, decision tree, logistic regression, k-nearest neighbors, SVC, random forest. The base for model training was formed by the original photos from website www.steves-digicams.comthat were modified by different graphic editors. The proposed method uses JPEG-image structure in byte view, namely, markers. Availability of markers and their number were suggested as classification features. Main Results. The trained model has demonstrated high classification result equal to more than 95%. Among all evaluated algorithms the two ones have shown the best results: decision tree and random forest. Decision tree was chosen as the best one upon stability criterion. Practical Relevance. Thereceived result can be practically applicable in the area of forensics and information security

    Analisis Perbandingan CPU dan GPU (CUDA) Pada Klasifikasi Data Mining dengan Menggunakan Metode K-Nearest Neighbor Kernel Algorthm

    Get PDF
    Abstrak Data mining merupakan proses semi-otomatis untuk pengekplorasian data yang berjumlah besar gunanya untuk mendapatkan pola yang berguna. Data mining ini merupakan proses gabungan antar bidang-bidang terutama adalah machine learning, analisis statistik dan basis data. Data mining berusaha untuk menemukan kaidah dan pola dari data.Salah satu task yang penting dalam data mining adalah classification (klasifikasi). Klasifikasi ini dapat dideskripsikan sebagai berikut: terdiri dari data input yang disebut juga sebagai training set terdiri dari sejumlah examples (record) yang masing-masing memilki sejumlah atribut atau disebut juga fitur. Adapun tujuan klasifikasi ini adalah untuk menganalisa data input dan mengembangkan sebuah model yang akurat untuk setiap kelas berdasarkan beberapa variabel prediktor. Untuk menghasilkan informasi saat melakukan proses data mining kendala yang dihadapi adalah banyaknya jumlah data sehingga proses yang dilakukan oleh CPU akan berjalan sangat lambat apabila dirasakan. Untuk menanggulangi masalah ini maka proses data mining menggunakan GPU menjadi salah satu solusi dalam menangani running time yang lambat dan akurasi yang kurang baik. Melalu tugas akhir ini penulis akan mencoba menganalisis sebuah algoritma KNN Kernel, Metode ini merupakan perkembangan dari metode KNN Standard. Dimana pada metode KNN Standard proses klasifikasi dilakukan dengan melihat sejumlah k tetangga terdekat, dan akan diklasifikasikan berdasarkan jumlah kelas terbanyak pada sejumlah k tetangga terdekatnya. Classifier tersebut diuji menggunakan 3 fungsi Kernel. Hasil yang didapat dari percobaan penulis yaitu pada pembagian 5 fold total waktu CPU1: 1,68 s,CPU2: 15,63 s,GPU1: 12,29 s,GPU2: 4,61 s. dan pada pembagian 10 fold total waktu CPU1: 1,53 s,CPU2: 15,27 s,GPU1: 12,05 s,GPU2: 4,55. Akurasi yang didapatkan pada pembagian 5 fold 63,87% dan pembagian 10 fold 64,30% pada semua perangkat. Kata Kunci : data mining,klasifikasi,CPU, GPU,KNN Kerne
    corecore