Klasifikasi Dna Tuberkulosis Berdasarkan K-Mer Menggunakan Support Vector Machine (Svm) Dan Variable Neighborhood Search (Vns)

Abstract

Tuberkulosis adalah penyakit yang disebabkan oleh mycobacterium tuberculosis dan termasuk kedalam salah satu dari 10 penyebab kematian di dunia. Oleh karena itu diperlukan pendeteksian secara lebih akurat supaya dapat diberikan penanganan yang tepat. Dalam pendeteksiannya, terkadang terjadi kesalahan karena menyerupai dengan penyakit paru-paru lainnya. Penelitian ini menerapkan algoritme machine learning dalam melakukan deteksi penyakit Tuberkulosis dengan menggunakan data DNA karena semua organisme memiliki struktur DNA. Metode yang digunakan adalah support vector machine (SVM) yang dioptimasi dengan variable neighborhood search (VNS). SVM digunakan untuk klasifikasi dan VNS digunakan untuk optimasi dari parameter SVM. SVM dipilih karena bagus dalam generalisasi data. Data DNA sebelum digunakan sebagai masukan kedalam SVM perlu dilakukan preprocessing terlebih dahulu dengan menggunakan k-Mer untuk mengambil substring DNA kemudian mengkonversinya menjadi data berupa numerik dan dilakukan reduksi dimensi karena fitur data yang banyak. Performa dari SVM tergantung dari pemilihan parameter yang tepat, oleh karena itu dioptimasi dengan VNS dan VNS yang digunakan adalah VNS yang telah dimodifikasi, yaitu nested RVNS. k-Mer terbaik pada penelitian ini bernilai k = 5. Hasil akhir setelah dilakukan optimasi adalah akurasi = 0.995708, presisi = 0.995765, recall = 0.995708, F measure = 0.995557, dan MCC = 0.992659. Akurasi ini lebih baik daripada sebelum dilakukan optimasi, yang bernilai 0.927039. Dengan menggunakan nested RVNS, berjalan 2.5 kali lebih cepat daripada VNS dasat dalam mencari parameter SVM yang optima

    Similar works