2 research outputs found
Klasifikasi Dna Tuberkulosis Berdasarkan K-Mer Menggunakan Support Vector Machine (Svm) Dan Variable Neighborhood Search (Vns)
Tuberkulosis adalah penyakit yang disebabkan oleh mycobacterium
tuberculosis dan termasuk kedalam salah satu dari 10 penyebab kematian di
dunia. Oleh karena itu diperlukan pendeteksian secara lebih akurat supaya dapat
diberikan penanganan yang tepat. Dalam pendeteksiannya, terkadang terjadi
kesalahan karena menyerupai dengan penyakit paru-paru lainnya. Penelitian ini
menerapkan algoritme machine learning dalam melakukan deteksi penyakit
Tuberkulosis dengan menggunakan data DNA karena semua organisme memiliki
struktur DNA. Metode yang digunakan adalah support vector machine (SVM) yang
dioptimasi dengan variable neighborhood search (VNS). SVM digunakan untuk
klasifikasi dan VNS digunakan untuk optimasi dari parameter SVM. SVM dipilih
karena bagus dalam generalisasi data. Data DNA sebelum digunakan sebagai
masukan kedalam SVM perlu dilakukan preprocessing terlebih dahulu dengan
menggunakan k-Mer untuk mengambil substring DNA kemudian
mengkonversinya menjadi data berupa numerik dan dilakukan reduksi dimensi
karena fitur data yang banyak. Performa dari SVM tergantung dari pemilihan
parameter yang tepat, oleh karena itu dioptimasi dengan VNS dan VNS yang
digunakan adalah VNS yang telah dimodifikasi, yaitu nested RVNS. k-Mer terbaik
pada penelitian ini bernilai k = 5. Hasil akhir setelah dilakukan optimasi adalah
akurasi = 0.995708, presisi = 0.995765, recall = 0.995708, F measure = 0.995557,
dan MCC = 0.992659. Akurasi ini lebih baik daripada sebelum dilakukan optimasi,
yang bernilai 0.927039. Dengan menggunakan nested RVNS, berjalan 2.5 kali lebih
cepat daripada VNS dasat dalam mencari parameter SVM yang optima
Deep Learning Architectures for DNA Sequence Classification
DNA sequence classification is a key task in a generic computational framework for biomedical data analysis, and in recent years several machine learning technique have been adopted to successful accomplish with this task. Anyway, the main difficulty behind the problem remains the feature selection process. Sequences do not have explicit features, and the commonly used representations introduce the main drawback of the high dimensionality. For sure, machine learning method devoted to supervised classification tasks are strongly dependent on the feature extraction step, and in order to build a good representation it is necessary to recognize and measure meaningful details of the items to classify. Recently, neural deep learning architectures or deep learning models, were proved to be able to extract automatically useful features from input patterns. In this work we present two different deep learning architectures for the purpose of DNA sequence classification. Their comparison is carried out on a public data-set of DNA sequences, for five different classification tasks