6 research outputs found

    Penanganan Fitur Kontinyu dengan Feature Discretization Berbasis Expectation Maximization Clustering untuk Klasifikasi Spam Email Menggunakan Algoritma ID3

    Full text link
    Pemanfaatan jaringan internet saat ini berkembang begitu pesatnya, salah satunya adalah pengiriman surat elektronik atau email. Akhir-akhir ini ramai diperbincangkan adanya spam email. Spam email adalah email yang tidak diminta dan tidak diinginkan dari orang asing yang dikirim dalam jumlah besar ke mailing list, biasanya beberapa dengan sifat komersial. Adanya spam ini mengurangi produktivitas karyawan karena harus meluangkan waktu untuk menghapus pesan spam. Untuk mengatasi permasalahan tersebut dibutuhkan sebuah filter email yang akan mendeteksi keberadaan spam sehingga tidak dimunculkan pada inbox mail. Banyak peneliti yang mencoba untuk membuat filter email dengan berbagai macam metode, tetapi belum ada yang menghasilkan akurasi maksimal. Pada penelitian ini akan dilakukan klasifikasi dengan menggunakan algoritma Decision Tree Iterative Dicotomizer 3 (ID3) karena ID3 merupakan algoritma yang paling banyak digunakan di pohon keputusan, terkenal dengan kecepatan tinggi dalam klasifikasi, kemampuan belajar yang kuat dan konstruksi mudah. Tetapi ID3 tidak dapat menangani fitur kontinyu sehingga proses klasifikasi tidak bisa dilakukan. Pada penelitian ini, feature discretization berbasis Expectation Maximization (EM) Clustering digunakan untuk merubah fitur kontinyu menjadi fitur diskrit, sehingga proses klasifikasi spam email bisa dilakukan. Hasil eksperimen menunjukkan ID3 dapat melakukan klasifikasi spam email dengan akurasi 91,96% jika menggunakan data training 90%. Terjadi peningkatan sebesar 28,05% dibandingkan dengan klasifikasi ID3 menggunakan binning

    Model Prediksi Penyakit Ginjal Kronik Menggunakan Radial Basis Function

    Full text link
    Penyakit ginjal kronik adalah suatu sindrom klinis. Penyakit ini disebabkan oleh penurunan fungsi ginjal yang bersifat menahun, progresif, bersifat persisten, dan irreversibel. Diagnosa dini diperlukan agar penderitanya tidak mengalami infark ginjal atau kematian mendadak. Pencegahan dapat dilakukan melalui prediksi yang tepat. Penelitian Prediksi Penyakit Ginjal Kronik pada saat ini telah dilakukan oleh beberapa peneliti. Namun peningkatan akurasi diperlukan untuk menunjang tugas dan fungsi tenaga medis dalam menegakkan diagnosa. Saat ini tingkat akurasi model penelitian sebelumnya baru mencapai 91.71 %. Guna meningkatkan akurasi tersebut penelitian ini menggunakan pendekatan Radial Basis Function. Eksperimen dilakukan dengan parameter uji iterasi 500 - 10000 dan konstanta pembelajaran antara 0.15- 0.3. Dari uji coba tersebut didapatkan hasil yang lebih baik daripada penelitian sebelumnya, yakni sebesar 93.75% pada konstanta pembelajaran 0.2 dan iterasi 200

    Penerapan Metode Average Gain, Threshold Pruning Dan Cost Complexity Pruning Untuk Split Atribut Pada Algoritma C4.5

    Full text link
    C4.5 is a supervised learning classifier to establish a Decision Tree of data. Split attribute is main process in the formation of a decision tree in C4.5. Split attribute in C4.5 can not be overcome in any misclassification cost split so the effect on the performance of the classifier. After the split attributes, the next process is pruning. Pruning is process to cut or eliminate some of unnecessary branches. Branch or node that is not needed can cause the size of Decision Tree to be very large and it is called over- fitting. Over- fitting is state of the art for this time. Methods for split attributes are Gini Index, Information Gain, Gain Ratio and Average Gain which proposed by Mitchell. Average Gain not only overcome the weakness in the Information Gain but also help to solve the problems of Gain Ratio. Attribute split method which proposed in this research is use average gain value multiplied by the difference of misclassification. While the technique of pruning is done by combining threshold pruning and cost complexity pruning. In this research, testing the proposed method will be applied to datasets and then the results of performance will be compared with results split method performance attributes using the Gini Index, Information Gain and Gain Ratio. The selecting method of split attributes using average gain that multiplied by the difference of misclassification can improve the performance of classifiying C4.5. This is demonstrated through the Friedman test that the proposed split method attributes, combined with threshold pruning and cost complexity pruning have accuracy ratings in rank 1. A Decision Tree formed by the proposed method are smaller

    Optimasi K-means Clustering untuk Identifikasi Daerah Endemik Penyakit Menular dengan Algoritma Particle Swarm Optimization di Kota Semarang

    Get PDF
    Tropical regions is a region endemic to various infectious diseases. At the same time an area of high potential for the presence of infectious diseases. Infectious diseases still a major public health problem in Indonesia. Identification of endemic areas of infectious diseases is an important issue in the field of health, the average level of patients with physical disabilities and death are sourced from infectious diseases. Data Mining in its development into one of the main trends in the processing of the data. Data Mining could effectively identify the endemic regions of hubunngan between variables. K-means algorithm klustering used to classify the endemic areas so that the identification of endemic infectious diseases can be achieved with the level of validation that the maximum in the clustering. The use of optimization to identify the endemic areas of infectious diseases combines k-means clustering algorithm with optimization particle swarm optimization ( PSO ). the results of the experiment are endemic to the k-means algorithm with iteration =10, the K-Fold =2 has Index davies bauldin = 0.169 and k-means algorithm with PSO, iteration = 10, the K-Fold = 5, index davies bouldin = 0.113. k-fold = 5 has better performance

    Algoritma Klasifikasi Data Mining Naïve Bayes Berbasis Particle Swarm Optimization Untuk Deteksi Penyakit Jantung

    Get PDF
    Data mining sering disebut Knowledge Discovery in Database (KDD). Data mining biasanya digunakan untuk memperbaiki pengambilan keputusan di masa yang akan datang berdasarkan informasi yang diperoleh dari masa lalu. Misalnya untuk prediksi, estimasi, assosiasi, clustering, dan deskripsi. Sekumpulan data yang ada di laboratorium klinik belum difungsikan secara efektif dan hanya di fungsikan sebagai arsip untuk riwayat penyakit pasien. Jantung merupakan pembunuh nomor satu di dunia. Kurangnya aliran darah dan oksigen ke jantung bisa menyebabkan penyakit jantung. Pada penelitian ini akan membandingkan algoritma klasifikasi data mining Naive Bayes Berbasis PSO untuk deteksi penyakit jantung. Pengukuran dengan Naives Bayes menghasilkan akurasi 82.14%, sementara dengan Naives Bayes Berbasis Particle Swarm Optimization akurasi meningkat menjadi 92.86%. Tingkat akurasi dibandingkan dengan hasil laboratorium

    Integrasi Pareto Fitness, Multiple-Population Dan Temporary Population Pada Algoritma Genetika Untuk Pembangkitan Data Tes Pada Pengujian Perangkat Lunak

    Full text link
    Pengujian perangkat lunak memerlukan biaya yang mahal dan sering kali lebih dari 50% biaya keseluruhan dalam pengembangan perangkat lunak digunakan dalam tahapan ini. Untuk mengurangi biaya proses pengujian perangkat lunak secara otomatis dapat digunakan. Hal yang sangat penting dalam pengujian perangkat lunak secara otomatis adalah proses menghasilkan data tes. Pengujian secara otomatis yang paling efektif dalam menekan biaya adalah pengujian branch coverage. Salah satu metode yang banyak digunakan dan memiliki kinerja baik adalah algoritma genetika (AG). Salah satu permasalahan AG dalam menghasilkan data tes adalah ketiga target cabang dipilih memungkinkan tidak ada satupun individu yang memenuhi kriteria. Hal ini akan menyebabkan proses pencarian data tes memakan waktu lebih lama. Oleh karena itu di dalam penelitian ini diusulkan integrasi pareto fitness, multiple-population dan temporary population di dalam proses pencarian data tes dengan menggunakan AG (AG-PFMPTP). Multiple-population diusulkan untuk menghindari premature convergence. Kemudian pareto fitness dan temporary population digunakan untuk mencari beberapa data tes sekaligus, kemudian mengevaluasinya dan memasukkan ke dalam archive temporary population. Dari hasil pengujian yang telah dilakukan rata-rata generasi metode AG-PFMPTP secara signifikan lebih sedikit dalam menghasilkan data tes yang dibutuhkan dibandingkan metode AG standar ataupun AG dengan multiple-population (AG-MP) pada semua benchmark program yang digunakan. Hal tersebut menunjukkan metode yang diusulkan lebih cepat dalam mencari data tes yang dibutuhka
    corecore