2,336 research outputs found

    Dampak SMOTE terhadap Kinerja Random Forest Classifier berdasarkan Data Tidak seimbang

    Get PDF
    Dalam aplikasi machine learning sangat umum ditemukan kumpulan data dalam berbagai tingkat ketidakseimbangan mulai dari ketidakseimbangan kecil, sedang sampai ekstrim. Sebagian besar model machine learning yang dilatih pada data tidak seimbang akan memiliki bias dengan memberikan tingkat akurasi yang tinggi pada kelas mayoritas dan sebaliknya rendah pada kelas minoritas. Tujuan penelitian ini adalah untuk mengevaluasi dampak dari SMOTE (Synthetic Minority Oversampling Technique) pada pengklasifikasi Random Forest untuk memprediksi penyakit jantung. Data berjumlah 299 berasal dari UCI Machine learning Repository digunakan untuk membangun model prediksi berdasarkan 12 variabel independen dan 1 variabel dependen. Kelas minoritas dalam dataset pelatihan di oversampling menggunakan teknik SMOTE (Synthetic Minority Oversampling Technique). Model dievaluasi tidak hanya menggunakan ukuran kinerja Accuracy dan Precision saja, namun juga menggunakan alternatif ukuran kinerja lainnya seperti Sensitivity, F1-score, Specificity, G-Mean dan Youdens Index yang lebih baik digunakan untuk data yang tidak seimbang. Hasil penelitian menunjukkan bahwa teknik SMOTE (Synthetic Minority Oversampling Technique) mampu mengurangi overfitting sekaligus meningkatkan kinerja model Random Forest pada semua indikator. Peningkatan skor Accuracy sebesar 3.45%, Precision 4.8%, Sensitivity 7.1%, F1-score 4.8%, Specificity 2.1%, G-Mean 4.4%, dan Youdens Index 6.3%. Penelitian ini membuktikan bahwa dalam menentukan pengklasifikasi dengan algoritma machine learning seperti Random Forest, kemiringan kelas dalam data perlu diperhitungkan dan diseimbangkan untuk hasil kinerja yang lebih baik

    Churn Prediction Menggunakan Combine Sampling (Synthetic Minority Over Sampling Technique & Neighbourhood Cleaning Rule) Dan Support Vector Machine

    Get PDF
    ABSTRAK Churn prediction merupakan sebuah model yang dapat mengklasifikasikan apakah seorang pelanggan akan tetap menggunakan jasa sebuah perusahaan atau beralih menggunakan jasa perusahaan lain. Permasalahan utama yang dihadapi pada churn prediction ini adalah adanya imbalance data, ketidak seimbangan jumlah data pada 2 buah kelas. Pada tugas akhir ini digunakan teknik sampling untuk memodifikasi dataset, yaitu combine sampling (Neighbourhood cleaning rule & synthetic minority oversampling technique) untuk mengatasi permasalahan imbalance data. Data yang digunakan adalah data yang diperoleh dari perusahaan telekomunikasi. Data tersebut nantinya akan dilakukan proses NCL dan SMOTE, kemudian hasil dari ke 2 teknik sampling tersebut akan digabungkan sehingga menjadi dataset yang baru, dan sudah siap untuk diimplementasikan. Untuk mengklasifikasikan apakah seseorang pelanggan tergolong ke dalam churn atau tidak, digunakan teknik klasifikasi support vector machine. Penelitian yang dilakukan terbukti dapat meningkatkan performansi model prediksi yang dibangun, dengan menggunakan combine sampling dapat menghasilkan performansi f1-measure sebesar 41,9793%. Kata kunci: churn prediction, imbalance data, support vector machine, synthetic minority oversampling technique, Neighbourhood cleaning rule, oversampling, undersampling

    Synthetic Minority Oversampling Technique Pada Model Logit dan Probit Status Pengangguran Terdidik

    Get PDF
    Educated unemployment is caused by a misalignment of educational development planning and employment development, resulting in underemployed graduates from various educational institutions. Unemployment data in DKI Jakarta shows an unequal class. Unbalanced data is a severe problem of modeling because it can cause prediction errors that affect the accuracy of the resulting model. Using SMOTE to handle unbalanced data will likely increase the model’s accuracy. This study aims to find the best model for identifying the factors influencing the status of educated unemployment using logit and probit models and handling unbalanced data using SMOTE. The results showed that the independent variables that affect the status of educated unemployment in the logit and probit models are the same: age group and participation in training. The independent variables that affect the status of educated unemployment in the logit and probit models with SMOTE are also the same: age group, marital status, and participation in training. Unbalanced data handling using SMOTE can increase the balanced accuracy value significantly. Balanced accuracy values for the logit and probit models with SMOTE are higher than the logit and probit models without SMOTE. The logit model with SMOTE is the best because it has the highest balanced accuracy value compared to other models. According to the logit model with SMOTE, the educated unemployed in DKI Jakarta are young and have never married. There is a need for the government to play a role in improving the quality of educational institutions in producing graduates who meet company qualifications and can be hired by employers. Unemployed people who have attended the training, despite having a higher education, may also become unemployed. The training provided has not been able to reduce the unemployment rate. As a result, the government should be able to provide training to improve entrepreneurship skills while also providing capital in the form of business loans to reduce educated unemployment

    Analisis Churn Prediction pada Data Pelanggan Telekomunikasi Seluler Menggunakan Synthetic Minority Oversampling Technique dan Random Forest

    Get PDF
    #Abstrak *Churn* *prediction* merupakan upaya yang digunakan untuk membantu penyedia layanan telekomunikasi agar tidak mengalami kerugian yang besar dengan cara memprediksi atau mengklasifikasi pelanggan jasa telekomunikasi yang berhenti dan berpindah menggunakan jasa telekomunikasi yang lain. Dataset pada kasus *churn* ini biasanya memiliki data pelanggan *non-churn* yang mayor daripada data pelanggan *churn* yang minor sehingga akurasi untuk data minor akan memiliki akurasi yang sangat kecil sehingga menyebabkan *imbalance* data. Data yang *imbalance* akan menyebabkan kesulitan dalam mengembangkan model prediksi yang baik. Salah satu pendekatan untuk menangani *imbalance* data adalah pendekatan *sampling-based*. Pada penelitian Tugas Akhir ini menggunakan data pelanggan dari WITEL PT. Telekomunikasi Regional 7. Pada data yang digunakan memiliki 53 atribut dengan 200,361 *record* data (192,848 *record* data *non-churn* dan 7,513 *record* data *churn*). Tingkat data kelas *churn* pada dataset ini adalah 3.7%. Untuk menangani *imbalance* data menggunakan *Synthetic* *Minority* *Oversampling* *Technique* (SMOTE) yang dikombinasikan dengan metode *Random* *Forest* (RF) untuk klasifikasi data kelas *churn* atau *non-churn*. SMOTE merupakan teknik *oversampling* yang digunakan untuk menghasilkan data sintetis dari kelas *churn* untuk meningkatkan prediksi peluang churn yang terjadi. Penelitian yang dilakukan terbukti dapat meningkatkan performansi model klasifikasi RF dengan penanganan *imbalance* data menggunakan SMOTE yang memberikan peningkatan nilai *f-measure* lebih dari 20% dengan nilai *f-measure* terbaik yaitu 95,27% dan *error* *rate* 4,60%. **Kata** **kunci**: *imbalanced* data, *churn* *prediction*, smote, *random* *forest*

    Credit Card Fraud Detection Using Logistic Regression and Synthetic Minority Oversampling Technique (SMOTE) Approach

    Get PDF
    Financial fraud is a serious threat that is expanding effects on the financial sector. The use of credit cards is growing as digitization and internet transactions advance daily. The most common issues in today\u27s culture are credit card scams. This kind of fraud typically happens when someone uses someone else\u27s credit card details. Credit card fraud detection uses transaction data attributes to identify credit card fraud, which can save significant financial losses and affluence the burden on the police. The detection of credit card fraud has three difficulties: uneven data, an abundance of unseen variables, and the selection of an appropriate threshold to improve the models\u27 reliability. This study employs a modified Logistic Regression (LR) model to detect credit card fraud in order to get over the preceding difficulties. The dataset sampling strategy, variable choice, and detection methods employed all have a significant impact on the effectiveness of fraud detection in credit card transactions. The effectiveness of naive bayes, k-nearest neighbour, and logistic regression on highly skewed credit card fraud data is examined in this research. The accuracy of the logistic regression technique will be closer to 0.98%; with this accuracy, frauds may be easily detected. The fact that LR receives the highest classifier score illustrates how well LR predicts credit card theft

    Kombinasi Synthetic Minority Oversampling Technique (SMOTE) dan Neural Network Backpropagation untuk menangani data tidak seimbang pada prediksi pemakaian alat kontrasepsi implan

    Get PDF
    Combination of Synthetic Minority Oversampling Technique (SMOTE) and Backpropagation Neural Network to handle imbalanced class in predicting the use of contraceptive implants  Kegagalan akibat pemakaian alat kontrasepsi implan merupakan terjadinya kehamilan pada wanita saat menggunakan alat kontrasepsi secara benar. Kegagalan pemakaian kontrasepsi implan tahun 2018 secara nasional sejumlah 1.852 pengguna atau 4% dari 41.947 pengguna. Rasio angka kegagalan dan keberhasilan pemakaian kontrasepsi implan yang cenderung tidak seimbang (imbalance class) membuatnya sulit diprediksi. Ketidakseimbangan data terjadi jika jumlah data suatu kelas lebih banyak dari data lain. Kelas mayor merupakan jumlah data yang lebih banyak, sedangkan kelas minor jumlahnya lebih sedikit. Algoritma klasifikasi akan mengalami penurunan performa jika menghadapi kelas yang tidak seimbang. Synthetic Minority Oversampling Technique (SMOTE) digunakan untuk menyeimbangkan data kegagalan pemakaian kontrasepsi implan. SMOTE menghasilkan akurasi yang baik dan efektif daripada metode oversampling lainnya dalam menangani imbalance class karena mengurangi overfitting. Data yang sudah seimbang kemudian diprediksi dengan Neural Network Backpropagation. Sistem prediksi ini digunakan untuk mendeteksi apakah seorang wanita mengalami kehamilan atau tidak jika menggunakan kontrasepsi implan. Penelitian ini menggunakan 300 data, terdiri dari 285 data mayor (tidak hamil) dan 15 data minor (hamil). Dari 300 data dibagi menjadi dua bagian, 270 data latih dan 30 data uji. Dari 270 data latih, terdapat 13 data latih minor dan 257 data latih mayor. Data latih minor pada data latih diduplikasi sebanyak data pada kelas mayor sehingga jumlah data latih menjadi 514, terdiri dari 257 data mayor, 13 data minor asli, dan 244 data minor buatan. Sistem prediksi menghasilkan nilai akurasi sebesar 96,1% pada epoch ke-500 dan 1.000. Implementasi kombinasi SMOTE dan Neural Network Backpropagation terbukti mampu memprediksi pada imbalance class dengan hasil prediksi yang baik.  The failed contraceptive implant is one of the sources of unintended pregnancy in women. The number of users experiencing contraceptive-implant failure in 2018 was 1,852 nationally or 4% out of 41,947 users. The ratio between failure and success rates of contraceptive implant, which tended to be unbalanced (imbalance class), made it difficult to predict. Imbalance class will occur if the amount of data in one class is bigger than that in other classes. Major classes represent a bigger amount of data, while minor classes are smaller ones. The imbalance class will decrease the performance of the classification algorithm. The Synthetic Minority Oversampling Technique (SMOTE) was used to balance the data of the contraceptive implant failures. SMOTE resulted in better and more effective accuracy than other oversampling methods in handling the imbalance class because it reduced overfitting. The balanced data were then predicted using backpropagation neural networks. The prediction system was used to detect if a woman using a contraceptive implant was pregnant or not. This study used 300 data, consisting of 285 major data (not pregnant) and 15 minor data (pregnant). Of 300 data, two groups of data were formed: 270 training data and 30 testing data. Of 270 training data, 13 were minor training data and 257 were major training data. The minor training data in the training data were duplicated as much as the number of data in major classes so that the total training data became 514, consisting of 257 major data, 13 original minor data, and 244 artificial minor data. The prediction system resulted in an accuracy of 96.1% on the 500th and 1,000th epochs. The combination of SMOTE and Backpropagation Neural Network was proven to be able to make a good prediction result in imbalance class

    Differential evolution technique on weighted voting stacking ensemble method for credit card fraud detection

    Get PDF
    Differential Evolution is an optimization technique of stochastic search for a population-based vector, which is powerful and efficient over a continuous space for solving differentiable and non-linear optimization problems. Weighted voting stacking ensemble method is an important technique that combines various classifier models. However, selecting the appropriate weights of classifier models for the correct classification of transactions is a problem. This research study is therefore aimed at exploring whether the Differential Evolution optimization method is a good approach for defining the weighting function. Manual and random selection of weights for voting credit card transactions has previously been carried out. However, a large number of fraudulent transactions were not detected by the classifier models. Which means that a technique to overcome the weaknesses of the classifier models is required. Thus, the problem of selecting the appropriate weights was viewed as the problem of weights optimization in this study. The dataset was downloaded from the Kaggle competition data repository. Various machine learning algorithms were used to weight vote a class of transaction. The differential evolution optimization techniques was used as a weighting function. In addition, the Synthetic Minority Oversampling Technique (SMOTE) and Safe Level Synthetic Minority Oversampling Technique (SL-SMOTE) oversampling algorithms were modified to preserve the definition of SMOTE while improving the performance. Result generated from this research study showed that the Differential Evolution Optimization method is a good weighting function, which can be adopted as a systematic weight function for weight voting stacking ensemble method of various classification methods.School of ComputingM. Sc. (Computing

    ANALISIS PREDIKSI CHURN PADA PERUSAHAAN TELEKOMUNIKASI MENGGUNAKAN SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE DAN CONJUGATE GRADIENT FLETCHER-REEVES

    Get PDF
    Churn prediction merupakan task dalam data mining yang berfungsi untuk memprediksi pelanggan yang berpotensi churn. Pada penelitian ini data yang dipakai dalam churn prediction bersifat imbalance dimana jumlah kelas mayor lebih banyak dibanding minor. Data yang digunakan pada penelitian ini menggunakan data pelanggan PT. TELKOM. Pada penelitian ini untuk menyelesaikan masalah imbalance class pada prediksi churn menggunakan metode SMOTE dan backpropagation CGF. Metode SMOTE digunakan untuk menangani kasus imbalance class dengan meningkatkan jumlah data minoritas dengan cara membangkitkan data sintetik sehingga kesenjangan proporsi kelas mayor dan minor berkurang. Selanjutnya backpropagation CGF digunakan untuk mengklasifikasikan kelas churn dan not churn. Pada penelitian Tugas Akhir ini performansi terbaik adalah F1-Measure sebesar 42.86% dan akurasi sebesar 94.73%. Kata kunci: churn prediction, imbalance class, SMOTE, backpropagation, conjugate gradient Fletcher-reeve
    corecore