5 research outputs found

    Model Balanced Bagging Berbasis Decision Tree Pada Dataset Imbalanced Class

    Get PDF
    Algoritma klasifikasi merupakan algoritma yang sangat sering digunakan beriringan dengan kebutuhan manusia, namun peneliti an sebelumnya sering dijumpai kendala saat menggunakan algoritma klasifikasi. Salah satu permasalahan yang sering sekali dijumpai ialah kasus imbalanced dataset. Sehingga dalam penelitian ini diusulkan ensemble method untuk mengatasinya, salah satu algoritma ensemble method yang terkenal ialah bagging. Implementasi balanced-bagging digunakan untuk meningkatkan kemampuan dari algoritma bagging. Dalam penelitian ini melibatkan perbandingan tiga model klasifikasi berbeda dengan lima dataset yang memiliki imbalanced ratio (IR) yang berbeda, Model akan dievaluasi berdasarkan metrik akurasi (balanced accuracy), geometric mean dan area under curve (AUC). Model pertama merupakan proses klasifikasi menggunakan Decision Tree (tanpa Bagging),  Model kedua merupakan proses klasifikasi menggunakan Decision Tree (dengan Bagging) dan model ketiga menggunakan Decision Tree (dengan Balanced-Bagging). Implementasi metode bagging dan balanced bagging terhadap algoritma klasifikasi Decision Tree mampu meningkatkan kinerja hasil akurasi (balanced accuracy), geometric mean, dan AUC. Secara umum model Decision Tree + Balanced Bagging menghasilkan kinerja yang terbaik pada seluruh dataset yang digunakan

    An Effective Recursive Technique for Multi-Class Classification and Regression for Imbalanced Data

    No full text

    Prediksi omset bisnis restoran Soto-Kwali Pak Wasis menggunakan metode Random Forest dan Logistic Regression

    Get PDF
    ABSTRAK Perusahaan kecil yang berhubungan dengan manajemen memerlukan pendekatan yang berbeda terutama untuk kualitas mutu. Kualitas mutu sangat berhubungan dengan administrasi sistem yang dipakai oleh perusahaan kecil tersebut. Penelitian ini dilakukan untuk memprediksikan tingkat pendapatan dari bisnis restoran Soto Kwali Pak Wasis dengan menggunakan Machine Learning yang mana bisnis restoran Soto Kwali Pak Wasis sekarang berskala kecil. Metode Random Forest (RF) dipilih karena mampu melakukan prediksi dengan hasil yang optimal dengan akurasi yang tinggi. Sedangkan metode alternatif Logistic Regression (LR) dipilih karena kemampuan yang dapat menghasilkan prediksi dengan dengan durasi yang cepat. Hasil dari uji coba prediksi antara kedua metode menghasilkan metode terbaik diraih oleh metode Logistic Regression (LR) dengan perolehan nilai accuracy 97% dengan duration 10s dan level error yang paling rendah mendapat nilai MAE 0,22273, MAPE 22,2424. Dengan demikian metode Logistic Regression (LR) merupakan metode yang paling cocok dibandingkan dengan metode Random Forest (RF) karena metode Logistic Regression (LR) sangat efisien dengan nilai akurasi yang baik dan sangat cocok untuk melakukan prediksi omset bisnis restoran Soto Kwali Pak Wasis dengan kecepatan waktu yang cepat dan optimasi metode sangat sederhana sehingga tidak memerlukan beban biaya pengadaan yang tinggi. ABSTRACT Small companies dealing with management require a different approach, especially to quality quality. Quality quality is closely related to the administration of the system used by the small company. This research was conducted to predict the level of income from the Soto Kwali Pak Wasis restaurant business using Machine Learning where the Soto Kwali Pak Wasis restaurant business is now small-scale. The Random Forest (RF) method was chosen because it is able to predict optimal results with high accuracy. The alternative method of Logistic Regression (LR) was chosen because of the ability to produce predictions with a fast duration. The results of the prediction trial between the two methods resulted in the best method achieved by the Logistic Regression (LR) method with an accuracy value of 97% with a duration of 10s and the lowest error level received an MAE value of 0.22273, MAPE 22.2424. Thus, the Logistic Regression (LR) method is the most suitable method compared to the Random Forest (RF) method because the Logistic Regression (LR) method is very efficient with good accuracy values and is very suitable for predicting the turnover of the Soto Kwali Pak Wasis restaurant business with fast time speed and method optimization is very simple so that it does not require a high procurement cost burden. مستخلص البحث تتطلب الشركة الصغيرة التي تتعامل مع الإدارة مدخلا مختلفا خاصة لترقية جودتها. ترتبط ترقية الجودة ارتباطا وثيقا بإدارة النظام الذي تستخدمه الشركة الصغيرة. تم إجراء هذا البحث للتنبؤ بمستوى الدخل من عمل تجاري لمطعم سوتو كوالي السيد وسيس باستخدام الآلي التعليمي حيث كان المطعم صغير الحجم. تم اختيار طريقة الغابة العشوائية (RF) لأنها قادرة على التنبؤ بأفضل النتائج بدقة عالية. بينما تم اختيار الطريقة البديلة للانحدار اللوجستي (LR) بسبب القدرة على إنتاج تنبؤات بمدة سريعة. أسفرت نتائج تجربة التنبؤ بين الطريقتين عن أفضل طريقة حققتها طريقة الانحدار اللوجستي (LR) بقيمة دقة ٩٧% مع مدة ١٠ ثوان وحصل أدنى مستوى خطأ على قيمة MAE ٠.٢٢٢٧٣ و MAPE ٢٢.٢٤٢٤. وبالتالي، فإن طريقة الانحدار اللوجستي (LR) هي الطريقة الأنسب مقارنة بطريقة الغابة العشوائية (RF) لأن طريقة الانحدار اللوجستي (LR) فعالة للغاية مع قيمة دقة جيدة ومناسبة جدا للتنبؤ بدخل عمل تجار لمطعم سوتو كوالي السيد وسيس بسرعة زمنية عالية وعمليتها بسيطة للغاية بحيث لا تتطلب تكاليف شراء عالية

    Machine Learning Approaches for the Prioritisation of Cardiovascular Disease Genes Following Genome- wide Association Study

    Get PDF
    Genome-wide association studies (GWAS) have revealed thousands of genetic loci, establishing itself as a valuable method for unravelling the complex biology of many diseases. As GWAS has grown in size and improved in study design to detect effects, identifying real causal signals, disentangling from other highly correlated markers associated by linkage disequilibrium (LD) remains challenging. This has severely limited GWAS findings and brought the method’s value into question. Although thousands of disease susceptibility loci have been reported, causal variants and genes at these loci remain elusive. Post-GWAS analysis aims to dissect the heterogeneity of variant and gene signals. In recent years, machine learning (ML) models have been developed for post-GWAS prioritisation. ML models have ranged from using logistic regression to more complex ensemble models such as random forests and gradient boosting, as well as deep learning models (i.e., neural networks). When combined with functional validation, these methods have shown important translational insights, providing a strong evidence-based approach to direct post-GWAS research. However, ML approaches are in their infancy across biological applications, and as they continue to evolve an evaluation of their robustness for GWAS prioritisation is needed. Here, I investigate the landscape of ML across: selected models, input features, bias risk, and output model performance, with a focus on building a prioritisation framework that is applied to blood pressure GWAS results and tested on re-application to blood lipid traits
    corecore