5,965 research outputs found

    Benchmarking the Semi-Supervised Naïve Bayes Classifier

    Get PDF
    Semi-supervised learning involves constructing predictive models with both labelled and unlabelled training data. The need for semi-supervised learning is driven by the fact that unlabelled data are often easy and cheap to obtain, whereas labelling data requires costly and time consuming human intervention and expertise. Semi-supervised methods commonly use self training, which involves using the labelled data to predict the unlabelled data, then iteratively reconstructing classifiers using the predicted labels. Our aim is to determine whether self training classifiers actually improves performance. Expectation maximization is a commonly used self training scheme. We investigate whether an expectation maximization scheme improves a naïve Bayes classifier through experimentation with 30 discrete and 20 continuous real world benchmark UCI datasets. Rather surprisingly we find that in practice the self training actually makes the classifier worse. The cause for this detrimental affect on performance could either be with the self training scheme itself, or how self training works in conjunction with the classifier. Our hypothesis is that it is the latter cause, and the violation of the naïve Bayes model assumption of independence of attributes means predictive errors propagate through the self training scheme. To test whether this is the case, we generate simulated data with the same attribute distribution as the UCI data, but where the attributes are independent. Experiments with this data demonstrate that semi-supervised learning does improve performance, leading to significantly more accurate classifiers. These results demonstrate that semi-supervised learning cannot be applied blindly without considering the nature of the classifier, because the assumptions implicit in the classifier may result in a degradation in performance

    IMPLEMENTASI NAÏVE BAYES CLASSIFIER PADA SISTEM ANALISIS SENTIMEN TWITTER

    Get PDF
    Opini merupakan pikiran, anggapan, perkiraan tentang suatu hal. Opini yang muncul dapat mempengaruhi orang lain karena setiap keputusan yang akan diambil oleh seseorang atau organisasi diperlukan pertimbangan yang juga berdasarkan dari kumpulan opini. Twitter merupakan sebuah situs microblog populer di Indonesia yang dapat mengirimkan pesan pendek 140 karakter dan memungkinkan penggunanya menyampaikan opini sehingga dapat terbaca oleh seluruh pengguna. Pada skripsi ini, penulis memfokuskan untuk membangun sistem analisis sentimen yang dapat secara otomatis mengklasifikasikan tweet opini yang mengandung kata kunci 'bpjs' ke dalam kelas positif, negatif, dan netral. Teknik yang digunakan adalah teknik pembelajaran mesin dengan menggunakan algoritma Naïve Bayes Classifier. Dataset yang terkumpul di anotasi secara manual menjadi data latih dan terbentuk model yang akan di gunakan pada algoritma Naïve Bayes Classifier. Dari model tersebut didapatkan kata-kata yang dimasukkan ke dalam daftar stopwords dan sinonim. Pembentukan model, daftar stopwords dan sinonim mempengaruhi terhadap peningkatan akurasi. Analisis sentimen pada studi kasus tweet dengan kata kunci 'bpjs' menggunakan algoritma Naïve Bayes Classifier memberikan hasil yang baik, terbukti dengan menunjukan akurasi sebesar 77,5615%. Hasil klasifikasi dengan kelas positif, negatif, dan netral disajikan dalam bentuk tabel, grafik dan cloudwords. Dari penelitian ini menunjukkan bahwa algoritma Naïve Bayes Classifier dapat digunakan untuk analisis sentimen pada data tweet berbahasa Indonesia.;---Opinion is mind, assumption, estimate about a thing. Opinion that arise can affect people because every decision will be taken by a person or organization is also required consideration based on the collection of opinions. Twitter is a popular microblog site in Indonesia that can send short messages of 140 characters, and allows users to submit opinions that can be read by all users. In this thesis, the author focuses on building a sentiment analysis system that can automatically classify opinions which has tweet keywords 'bpjs' into the classroom tweet positive, negative, and neutral. The technique used is using a machine learning technique by algorithm Naïve Bayes Classifier. Datasets manually annotated to be a training data and formed into a model that will be used on Naïve Bayes Classifier algorithm. From the model obtained words included in the list of stopwords and synonims. The establishment of a model, a list of stopwords and sysnonims affect to increased accuracy. Sentiment analysis on case studies tweet with keywords 'bpjs' using Naïve Bayes Classifier algorithm gives good results, as evidenced by the showing an accuracy of 77.5615%. Class classification results with positive, negative, and neutral presented in tables, charts and cloudwords. This research shows that the Naïve Bayes Classifier algorithm can be used for analysis of data tweet sentiment in Indonesian language

    SISTEM KLASIFIKASI FEEDBACK PELANGGAN DAN REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM UNS DENGAN ALGORITMA NAÏVE BAYES CLASSIFIER DAN COSINE SIMILARITY

    Get PDF
    Saat ini, konsumen dapat menyampaikan keluhan terhadap UPT Puskom UNS melalui mentions terhadap akun Twitter. Mentions yang diberikan oleh konsumen kemudian diklasifikasikan apakah mentions tersebut termasuk keluhan, berita atau spam. Klasifikasi mentions dilakukan menggunakan algoritma Naïve Bayes Classifier berdasarkan supervised learning. Peningkatan akurasi untuk algoritma Naïve Bayes Classifier dilakukan dengan menggunakan teknik Laplacian Smoothing. Algoritma Cosine Similarity digunakan untuk mengelompokkan mentions keluhan yang memiliki term yang sama. Dari kelompok mentions tersebut, administrator akan memberikan solusi yang relevan terhadap keluhan. Hasil penelitian menunjukkan bahwa proses klasifikasi dengan algoritma Naïve Bayes Classifier untuk proses pelatihan memiliki tingkat akurasi terendah 86.67% dengan data pelatihan sebanyak 30 mentions dan tingkat akurasi tertinggi 100% dengan data pelatihan sebanyak 20 mentions. Proses pengujian dilakukan secara bertahap dengan tingkat akurasi terendah adalah 60% yang dicapai pada pengujian pertama dan kedua, sedangkan tingkat akurasi tertinggi dicapai pada pengujian kelima dan keenam yakni 90%. Mentions keluhan tidak dapat terkelompokkan dengan algoritma Cosine Similarity karena jumlah data yang sangat terbatas yakni 29 data dan tidak ada mentions yang memiliki term sama. Namun setelah dilakukan self-test, mentions keluhan yang memiliki term sama dapat terkelompokkan dengan baik. Kata kunci: klasifikasi, Naïve Bayes Classifier, Cosine Similarity, rekomendasi solusi

    Threshold-based Naïve Bayes classifier

    Get PDF
    The Threshold-based Naive Bayes (Tb-NB) classifier is introduced as a (simple) improved version of the original Naive Bayes classifier. Tb-NB extracts the sentiment from a Natural Language text corpus and allows the user not only to predict how much a sentence is positive (negative) but also to quantify a sentiment with a numeric value. It is based on the estimation of a single threshold value that concurs to define a decision rule that classifies a text into a positive (negative) opinion based on its content. One of the main advantage deriving from Tb-NB is the possibility to utilize its results as the input of post-hoc analysis aimed at observing how the quality associated to the different dimensions of a product or a service or, in a mirrored fashion, the different dimensions of customer satisfaction evolve in time or change with respect to different locations. The effectiveness of Tb-NB is evaluated analyzing data concerning the tourism industry and, specifically, hotel guests' reviews from all hotels located in the Sardinian region and available on Booking.com. Moreover, Tb-NB is compared with other popular classifiers used in sentiment analysis in terms of model accuracy, resistance to noise and computational efficiency

    Fault diagnosis of rolling element bearing using Naïve Bayes classifier

    Get PDF
    The development of machine learning brings a new way for diagnosing the fault of rolling element bearings. However, the method in machine learning with high accuracy often has the poor ability of generalization due to the overuse of feature engineering. To address this challenge, Naïve Bayes classifier is applied in this paper. As the one of the cluster of Bayes classifiers, its ability of classification is very outstanding. In this paper, the method is provided with a detailed description for why and how to diagnose the fault of bearing. Finally, an evaluation of the performance of Naïve Bayes classifier is presented with real world data. The evaluation indicates that Naïve Bayes classifier can achieve a high level of accuracy without any feature engineering

    Analisis sentimen komentar youtube terhadap Anies Baswedan sebagai bakal calon presiden 2024 menggunakan metode naive bayes classifier

    Get PDF
    One of the figures as a presidential candidate is Anies Baswedan, the former governor of DKI Jakarta who received many awards and has an effective work program policy for problems in the DKI Jakarta area. Many comments about Anies Baswedan as a 2024 presidential candidate are found on YouTube social media. Youtube facilitates users to provide comments in response to videos which can be used as sentiment analysis information to find out positive comments and negative comments. The algorithm used in this research is the naïve bayes classifier. There are five main processes in this research, namely data collection, text preprocessing, word weighting (TF-IDF), classification (Naïve Bayes Classifier) and testing. From 1009 comment data on Indonesian-language youtube related to the Anies Baswedan video as a 2024 presidential candidate. Based on the analysis results, there are 610 positive comments and 399 negative comments. The accuracy result using the naïve bayes classifier algorithm is 78% which is obtained by using a comparison of 90% training data and 10% test data.Suatu tokoh sebagai bakal calon presiden adalah Anies Baswedan mantan gubernur DKI Jakarta yang menerima banyak penghargaan dan memiliki kebijakan program kerja yang efektif dalam permasalahan di wilayah DKI Jakarta. Komentar mengenai anies baswedan sebagai bakal calon presiden 2024 banyak dijumpai pada media sosial youtube. Youtube  menfasilitasi pengguna untuk memberikan komentar dalam menanggapi video yang dapat dijadikan sebuah informasi analisis sentimen untuk mengetahui komentar positif serta komentar negatif. Algorima yang dipakai pada penelitian ini ialah naïve bayes classifier. Terdapat lima proses utama pada penelitian ini, yaitu penghimpunan data, pembobotan kata (TF-IDF), text preprocessing, klasifikasi (naïve bayes classifier) dan pengujian. Dari 1009 data komentar di youtube berbahasa Indonsia terkait video Anies Baswedan sebagai bakal calon presiden 2024. Berdasarkan hasil analaisis, terdapat 610 komentar positif serta 399 negatif. Hasil akurasi menggunakan algoritma naïve bayes classifier sebesar 78% yang di dapat dengan menggunakan perbandingan 10% data uji serta 90% data latih

    PENDEKATAN BERBASIS KECERDASAN BUATAN DENGAN METODE NAÏVE BAYES UNTUK WEBSITE BAZNAS

    Get PDF
    Badan amil zakat nasional (BAZNAS) adalah badan resmi nasional dalam menyalurkan zakat. Zakat adalah kewajiban umat Islam. Hal tersebut dijelaskan dalam kitab suci Alquran. Zakat perlu disalurkan dengan adil. Banyaknya data penerima zakat menyebabkan penyaluran sering terkendala. Dengan klasifikasi zakat antara fakir dan miskin akan menjadi solusi untuk kendala data yang banyak. Teknik kecerdasan buatan yang digunakan pada penelitian ini adalah Naïve Bayes Classifier. Ini adalah teknik klasifikasi berdasarkan Teorema Bayes dengan asumsi independensi antar prediktor. Secara sederhana, pengklasifikasian Naive Bayes mengasumsikan bahwa keberadaan fitur tertentu di kelas tidak terkait dengan keberadaan fitur lainnya. Label data penerima zakat ini ada dua, yaitu fakir dan miskin. Kecerdasan buatan sebagai metode dalam pembuatan prototype sistem pada website BAZNAS dalam penentuan penerima zakat. Pengukuran performa metode naïve bayes classifier menggunakan confusion matrix. Hasil dari metode naïve bayes classifier dalam mengklasifikasi penerima zakat cukup baik yaitu 96%

    Sistem Pendukung Keputusan Penerimaan Bantuan Sosial Program Keluarga Harapan (PKH) dengan Menggunakan Metode Naïve Bayes Classifier (Studi Kasus di Balai Desa Bendungan Kraton Pasuruan)

    Get PDF
    Program Keluarga Harapan (PKH) adalah program pemberian uang tunai kepada Keluarga Miskin (KM) berdasarkan persyaratan dan kententuan yang telah di tetapkan dengan melaksanakan kewajibannya. Pemilihan warga penerimaan bantuan sosial di Desa Bendungan. Saat ini sering kali mengalami ketidaktepatan dalam menyeleksi warga yang mendapatkan bantuan sosial. Karena saat ini banyak warga mampu mendapatkan bantuan sosial yang mana seharusnya di berikan kepada warga yang kurang mampu untuk itu di perlukan pengelompokan berdasarkan warga mampu dan tidak mampu berdasarkan kriteria. Tujuan penelitian ini menyajikan implementasi metode Naïve Bayes Classifier pada penerimaan bantuan sosial program harapan di Desa Bendungan. Hasil penelitian menunjukkan bahwa penggunaan metode Naïve Bayes Classifier dengan data latih sebanyak 50 data dan data uji sebanyak 10 data mendapatkan hasil akurasi sebesar 80%. Dapat disimpulkan bahwa implementasi dari metode Naïve Bayes Classifier dalam penerimaan bantuan sosial mendapatkan tingkat akurasi cukup memuaskan

    Perbandingan Lexicon Based Dan Naïve Bayes Classifier Pada Analisis Sentimen Pengguna Twitter Terhadap Gempa Turki

    Get PDF
    Peristiwa bencana Gempa Turki yang menelan banyak korban jiwa sedang ramai saat ini baik di media nasional maupun media internasional, hal ini menyebabkan munculnya banyak opini pengguna sosial media teruma dalam Platform Twitter. Tweet yang diposting oleh pengguna sosial media Twitter tersebut kemudian dapat dijadikan sumber informasi yang bermanfaat. Dikarenakan hal tersebut, analisis sentimen dapat digunakan sebagai solusi untuk mengolah suara tersebut dengan menggunakan pendekatan Lexicon Based dan Naïve Bayes Classifier. Tujuan dari penelitian ini adalah untuk mengklasifikasikan pendapat tentang peristiwa Bencana Gempa yang terjadi di Turki pada 6 Februari 2023 berdasarkan kelas sentimen positif, sentimen netral dan sentimen negatif. Skenario 90:10 digunakan untuk pengujian. Hasil evaluasi menunjukkan bahwa pengujian pendekatan Lexicon Based dan Naïve Bayes Classifier menghasilkan nilai akurasi sebesar 65%. Sedangkan Naïve Bayes Classifier tanpa pendekatan Lexicon Based menghasilkan nilai akurasi sebesar 64%
    corecore