11 research outputs found

    Joint Distribution pada Weighted Majority Vote (WMV) untuk Peningkatan Kinerja Sentiment Analysis Tersupervisi pada Dataset Twitter

    Get PDF
    Sentiment analysis adalah teknik komputasi text mining berbasis natural language processing (NLP) untuk mengekstraksi pendapat seseorang yang diungkapkan dalam platform online, termasuk dalam platform microblogging Twitter, salah satu platform microblogging yang paling popular digunakan di Indonesia. Ada dua pendekatan yang umum digunakan dalam teknik sentiment analysis yaitu pendekatan berbasis machine learning (ML) dan pendekatan berbasis sentiment lexicon (SL). Fokus penelitian ini adalah untuk pengembangan teknik sentiment analysis berbasis machine learning yang disebut juga teknik tersupervisi pada dataset Twitter. Sebagian besar sentiment analysis pada dataset Twitter berbahasa Indonesia mengandalkan single machine learning algorithm. Penelitian ini menggabungkan kinerja berbagai algoritma/experts seraya mengurangi tingkat kesalahan klasifikasi dengan meng-update bobot secara dinamis menggunakan weighted majority vote (WMV) berbasis joint distribution dari Bayesian Network. Pada tahap pertama, data di grabbing dari Twitter dengan 3 hashtag terkait Covid-19 sebagai data eksperimen. Selanjutnya kinerja weighted majority vote secara ekstensif dibandingkan dengan 4 metode baseline sebagai pembanding, yaitu: Naïve Bayes, Gaussian Naïve Bayes, Multinomial Naïve Bayes dan Majority Vote dari ketiga single classifier tersebut. Metrics kinerja yang digunakan adalah precision, recall, fmeasure, accuracy dan Mathews correlation coeficient (MCCC). Dalam eksperimen, terbukti bahwa WMV mampu meningkatkan kinerja sentiment analysis pada ketiga topik dataset dengan evaluator berbagai metrics kinerja sentiment analysis. AbstractSentiment analysis is a computational text mining technique based on natural language processing (NLP) to extract someone's opinion expressed in online platforms, including the Twitter microblogging platform, one of the most popular microblogging platforms used in Indonesia. There are two approaches that are commonly used in sentiment analysis techniques, namely the machine learning (ML) based approach and the sentiment lexicon (SL) based approach. The focus of this research is the development of machine learning-based sentiment analysis techniques which are also called supervised techniques on the Twitter dataset. Most of the sentiment analysis on the Indonesian language Twitter dataset relies on a single machine learning algorithm. This study combines the performance of various algorithms/experts while reducing the level of misclassification by updating the weights dynamically using a joint distribution-based weighted majority vote (WMV) from the Bayesian Network. In the first stage, data was grabbed from Twitter with 3 hashtags related to Covid-19 as experimental data. Furthermore, the performance of the weighted majority vote was extensively compared with 4 baseline methods for comparison, namely: Naïve Bayes, Gaussian Naïve Bayes, Multinomial Nave Bayes and Majority Vote from the three single classifiers. Performance metrics used are precision, recall, fmeasure, accuracy and Mathews correlation coeficient. In experiments, it is proven that WMV is able to improve sentiment analysis performance on the three dataset topics with various evaluators of sentiment analysis performance metrics

    Sentiment Analysis pada Movie Review dengan Pendekatan Klasifikasi dalam Algoritma J.48

    Get PDF
    Sentiment Analysis yang disebut juga sebagai Opinion Mining adalah topik penelitian yang aktif di bawah Natural Language Processing (NLP) yang bertujuan untuk membangun sebuah metode yang dapat diimplementasikan menjadi sebuah tool yang dapat dipergunakan untuk mengekstraksi informasi subyektif berupa sentiment atau opini dalam sebuah data text. Pada penelitian ini akan disimulasikan Sentiment Analysis dengan pendekatan klasifikasi data text. Data text yang digunakan adalah Large Movie Review Dataset. Simulasi Sentiment Analysis dengan pendekatan klasifikasi data text akan dilakukan dengan menggunakan tool dari WEKA.Kata kunci: Hidden Naïve Bayes, Naïve Bayes Classifie

    Pengaruh Seleksi Fitur Pada Skema Klasifikasi Naive Bayes Berbasis Gaussian dan Kernel Density

    Get PDF
    Penyakait diabetes termasuk salah satu jenis penyakit yang perlu diwaspadai karena memiliki tingkat prevalensi yang cukup tinggi. Sebagai upaya deteksi dini penyakit diabetes, pada penelitian ini digunakan Hidden Naïve Bayes sebagai metode untuk klasifikasi penyakit diabetes. Hasil pengujian menunjukkan bahwa Hidden Naïve Bayes dapat digunakan untuk klasifikasi penyakit diabetes dengan kinerja yang lebih baik dibandingkan Naïve Bayes Classifier

    Klasifikasi Data Cardiotocography dengan Integrasi Metode Neural Network dan Particle Swarm Optimization

    Get PDF
    Backpropagation (BP) adalah sebuah metode yang digunakan dalam training Neural Network (NN) untuk menentukan parameter bobot yang sesuai. Proses penentuan parameter bobot dengan menggunakan metode backpropagation sangat dipengaruhi oleh pemilihan nilai learning rate (LR)-nya. Penggunaan nilai learning rate yang kurang optimal berdampak pada waktu komputasi yang lama atau akurasi klasifikasi yang rendah. Penelitian ini mengusulkan algoritma ParticleSwarm Optimization (PSO) dalam training Neural Network untuk optimasi penentuan nilai bobot Neural Network dalam klasifikasi data Cardiotocography. Principal Component Analysis (PCA) diimplementasikan untuk reduksi fitur data Cardiotocography. Berdasarkan hasil uji coba, implementasi Principal Component Analysis mampu meningkatkan akurasi klasifikasi sebesar rerata 0.04%. Sedangkan optimasi Particle Swarm Optimization pada proses training Neural Network menghasilkan peningkatan kecepatan komputasi sebesar rerata 6 kali pada berbagai jumlah Neuron dan nilai learning rate yang berbeda dengan nilai perbedaan akurasi klasifikasi yang tidak signifikan

    Seleksi Fitur Dua Tahap Menggunakan Information Gain dan Artificial Bee Colony untuk Kategorisasi Teks Berbasis Support Vector Machine

    Get PDF
    Salah satu problem yang dihadapi dalam kategorisasi teks adalah dimensi data yang besar yang menyebabkan terjadinya inefisiensi dalam aspek waktu komputasi. Untuk mengatasi hal tersebut, salah satu hal yang bisa dilakukan adalah seleksi fitur pada tahap pre- processing. Pada penelitian ini diusulkan seleksi fitur dua tahap dengan Information Gain dan Artificial Bee Colony. Kategorisasi teks dilakukan dengan Support Vector Machine. Hasil uji coba pada Dataset Reuter21578 menunjukkan adanya peningkatan Precision sebesar rata-rata 15% dan Recall sebesar rata-rata 13% dibandingkan metode pembanding yaitu PSO-SVM

    BLOCKCHAIN TECHNOLOGY IN THE DIGITAL MARKETING SECTOR

    Get PDF
    Similar to the internet, blockchain technology could be the next digital revolution. Blockchains offer tremendous potential, which is why numerous businesses have begun implementing this technology. With the internet enabling the transmission of information, blockchain enables the communication of value. Blockchain is not only associated with cryptocurrencies; thanks to this technology, businesses may increase brand value. As blockchain is a developing technology, there are still numerous possible applications. This has prompted us to investigate the viability of implementing blockchain in the marketing industry. This study examines the application of blockchain technology in the digital marketing industry. This study employs a qualitative approach and descriptive methodologies. The survey results indicate that blockchain is very effective in digital marketing since it may increase consumer trust. This is because blockchain technology guarantees the honesty and integrity of data. In addition, blockchain technology eliminates intermediaries, making the marketing process more straightforward, cheaper, faster, and more accessible

    Modelling Service Quality of Internet Service Providers during COVID-19: The Customer Perspective Based on Twitter Dataset

    No full text
    Internet service providers (ISPs) conduct their business by providing Internet access features to their customers. The COVID-19 pandemic has shifted most activity being performed remotely using an Internet connection. As a result, the demand for Internet services increased by 50%. This significant rise in the appeal of Internet services needs to be overtaken by a notable increase in the service quality provided by ISPs. Service quality plays a great role for enterprises, including ISPs, in retaining consumer loyalty. Thus, modelling ISPs’ service quality is of great importance. Since a common technique to reveal service quality is a timely and costly pencil survey-based method, this work proposes a framework based on the Sentiment Analysis (SA) of the Twitter dataset to model service quality. The SA involves the majority voting of three machine learning algorithms namely Naïve Bayes, Multinomial Naïve Bayes and Bernoulli Naïve Bayes. Making use of Thaicon’s service quality metrics, this work proposes a formula to generate a rating of service quality accordingly. For the case studies, we examined two ISPs in Indonesia, i.e., By.U and MPWR. The framework successfully extracted the service quality rate of both ISPs, revealing that By.U is better in terms of service quality, as indicated by a service quality rate of 0.71. Meanwhile, MPWR outperforms By.U in terms of customer service

    Sentimen Analisis Untuk Mengukur Kepercayaan Masyarakat Terhadap Pengadaan Vaksin Covid-19 Berbasis Bernoulli Naive Bayes

    No full text
    Penelitian ini berisi tentang analisis sentimen masyarakat Indonesia pada Twitter terhadap kebijakan pemerintah dalam menangani kasus pandemi covid-19. Penelitian ini menggunakan metode Bernoulli Naive Bayes dalam melakukan pemodelan dan pengujian klasifikasi terhadap data sentimen. Digunakan juga metode pengukuran performa akurasi, presisi dan recall untuk mengukur performa metode Bernoulli Naive Bayes. Pada pembagian dan skenario pengujian digunakan teknik K Fold Cross Validation dengan nilai k = 2, 4, 5, 8 dan 10. ketidakseimbangan data dalam penelitian ini diselesaikan dengan menggunakan teknik Synthetic Minority Oversampling Technique (SMOTE). Dari hasil pengujian dengan model tanpa menggunakan teknik Synthetic Minority Oversampling Technique (SMOTE) diperoleh hasil dengan tingkat akurasi sebesar 80.58%, tingkat presisi sebesar 80.33% dan tingkat recall sebesar 85.57%. sedangkan hasil pengujian dengan menggunakan teknik Synthetic Minority Oversampling Technique (SMOTE) pada pemodelan, diperoleh tingkat akurasi 80.20%, tingkat presisi 78.04% dan tingkat recall 86.77%. &nbsp

    Automatic Assessment of Technology Readiness Level Using LLDA-Helmholtz for Ranking University

    No full text
    The assessment process of Technology Readiness Level using the questionnaire-based tool for Indonesian university's academic papers is considered to be labor-intensive. This paper introduces a new method of determining the TRL of an academic paper based on a text mining technique. The content of the research paper represented by their abstract published by university lecturers is justified to represent the technology maturity of research. Abstracts of papers were collected from the nine most reputable universities in Indonesia. By utilizing Labelled Latent Dirichlet Allocation, the abstracts were categorized into 1 of 9 levels of TRL. To determine the prior label of LLDA, we built a corpus of keywords representing each TRL level based on Bloom Taxonomy. Beforehand, Helmoltz principle was utilized to select the text feature. Since Bloom Taxonomy has only six levels, we split the keywords into 9 level. Afterward, the reputation score is calculated using our formula. Lastly, the university ranking is generated according to the extracted academic reputation score. To evaluate the proposed method, we compare our rank with QS’s. We calculate the ranking gap and Pearson correlation to evaluate the result. Helmholtz has successfully pruned 86% of features. The utilization of Helmholtz significantly improves the Pearson correlation of our proposed method. In short, the new insight of university ranking introduced in this work is promising. For all indicator experiments, LLDA-Helmholtz performed better results indicated by 0.95 Pearson correlation between two rankings, while for LLDA without Helmhotz, the correlation is 0.78
    corecore