29 research outputs found

    NAÏVE BAYES ALGORITHM OPTIMIZATION USING PARTICLE SWARM OPTIMIZATION (PSO) FOR COVID-19 VACCINE SENTIMENT ANALYSIS ON TWITTER

    Get PDF
    The Covid-19 vaccine is a vaccine that is quite popular, because it is the most needed and most discussed vaccine. There are 5 types of vaccines that are very popular including AstraZeneca, Moderna, Pfizer, Sinopharm and Sinovac. Sentiment analysis is a branch of text classification with computational linguistics and natural language processing that refers to a broad field, and text mining has a function to analyze opinions, judgments, sentiments, attitudes, evaluations and emotions of a person regarding an individual, organization, certain topics, services and other activities. This study aims to classify public sentiment towards the type of Covid-19 vaccine on social media Twitter, whether the opinion is positive or negative by using the Naïve Bayes algorithm based on Particle Swarm Optimization (PSO). The conclusion of this study is that the results of testing the Naïve Bayes algorithm with PSO using RapidMiner software are 79.17% accuracy, 87.69% precision, 85.07% recall for AstraZeneca vaccine, 68.82% accuracy, 92.29% precision, 71.72% recall for Moderna vaccine, 67.54% accuracy, precision 77.83%, recall 62.95% for Pfizer vaccine, accuracy 93.33%, precision 91.67%, recall 100.00% for Sinopharm vaccine, and accuracy 74.93%, precision 82.61%, recall 70.90% for Sinovac vaccine. It can be concluded that with the help of optimization PSO, the resulting confusion matrix value is greater and is proven to be more accurate. Keywords : Vaccine; Covid-19; Sentiment Analysis; Naive Bayes; Particle Swarm Optimization

    ANALISIS PERFORMA METODE CONVOLUTIONAL NEURAL NETWORK (CNN) DENGAN WORD EMBEDDING GLOVE PADA KLASIFIKASI SENTIMEN DARI TWITTER

    Get PDF
    Media sosial masih menjadi salah satu sarana yang digunakan untuk mengakses, berbagi, dan berdiskusi mengenai berbagai informasi dan isu-isu yang beredar di masyarakat. Setiap pengguna media sosial bebas untuk mengutarakan tanggapannya dalam menanggapi setiap informasi dan isu – isu yang ada. Salah satu media sosial untuk mengutarakan tanggapan atau opini yang sering digunakan adalah twitter. Tweet  Salah satu metode Deep Learning yang dapat digunakan untuk analisis sentimen adalah Convolutional Neural Network (CNN). Tujuan dari penelitian ini adalah menentukan metode terbaik dalam melakukan analisis sentiment pada data tweets yang diambil dari media social twitter dengan kata kunci kuliah daring. Metode analisis sentiment yang digunakan adalah model CNN dengan word embedding Glove dan tanpa Glove.  Hasil penelitian menunjukkan bahwa model CNN menggunakan word embedding Glove 100 dimensi mendapatkan nilai akurasi yang cukup tinggi yaitu 82.86 %, presisi 71%, F1-socre 70% dan waktu yang dibutuhkan untuk melakukan training selama 2 jam 47 menit 59 detik. Model CNN menggunakan word embedding tanpa glove memiliki nilai akurasi lebih kecil yaitu 77.46%, presisi 69% dan f1-score 69.4% dan waktu yang dibutuhkan untuk melakukan training model CNN tanpa glove membutuhkan waktu selama 5 jam 29 menit 15 detik. Berdasarkan performa model klasifikasi maka model terbaik yang diperoleh adalah model CNN dengan word embedding menggunakan Glove

    Klasifikasi Berita Online Menggunakan Metode Support Vector Machine Dan K-Nearest Neighbor

    Full text link
    Teknologi informasi merupakan salah satu hal yang tidak akan lepas dari kehidupan manusia. Tanpa adanya teknologi, manusia akan kesulitan dalam berkomunikasi dan menyampaikan informasi. Perlu adanya sistem yang secara otomatis yang dapat mengelompokkan berita sesuai dengan kategori berita dengan menggunakan text mining. Dalam penelitian ini, metode yang digunakan dalam klasifikasi adalah SVM dan KNN. KNN memiliki kelebihan dalam hal data training yang cukup banyak. Sebagai komparasi, dalam penelitian ini juga menggunakan SVM karena metode ini merupakan salah satu metode yang banyak digunakan untuk klasifikasi data, khususnya data teks. Kedua metode ini akan dibandingkan untuk mengetahui hasil ketepatan klasifikasi yang paling baik. Hasil dari penelitian ini bahwa SVM kernel linier dan kernel polynomial menghasilkan ketepatan klasifikasi yang paling baik adalah kernel polynomial. Apabila dibandingklan dengan KNN maka SVM lebih baik daripada KNN dengan hasil nilai akurasi, recall, precision dan F-Measure sebesar 93.2%, 93.2%, 93.63% dan 93.14%

    Analysis Of Twitter User Sentiment To Tiktok Shop Using Naïve Bayes And Decision Tree Algorithms

    Get PDF
    The growth of internet users is fantastic, before the pandemic the figure was only 175 million. While the latest data from the Asosiasi Penyelenggaraan Jasa Internet Indonesia (APJII), in 2022 internet users in Indonesia will reach around 210 million. One of the influences on the increasing number of internet users in Indonesia is the increasing number of buying and selling activities through internet media. At this time there are various kinds of e-commerce applications. One of the latest e-commerce in Indonesia is Tiktok Shop. Tiktok shop is a new feature of the Tiktok application which was established on April 17, 2021. The development of Tiktok shop cannot be separated from the people who use this feature. Many people give opinions about Tiktok Shop on one of the social media, namely Twitter. Twitter is a place to get data expressed by the public through tweets posted to the timeline. The data used are tweets in Indonesian with a dataset of 1000 tweets. The data is then processed to be analyzed for knowledge. The analysis is done with Naïve Bayes and Decision Tree methods. The accuracy results of the Naïve Bayes algorithm are 90% and the Decision tree algorithm is 93%, so the Decision Tree algorithm is better for classifying sentiment analysis of twitter users towards Tiktok Shop with a data division of 90%.

    Text Clustering pada Akun TWITTER Layanan Ekspedisi JNE, J&T, dan Pos Indonesia Menggunakan Metode Density-Based Spatial Clustering of Applications with Noise (DBSCAN) dan K-Means

    Get PDF
    Tingginya minat masyarakat untuk berbelanja online membuat meningkatnya layanan ekspedisi yang digunakan untuk mengirimkan produk dari transaksi secara online maupun offline. Ada banyak perusahaan ekspedisi yang populer di Indonesia misalnya JNE, J&T, dan Pos Indonesia. Perusahaan ekspedisi gencar melakukan promosi lewat media sosial, misalnya saja Twitter. Akun Twitter ini dapat digunakan sebagai media bagi pelanggan untuk memberikan pendapat, kritik maupun saran, dan bagi pihak perusahaan untuk memberikan tanggapan  maupun informasi. Analisis terhadap twitter yang dikirim, berguna bagi perusahaan untuk meningkatkan performa layanan. Dokumen twitter berupa teks sehingga diperlukan text mining untuk menganalisisnya. Dalam penelitian ini, text clustering di-gunakan untuk mengelompokkan pendapat menjadi beberapa kategori. Metode yang digunakan adalah metode K-Means dan Density-Based Spatial Clustering of Applications with Noise (DBSCAN). DBSCAN adalah sebuah metode yang membentuk cluster dari data-data yang saling berdekatan/rapat, sedangkan data yang saling berjauhan tidak akan menjadi anggota cluster. Sedangkan K-Means merupakan teknik clustering yang sederhana dan cepat dalam proses clustering obyek  serta mampu mengelompokkan data dalam jumlah yang cukup besar. Ber-dasarkan nilai silhouette coefficient, metode DBSCAN lebih baik daripada K-Means dalam mengelompokkan tweet yang ditujukan kepada layanan ekspedisi JNE, J&T, dan Pos Indonesia karena menghasilkan silhouette coefficient yang lebih tinggi

    Word Frequencies in Linguistic Articles Published in SINTA Indexed Journals

    Get PDF
      Multiword sequences are a language pattern that occurs when a bunch of words emerge in a similar register. In research papers conducted by lecturers and students, different topic areas and indexes has created various characteristics of lexical bundles. The method of this research is qualitative, combining corpus design to identify the sequence of words within the text. The corpus data were generated from five different indexing journals, yet the topic is linguistics. Initially, the whole papers were converted to text format to deal with readability in the program used. The program used was Orange Apps version 3.27 by applying the textable, data table, and text mining menus. The sources of the data are emphasized as being academic research indexed in SINTA 5, published in 2020. The main theory of used in this research is that of Biber’s (2007) which discusses the main characteristics and number of criteria for defining word strings. This observation resulted in 207.896 characters and 33.636 words. There were 4,273 words based on the pre-processing analysis result, which included transformation, tokenization, and PoS-tagging. From a total of 4,273 words, virus, deixis, and slang were the most frequently occurring. Based on these results, it can be concluded that the majority of journal articles are about viruses and slang. They pertain to the prevalent topic of pandemics at the time the journals were published. When the process of writing a journal article is in progress, this information may aid the authors in identifying the journal’s keywords and most frequent words

    Word Frequencies in Linguistic Articles Published in SINTA Indexed Journals

    Get PDF
      Multiword sequences are a language pattern that occurs when a bunch of words emerge in a similar register. In research papers conducted by lecturers and students, different topic areas and indexes has created various characteristics of lexical bundles. The method of this research is qualitative, combining corpus design to identify the sequence of words within the text. The corpus data were generated from five different indexing journals, yet the topic is linguistics. Initially, the whole papers were converted to text format to deal with readability in the program used. The program used was Orange Apps version 3.27 by applying the textable, data table, and text mining menus. The sources of the data are emphasized as being academic research indexed in SINTA 5, published in 2020. The main theory of used in this research is that of Biber’s (2007) which discusses the main characteristics and number of criteria for defining word strings. This observation resulted in 207.896 characters and 33.636 words. There were 4,273 words based on the pre-processing analysis result, which included transformation, tokenization, and PoS-tagging. From a total of 4,273 words, virus, deixis, and slang were the most frequently occurring. Based on these results, it can be concluded that the majority of journal articles are about viruses and slang. They pertain to the prevalent topic of pandemics at the time the journals were published. When the process of writing a journal article is in progress, this information may aid the authors in identifying the journal’s keywords and most frequent words

    TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB

    Get PDF
    ABSTRAKPlagiarisme dalam penulisan karya ilmiah  adalah perilaku curang yang sangat merugikan mahasiswa di sebuah perguruan tinggi. Skripsi adalah sebuah karya ilmiah yang sering menjadi objek plagiat dari kalangan mahasiswa.  Banyaknya kasus plagiat dikalangan mahasiswa sudah menjadi rahasia umum sehingga untuk menghindari hal tersebut maka perlunya dilakukan identifikasi kemiripan naskah dokumen skripsi. Dibutuhkan sebuah system yang dapat mendeteksi tingkat kemiripan judul skripsi. Algoritma K-Nearest Neighbor yang digunakan dalam klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek data training yang telah dilatih untuk menghasilkan nilai kemiripan naskah dokumen skripsi. Algoritma text mining dapat digunakan dalam melakukan pendeteksian naskah dokumen skripsi yaitu dengan mencari nilai cosine similarity. Melalui sistem ini, diharapkan mahasiswa prodi Teknik Informatika dan univesitas Almuslim dapat melihat tingkat persentase kesamaan naskah document skripsi dengan document yang telah ada sehingga dapat menghindari plagiasi. Sistem ini diharapkan mampu mengidentifikasi dan menglasifikasikan kemiripan naskah skripsi yang satu dengan yang lainnya dan disertai nilai kemiripan judul berdasarkan bobot serta akan memberikan informasi mengenai daftar judul skripsi yang telah ada. Dalam penerapan text mining dalam mengklasifikasi dokumen naskah skripsi sesuai dengan tingkat kemiripan judul dan studi kasus. Hal ini dilakukan sebelum naskah skripsi tersebut dipublikasikan atau disidangkan sehingga dapat meminimalisir tingkat kecurangan mahasiswa dalam menulis karya ilmiah. Hal ini dengan dilihat dari tingkat presentase kesamaan judul antara satu mahasiswa dengan mahasiswa yang lain. Tujuan penelitian ini adalah agar memudahkan pihak prodi, fakultas dan universitas dalam melihat kesamaan tingkat document skripsi berbasis web dan dari pihak mahasiswa dapat melihat presesntase nilai kemiripan dengan naskah documen skripsi yang telah ada. Sehingga semua dokumen skripsi jurusan informatika unimal dan skripsi yang ada di universitas almuslim terhindar dari tindak plagiarisme. Kata kunci: Skripsi, Identifikasi, Cosine Similarity, K-Nearest Neighbo
    corecore