19 research outputs found

    Sentiment analysis of comments in social media

    Get PDF
    Social media platforms are witnessing a significant growth in both size and purpose. One specific aspect of social media platforms is sentiment analysis, by which insights into the emotions and feelings of a person can be inferred from their posted text. Research related to sentiment analysis is acquiring substantial interest as it is a promising filed that can improve user experience and provide countless personalized services. Twitter is one of the most popular social media platforms, it has users from different regions with a variety of cultures and languages. It can thus provide valuable information for a diverse and large amount of data to be used to improve decision making. In this paper, the sentiment orientation of the textual features and emoji-based components is studied targeting “Tweets” and comments posted in Arabic on Twitter, during the 2018 world cup event. This study also measures the significance of analyzing texts including or excluding emojis. The data is obtained from thousands of extracted tweets, to find the results of sentiment analysis for texts and emojis separately. Results show that emojis support the sentiment orientation of the texts and that texts or emojis cannot separately provide reliable information as they complement each other to give the intended meaning

    Integrasi Metode Information Gain untuk Seleksi Fitur dan AdaBoost untuk Mengurangi Bias pada Analisis Sentimen Review Restoran Menggunakan Algoritma Naive Bayes

    Full text link
    Internet merupakan bagian penting dari kehidupan sehari-hari. Saat ini, tidak hanya dari anggota keluarga dan teman-teman, tetapi juga dari orang asing yang berlokasi diseluruh dunia yang mungkin telah mengunjungi restoran tertentu. Konsumen dapat memberikan pendapat mereka yang sudah tersedia secara online. Ulasan yang terlalu banyak akan memakan banyak waktu dan pada akhirnya akan menjadi bias. Klasifikasi sentimen bertujuan untuk mengatasi masalah ini dengan cara mengklasifikasikan ulasan pengguna ke pendapat positif atau negatif. Pengklasifikasi Naive Bayes adalah tekhnik machine learning yang populer untuk klasifikasi teks, karena sangat sederhana, efisien dan memiliki performa yang baik pada banyak domain. Namun, Naive Bayes memiliki kekurangan yaitu sangat sensitif pada fitur yang terlalu banyak, sehingga membuat akurasi menjadi rendah. Oleh karena itu, dalam penelitian ini menggunakan Information Gain sebagai seleksi fitur dan metode AdaBoost untuk mengurangi bias agar dapat meningkatkan akurasi pengklasifikasi Naive Bayes. Penelitian ini menghasilkan klasifikasi teks dalam bentuk positif dan negatif dari review restoran. Pengukuran berdasarkan akurasi Naive Bayes sebelum dan sesudah penambahan metode pemilihan fitur. Validasi dilakukan dengan menggunakan 10 fold cross validation. Sedangkan pengukuran akurasi diukur dengan confusion matrix dan kurva ROC. Hasil penelitian menunjukkan peningkatan akurasi Naive Bayes dari 73.00% jadi 81.50% dan nilai AUC dari 0.500 jadi 0.887. Sehingga dapat disimpulkan bahwa integrasi metode Information Gain dan AdaBoost pada analisis sentimen review restoran ini mampu meningkatkan akurasi algoritma Naive Bayes

    Towards the Automatic Processing of Language Registers: Semi-supervisedly Built Corpus and Classifier for French

    Get PDF
    International audienceLanguage registers are a strongly perceptible characteristic of texts and speeches. However, they are still poorly studied in natural language processing. In this paper, we present a semi-supervised approach which jointly builds a corpus of texts labeled in registers and an associated classifier. This approach relies on a small initial seed of expert data. After massively retrieving web pages, it iteratively alternates the training of an intermediate classifier and the annotation of new texts to augment the labeled corpus. The approach is applied to the casual, neutral, and formal registers, leading to a 750M word corpus and a final neural classifier with an acceptable performance

    Semi-supervised sentiment clustering on natural language texts

    Get PDF
    In this paper, we propose a semi-supervised method to cluster unstructured textual data called semi-supervised sentiment clustering on natural language texts. The aim is to identify clusters homogeneous with respect to the overall sentiment of the texts analyzed. The method combines different techniques and methodologies: Sentiment Analysis, Threshold-based Naïve Bayes classifier, and Network-based Semi-supervised Clustering. It involves different steps. In the first step, the unstructured text is transformed into structured text, and it is categorized into positive or negative classes using a sentiment analysis algorithm. In the second step, the Threshold-based Naïve Bayes classifier is applied to identify the overall sentiment of the texts and to define a specific sentiment value for the topics. In the last step, Network-based Semi-supervised Clustering is applied to partition the instances into disjoint groups. The proposed algorithm is tested on a collection of reviews written by customers on Booking.com. The results have highlighted the capacity of the proposed algorithm to identify clusters that are distinct, non-overlapped, and homogeneous with respect to the overall sentiment. Results are also easily interpretable thanks to the network representation of the instances that helps to understand the relationship between them

    KOMPARASI ALGORITMA KLASIFIKASI TEXT MINING UNTUK ANALISIS SENTIMEN PADA REVIEW RESTORAN

    Get PDF
    Situs review online terus bertambah populer karena semakin banyak orang mencari saran dari sesama pengguna mengenai layanan dan produk. Sejumlah penelitian beberapa tahun terakhir juga sudah berkembang dalam bidang analisis sentimen guna menemukan solusi yang tepat dalam membuat sistem yang dapat secara otomatis menganalisis review di intenet dan mengekstrak informasi yang paling relevan bagi pengguna. Dalam penelitian sebelumnya mengenai analisis sentimen pada review restoran, akurasi algoritma Naive Bayeslebih unggul dari Support Vector Machine. Pada penelitian ini digunakan dua algoritma, yakni NaĂŻve Bayes dan Support Vector Machine. Tujuannya adalah untuk menentukan algoritma terbaik yang bisa digunakan untuk data review teks bahasa Indonesia. Dari hasil pengolahan data, algoritma NaĂŻve Bayes lebih unggul dari Support Vector Machine dengan tingkat akurasi sebesar 87%. Sedangkan algoritma Support Vector Machine hanya menghasilkan akurasi 56%. Penulis membuat aplikasi analisis sentiment menggunakan bahasa pemrograman Java sebagai penunjang penelitian
    corecore