16 research outputs found

    Two Text Classifiers in Online Discussion: Support Vector Machine vs Back-Propagation Neural Network

    The purpose of this research is to compare the performance of two text classifiers; support vector machine (SVM) and back-propagation neural network (BPNN) within categorize messages from an online discussion. SVM has been recognized as one of the best algorithm for text categorization. BPNN is also a popular categorization method that can handle linear and non linear problems and can achieve good result. However, using SVM and BPNN in online discussion is rare. In this research, several SVM data are trained in multi-class categorization to classify the same set with BPNN. The effectiveness of these two text classifiers are measured and then statistically compared based on error rate, precision, recall and F-measure. The experimental result shows that for text message categorization in online discussion, the performances of SVM outperform BPNN in term of error rate and precision; and falls behind BPNN in term of recall and F-measure

    Text Message Categorization of Collaborative Learning Skills in Online Discussion using Neural Network

    This paper presents research in neural network approach for text messages categorization of collaborative learning skill in an online discussion. Although a neural network is a popular method for text categorization in the research area of machine learning, unfortunately, the use of neural network in educational settings is rare. Usually, text categorization by neural network is employed to categorize news articles, emails, product reviews, and web pages. In an online discussion, text categorization that is used to classify the message sent by the student into a certain category is often manual, requiring skilled human specialists. However, human categorization is not an effective way for a number of reasons; time- consuming, labor-intensive, lack of consistency in a category, and costly. Therefore, this paper proposes a neural network approach to code the message automatically. Results show that neural networks achieving useful classification on eight categories of collaborative learning skills in an online discussion as measured based on precision, recall, and balanced F-measure

    Topic identification using filtering and rule generation algorithm for textual document

    Information stored digitally in text documents are seldom arranged according to specific topics. The necessity to read whole documents is time-consuming and decreases the interest for searching information. Most existing topic identification methods depend on occurrence of terms in the text. However, not all frequent occurrence terms are relevant. The term extraction phase in topic identification method has resulted in extracted terms that might have similar meaning which is known as synonymy problem. Filtering and rule generation algorithms are introduced in this study to identify topic in textual documents. The proposed filtering algorithm (PFA) will extract the most relevant terms from text and solve synonym roblem amongst the extracted terms. The rule generation algorithm (TopId) is proposed to identify topic for each verse based on the extracted terms. The PFA will process and filter each sentence based on nouns and predefined keywords to produce suitable terms for the topic. Rules are then generated from the extracted terms using the rule-based classifier. An experimental design was performed on 224 English translated Quran verses which are related to female issues. Topics identified by both TopId and Rough Set technique were compared and later verified by experts. PFA has successfully extracted more relevant terms compared to other filtering techniques. TopId has identified topics that are closer to the topics from experts with an accuracy of 70%. The proposed algorithms were able to extract relevant terms without losing important terms and identify topic in the verse

    Analisis Sentimen Maskapai Penerbangan Menggunakan Metode Naive Bayes dan Seleksi Fitur Information Gain

    Zaman sekarang tren masyarakat untuk memesan tiket pesawat sudah melalui situs-situs booking online. Pegipegi.com merupakan salah satu website yang menyediakan pemesanan tiket dan menyediakan fitur ulasan bagi pengunjung untuk menyampaikan opini. Pengunjung lain yang membaca ulasan-ulasan tersebut dapat memperoleh gambaran secara lebih objektif mengenai maskapai penerbangan. Ulasan pengguna yang terdapat pada website pegipegi.com saat ini sudah sangat banyak sehingga hal ini menyulitkan dan memakan waktu untuk membaca secara keseluruhan. Oleh karena itu dirancang analisis sentimen guna membantu mengklasifikasi ulasan kedalam kategori positif atau negatif sehingga dapat memberikan rekomendasi maskapai penerbangan berdasarkan jumlah kategori ulasan. Metode yang diterapkan untuk klasifikasi sentimen adalah Naïve Bayes dengan seleksi fitur Information Gain. Adapun tujuan dari penelitian ini adalah mengetahui pengaruh dari pemilihan fitur Information Gain terhadap akurasi klasifikasi dan membuktikan bahwa metode Naïve Bayes dengan Information Gain dapat digunakan untuk klasifikasi analisis sentimen. Hasil pengujian yang telah dilakukan menunjukkan bahwa nilai rata-rata akurasi, precision, recall setelah penambahan Information Gain menunjukkan hasil yang lebih baik sebesar 0,865 jika dibandingkan sebelum penambahan information gain yakni sebesar 0,81. AbstractNowadays people tend to order airplane tickets through online booking sites. Pegipegi.com is a website that provides ticket reservations and a review section for visitors to express their opinions. Other visitors who read the reviews can get a more objective picture of airlines. The user reviews contained on the pegipegi.com website are currently very large so this makes it difficult and time consuming to read in its entirety. Therefore sentiment analysis is designed to help classify reviews into positive or negative categories so that they can provide airline recommendations based on the number of review categories. The method applied for sentiment classification is Naïve Bayes with the Information Gain feature selection. The purpose of this study was to determine the effect of selecting the Information Gain feature on classification accuracy and prove that the Naïve Bayes method with Information Gain can be used for the classification of sentiment analysis. The results of the tests that have been done show that the average value of accuracy, precision, recall after adding Information Gain shows better results of 0.865 compared to the addition of information gain which is equal to 0.81


    Lagu merupakan sebuah salah satu elemen yang paling berpengaruh dalam menentukan ekspresi dan emosi. Dengan elemen yang bersifat audio dan dapat di representasikan maknanya yang lebih kuat dalam lirik lagu. Klasifikasi lagu dapat dilakukan dengan menggunakan lirik lagu sebagai media yang digunakan untuk mengklasifikasi ekspresi dan emosi seseorang. Dengan menggunakan model Emotion Ontology Thayer Model, klasifikasi text processing digunakan dengan menerapkan fiture part-of-speech dalam proses pre processing dengan Support Vector Machine sebagai algoritma untuk mengklasifikasikan ekspresi dan emosi sebuah lagu. Diharapkan dengan menggunakan Support Vector Machine dapat meningkatkan akurasi hasil klasifikasi. Kata Kunci : Lirik Lagu, Text Processing, part-of-speech, Support Vector Machine

    Clasificación de textos informáticos mediante indexación semántica latente

    Debido a la ingente cantidad de información en la web, se requiere de un mecanismo para recuperar contenidos relacionados entre sí en función de su significado semántico. La clasificación de textos tiene como objetivo asociar textos considerando no solo palabras o términos, sino también conceptos. En esta investigación, se presenta una aplicación que crea una matriz de aproximación que contiene información latente relacionada al concepto. De allí el nombre de indexación semántica latente (ISL). Asimismo, dispone de un árbol morfológico que contiene, en cada nodo, una raíz morfológica y un apuntador que se dirige a un conjunto de textos o términos asociados a la misma raíz. Cuando se ingresa un texto, se le clasifica considerando la técnica de análisis léxico e ISL

    Recruitment and Intelligent System

    The Carrier Centre is information, analytical and organizational support of job placements of students and graduates. The information system for supporting all main activities was developed. Nowadays the system strengthens links between students and companies as repository of the CVs and vacancies. On the other side the system should be as a virtual recruiter that take into account student’s personal abilities and preferences, available jobs, Company profiles, local labour market infrastructure, industrial and technological trends, account job specification, available human resource to provide the effective decisions on employment. This paper presents the intelligent management system based on text mining methods for supporting recruitment services.«Кар’єра – Центр» – це інформаційна, аналітична і організаційна допомога в працевлаштуванні студентів і випускників. Була створена інформаційна система для підтримки всіх основних видів діяльності. В даний час система зміцнює зв’язки між студентами і компаніями як сховище резюме і вакансій. З іншого боку, система повинна бути як віртуальний рекрутер, який бере до уваги особисті здібності і переваги студента, доступні робочі місця, профілі компанії, місцеву інфраструктуру трудового ринку, індустріальні і технологічні тенденції, рахує специфікацію роботи, доступний людський ресурс, щоб забезпечити ефективні рішення у сфері зайнятості. Ця стаття представляє інтелектуальну систему управління, засновану на методах обробки тексту для підтримки рекрутер-сервісів.«Карьера – Центр» – это информационная, аналитическая и организационная помощь в трудоустройстве студентов и выпускников. Была создана информационная система для поддержки основных видов деятельности. В настоящее время система укрепляет связи между студентами и компаниями как хранилище резюме и вакансий. С другой стороны, система должна быть как виртуальный рекрутер, который принимает во внимание личные способности и предпочтения студента, доступные рабочие места, профили компании, местную инфраструктуру трудового рынка, индустриальные и технологические тенденции, считает спецификацию работы, доступный человеческий ресурс, чтобы обеспечить эффективные решения в области занятости. Эта статья представляет интеллектуальную систему управления, основанную на методах обработки текста для поддержки рекрутер-сервисов

    Analisis Dan Implementasi Support Vector Machine Dengan String Kernel Dalam Melakukan Klasifikasi Berita Berbahasa Indonesia

    Kebutuhan analisis text mining sangat diperlukan dalam menangani teks yang tidak terstruktur tersebut. Salah satu kegiatan penting dalam text mining adalah klasifikasi atau kategorisasi teks. Analisis text mining ini dilakukan agar mempermudah kita dalam mengambil informasi atau mengelolah informasi yang begitu banyak dari dunia internet atau digital, salah satu nya dengan melakukan klasifikasi dengan data yang sudah tersedia. Kategorisasi teks memiliki berbagai cara untuk melakukan pendekatan antara lain pendekatan probabilistic, support vector machine, artificial neural network, atau decision tree classification. Dalam pembelajaran statistik. Support Vector Machine dipilih karena metode ini memiliki kelebihan dalam bidang klasifikasi dengan bantuan kernel. Pada tugas akhir ini support vector machine akan mengelompokkan berita berdasarkan topik menjadi 3 bagian atau class yaitu : pemerintahan, ekonomi dan olahraga. Kernel pada Support Vector Mechine akan di kombinasikan dengan stopword, tokenisasi, tf-idf, chi-square diharapkan memudahkan untuk mengenali berita tersebut tergelong masuk ke dalam kelas topik yang seharusnya. Dengan trik kernel dan bantuan metode pembobotan, Dokumen Frekuensi,Chi square diharapkan dapat membantu klasifikasi teks dengan baik yang non linear serta mampu meningkatkan akurasi, dengan demikian klasifikasi dengan metode support vektor machine dapat akurasi tertinggi dengan kombinasi stopword, tokenizing, term frequency & chi-square 47,43 %. Kata Kunci : text mining, support vector machine, tf-idf, chi square, stopword, tokenisasi