71 research outputs found

    Hybrid Keyword Extraction Algorithm and Cosine Similarity for Improving Sentences Cohesion in Text Summarization

    Full text link
    As the amount of online information increases, systems that can automatically summarize text in a document become increasingly desirable. The main goal of a text summarization is to present the main ideas in a document in less space. In the create text summarization, there are two procedures which are extraction and abstraction procedure. One of extraction procedure is using keyword extraction algorithm which is easier and common but has problems in the lack of cohesion or correlation between sentences. The cohesion between sentences can be applied by using a cosine similarity method. In this study, a hybrid keyword extraction algorithm and cosine similarity for improving sentences cohesion in text summarization has been proposed. The proposed method using compression various compression ratios is used to create candidate of the summary. The result show that proposed method could affect significant increasing cohesion degree after evaluated in the t-Test. The result also shows that 50% compression ratio obtains the best result with Recall, Precision, and F-Measure are 0.761, 0.43 and 0.54 respectively; since summary with compression ratio 50% has higher intersection with human summary than another compression ratio

    A Systematic Literature Review of Requirements Engineering for Self-Adaptive Systems

    Full text link
    During 2003 to 2013, the continuous effort of researchers and engineers particularly has resulted in a hugely grown body of work on engineering self-adaptive systems. Although existing studies have explored various aspects of this topic, no systematic study has been performed on categorizing and evaluating the requirement engineering for self-adaptive activities. The objective of this paper is to systematically investigate the research literature of requirements engineering for self-adaptive systems, summarize the research trends, categorize the used modeling methods and requirements engineering activities as well as the topics that most described. a systematic literature review has been conducted to answer the research questions by searching relevant studies, appraising the quality of these studies and extracting available data. From the study, a number of recommendations for future research in requirements engineering for self-adaptive systems has been derived. So that, enabling researchers and practitioners to better understand the research trends

    Integrasi SMOTE Dan Information Gain Pada Naive Bayes Untuk Prediksi Cacat Software

    Full text link
    Perangkat lunak banyak memainkan yang peran penting. Oleh karena itu, kewajiban untuk memastikan kualitas, seperti pengujian perangkat lunak dapat dianggap mendasar dan penting. Tapi di sisi lain, pengujian perangkat lunak adalah pekerjaan yang sangat mahal, baik dalam biaya dan waktu penggunaan. Oleh karena itu penting untuk sebuah Perusahaan pengembangan perangkat lunak untuk melakukan pengujian kualitas perangkat lunak dengan biaya minimum. Naive Bayes pada prediksi cacat perangkat lunak telah menunjukkan kinerja yang baik dan menghsilkan probabilitas rata-rata 71 persen. Selain itu juga merupakan classifier yang sederhana dan waktu yang dibutuhkan dalam proses belajar mengajar lebih cepat dari algoritma pembelajaran mesin lainnya. NASA adalah dataset yang sangat populer digunakan dalam pengembangan model prediksi cacat software, umum dan dapat digunakan secara bebas oleh para peneliti. Dari penelitian yang dilakukan sebelumnya ada dua isu utama pada prediksi cacat perangkat lunak yaitu noise attribute dan imbalance class. Penerapan teknik SMOTE (Minority Synthetic Over-Sampling Technique) menghasilkan hasil yang baik dan efektif untuk menangani ketidakseimbangan kelas pada teknik oversampling untuk memproses kelas minoritas (positif). Dan Information Gain digunakan dalam pemilihan atribut untuk menangani kemungkinan noise attribute. Setelah dilakukan percobaan bahwa penerapan model SMOTE dan Information Gain terbukti menangani imbalance class dan noise attribute untuk prediksi cacat software

    Resampling Logistic Regression Untuk Penanganan Ketidakseimbangan Class Pada Prediksi Cacat Software

    Full text link
    Software yang berkualitas tinggi adalah software yang dapat membantu proses bisnis Perusahaan dengan efektif, efesien dan tidak ditemukan cacat selama proses pengujian, pemeriksaan, dan implementasi. Perbaikan software setelah pengirimana dan implementasi, membutuhkan biaya jauh lebih mahal dari pada saat pengembangan. Biaya yang dibutuhkan untuk pengujian software menghabisakan lebih dari 50% dari biaya pengembangan. Dibutuhkan model pengujian cacat software untuk mengurangi biaya yang dikeluarkan. Saat ini belum ada model prediksi cacat software yang berlaku umum pada saat digunakan digunakan. Model Logistic Regression merupakan model paling efektif dan efesien dalam prediksi cacat software. Kelemahan dari Logistic Regression adalah rentan terhadap underfitting pada dataset yang kelasnya tidak seimbang, sehingga akan menghasilkan akurasi yang rendah. Dataset NASA MDP adalah dataset umum yang digunakan dalam prediksi cacat software. Salah satu karakter dari dataset prediksi cacat software, termasuk didalamnya dataset NASA MDP adalah memiliki ketidakseimbangan pada kelas. Untuk menangani masalah ketidakseimbangan kelas pada dataset cacat software pada penelitian ini diusulkan metode resampling. Eksperimen dilakukan untuk membandingkan hasil kinerja Logistic Regression sebelum dan setelah diterapkan metode resampling. Demikian juga dilakukan eksperimen untuk membandingkan metode yang diusulkan hasil pengklasifikasi lain seperti Naïve Bayes, Linear Descriminant Analysis, C4.5, Random Forest, Neural Network, k-Nearest Network. Hasil eksperimen menunjukkan bahwa tingkat akurasi Logistic Regression dengan resampling lebih tinggi dibandingkan dengan metode Logistric Regression yang tidak menggunakan resampling, demikian juga bila dibandingkan dengan pengkalisifkasi yang lain. Dari hasil eksperimen di atas dapat disimpulkan bahwa metode resampling terbukti efektif dalam menyelesaikan ketidakseimbangan kelas pada prediksi cacat software dengan algoritma Logistic Regression

    Penerapan Naive Bayes untuk Mengurangi Data Noise pada Klasifikasi Multi Kelas dengan Decision Tree

    Full text link
    Selama beberapa dekade terakhir, cukup banyak algoritma data mining yang telah diusulkan oleh peneliti kecerdasan komputasi untuk memecahkan masalah klasifikasi di dunia nyata. Di antara metode-metode data mining lainnya, Decision Tree (DT) memiliki berbagai keunggulan diantaranya sederhana untuk dipahami, mudah untuk diterapkan, membutuhkan sedikit pengetahuan, mampu menangani data numerik dan kategorikal, tangguh, dan dapat menangani dataset yang besar. Banyak dataset berukuran besar dan memiliki banyak kelas atau multi kelas yang ada di dunia memiliki noise atau mengandung error. Algoritma pengklasifikasi DT memiliki keunggulan dalam menyelesaikan masalah klasifikasi, namun data noise yang terdapat pada dataset berukuran besar dan memiliki banyak kelas atau multi kelas dapat mengurangi akurasi pada klasifikasinya. Masalah data noise pada dataset tersebut akan diselesaikan dengan menerapkan pengklasifikasi Naive Bayes (NB) untuk menemukan instance yang mengandung noise dan menghapusnya sebelum diproses oleh pengklasifikasi DT. Pengujian metode yang diusulkan dilakukan dengan delapan dataset uji dari UCI (University of California, Irvine) machine learning repository dan dibandingkan dengan algoritma pengklasifikasi DT. Hasil akurasi yang didapat menunjukkan bahwa algoritma yang diusulkan DT+NB lebih unggul dari algoritma DT, dengan nilai akurasi untuk masing-masing dataset uji seperti Breast Cancer 96.59% (meningkat 21,06%), Diabetes 92,32% (meningkat 18,49%), Glass 87,50% (meningkat 20,68%), Iris 97,22% (meningkat 1,22%), Soybean 95,28% (meningkat 3,77%), Vote 98,98% (meningkat 2,66%), Image Segmentation 99,10% (meningkat 3,36%), dan Tic-tac-toe 93,85% (meningkat 9,30%). Dengan demikian dapat disimpulkan bahwa penerapan NB terbukti dapat menangani data noise pada dataset berukuran besar dan memiliki banyak kelas atau multi kelas sehingga akurasi pada algoritma klasifikasi DT meningkat

    Two-Step Cluster Based Feature Discretization of Naive Bayes for Outlier Detection in Intrinsic Plagiarism Detection

    Full text link
    Intrinsic plagiarism detection is the task of analyzing a document with respect to undeclared changes in writing style which treated as outliers. Naive Bayes is often used to outlier detection. However, Naive Bayes has assumption that the values of continuous feature are normally distributed where this condition is strongly violated that caused low classification performance. Discretization of continuous feature can improve the performance of Naïve Bayes. In this study, feature discretization based on Two-Step Cluster for Naïve Bayes has been proposed. The proposed method using tf-idf and query language model as feature creator and False Positive/False Negative (FP/FN) threshold which aims to improve the accuracy and evaluated using PAN PC 2009 dataset. The result indicated that the proposed method with discrete feature outperform the result from continuous feature for all evaluation, such as recall, precision, f-measure and accuracy. The using of FP/FN threshold affects the result as well since it can decrease FP and FN; thus, increase all evaluation

    Penerapan Metode Distance Transform pada Linear Discriminant Analysis untuk Kemunculan Kulit pada Deteksi Kulit

    Full text link
    Deteksi kulit memainkan peranan penting dalam berbagai aplikasi pengolah citra, mulai dari deteksi wajah, pelacakan wajah, penyaringan konten pornografi, berdasarkan sistem pencarian citra dan berbagai domain interaksi manusia dan komputer. Pendekatan informasi warna dapat mendeteksi warna kulit dengan baik menggunakan skin probability map (SPM) dengan aturan bayes. Namun SPM memiliki permasalahan dalam mendeteksi tekstur kulit. Linear discriminant analysis (LDA) merupakan algoritma ekstraksi fitur, dalam deteksi kulit digunakan untuk mengekstrak fitur tekstur kulit yang dapat menangani masalah SPM. Namun LDA memiliki permasalahan apabila digunakan untuk mengekstrak fitur tekstur kulit pada kernel yang berbeda. Distance transform (DT) merupakan algoritma untuk menghitung jarak citra biner pada setiap pikel gambar dan fitur poin terdekatnya, DT merupakan algoritma yang dapat mengatasi masalah pada LDA. Kombinasi algoritma SPM, LDA dan DT diusulkan untuk memperbaiki performa dari kemunculan kulit pada deteksi kulit. Dataset pada metode yang diusulkan menggunakan IBTD dataset. Hasil dari metode yang diusulkan bahwa metode yang diusulkan menunjukan peningkatan akurasi deteksi kesalahan yang signifikan pada SPM dan LDA

    Pendekatan Level Data Untuk Menangani Ketidakseimbangan Kelas Pada Prediksi Cacat Software

    Full text link
    Dataset software metrics secara umum bersifat tidak seimbang, hal ini dapat menurunkan kinerja model prediksi cacat software karena cenderung menghasilkan prediksi kelas mayoritas. Secara umum ketidakseimbangan kelas dapat ditangani dengan dua pendekatan, yaitu level data dan level algoritma. Pendekatan level data ditujukan untuk memperbaiki keseimbangan kelas, sedangkan pendekatan level algoritma ditujukan untuk memperbaiki algoritma atau menggabungkan (ensemble) pengklasifikasi agar lebih konduktif terhadap kelas minoritas. Pada penelitian ini diusulkan pendekatan level data dengan resampling, yaitu random oversampling (ROS), dan random undersampling (RUS), dan mensintesis menggunakan algoritma FSMOTE. Pengklasifikasi yang digunakan adalah NaÏŠve Bayes. Hasil penelitian menunjukkan bahwa model FSMOTE+NB merupakan model pendekatan level data terbaik pada prediksi cacat software karena nilai sensitivitas dan G-Mean model FSMOTE+NB meningkat secara signifikan, sedangkan model ROS+NB dan RUS+NB tidak meningkat secara signifikan

    Penerapan Algoritma Genetika untuk Optimasi Parameter pada Support Vector Machine untuk Meningkatkan Prediksi Pemasaran Langsung

    Full text link
    Pemasaran langsung adalah proses mengidentifikasi potensi pembeli produk tertentu dan mempromosikan produk dengan sesuai. pelaksanaan pemasaran langsung dari waktu ke waktu menghasilkan data dan informasi dalam bentuk laporan yang perlu di analisis oleh manajer dalam rangka mendukung keputusan. Namun itu adalah tugas yang sulit bagi manusia untuk menganalisis data yang kompleks yang luas. Kesulitan ini menyebabkan perkembangan teknik intelejen bisnis, yang bertujuan mengklasifikasi pengetahuan yang berguna untuk mendukung pengambilan keputusan. Metode support vector machine mampu mengatasi masalah yang berdimensi tinggi, mengatasi masalah klasifikasi dan regresi dengan linier ataupun nonlinier kernel yang dapat menjadi satu kemampuan algoritma pembelajaran untuk klasifikasi serta regresi, namun support vector machine memiliki masalah dalam pemilihan parameter yang sesuai. Untuk mengatasi masalah tersebut di perlukan metode algoritma genetika untuk pemilihan parameter yang sesuai pada metode support vector machine. Beberapa eksperimen dilakukan untuk mendapatkan akurasi yang optimal. Hasil penelitian menunjukan, eksperimen dengan menggunakan metode support vector machine dan algoritma genetika yang digunakan untuk melakukan optimasi parameter C, γ dan ε dengan tiga jenis kernel. Kernel pertama tipe kernel dot dengan akurasi sebesar 85,59%, AUC sebesar 0,911 yang kedua tipe kernel radial dengan akurasi sebesar 98.89%, AUC sebesar 0,981 dan yang ketiga dengan tipe kernel Polynomial dengan akurasi sebesar 98.67% dan AUC sebesar 0.938. Hasil eksperimen tersebut menunjukan pengujian data set menggunakan penerapan algoritma genetika pada support vector machine menunjukan hasil yang lebih akurat untuk prediksi pemasaran langsung.
    • …
    corecore