PHÂN LOẠI THƯ RÁC VỚI GIẢI THUẬT BOOSTING CÂY QUYẾT ĐỊNH NGẪU NHIÊN XIÊN PHÂN ĐƠN GIẢN

Abstract

Trong bài viết này chúng tôi đưa ra hướng tiếp cận học tự động để phát hiện thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Boosting of Random Oblique Decision Stump). Để thực hiện, đầu tiên phải tạo ra tập dữ liệu gồm một bộ sưu tập các thư rác và thư không phải là thư rác. Kế tiếp thực hiện tiền xử lý dữ liệu, bao gồm các bước phân tích từ vựng, chọn tập hợp từ hữu dụng để phân loại thư rác, xây dựng mô hình túi từ. Bước tiền xử lý sinh ra tập dữ liệu có số chiều rất lớn, chúng tôi đề nghị giải thuật mới có tên là Boosting cây quyết định ngẫu nhiên xiên phân đơn giản cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm trên tập dữ liệu thực thu thập từ 1143 thư rác và 778 thư không phải thư rác cho thấy giải thuật do chúng tôi đề nghị phân lớp chính xác hơn so với giải thuật SVM và Naùve Bayes qua các tiêu chí so sánh như Accuracy, F1-Measure, Precision, TP Rate và TN Rate

    Similar works