research

Pengecaman Tulisan Tangan Teksjawi Menggunakan Pengkelas Multiaras

Abstract

Pengecaman tulisan tangan teks Jawi adalah satu tugas yang sangat mencabar di dalam bidang Pengecaman Aksara Optik (PAO) disebabkan Jawi adalah satu tulisan jenis bersambung. Tesis ini mengenegahkan teknik untuk memperbaiki kadar pengecaman teks Jawi tulisan tangan. Skema barn yang lebih cekap untuk prapemprosesan, penemberengan, penyarian fitur dan pemonnalan aksara, dan pengkelasan telah direka untuk memenuhi objektif tersebut. Dntuk prapemprosesan, kaedah pembetulan pencongan dan erotan menggunakan kaedah histogram orientasi cerunan (HOC) yang asalnya digunakan untuk dokumen Latin telah dimasukkan sebagai satu daripada modul prapemprosesan. Satu skema barn untuk penemberengan telah diperkenalkan. Ia berasaskan kepada gabungan kaedah unjuran profail histogram dan penentuan titik tembereng ubah suai (PIT) membentuk kaedah penentuan titik tembereng (PTT). Fitur-fitur disarikan daripada aksara yang telah ditemberengkan menggunakan tiga jenis fitur. Fitur-fitur ini ialah struktur, fitur Momen Tak-berubah (MTB) dan Taburan Pilrsel Hitam (TPH). Algoritma penyingkiran bahagian sekunder aksara Jawi (seperti titik-titik, A" " dan maddah) juga telah diperkenalkan supaya dapat mengelakkan daripada salah cam sekunder ini.Ia perlu dipisahkan terlebih dahulu sebelum melalui proses p'engecaman. Hal ini dapat mengurangkan bilangan kelas aksara Jawi daripada 124 kepada 60. Sebanyak 200 sampel setiap kelas aksara Jawi telah diujikan untuk tujuan pengkelasan. Dua aras sistem pengkelasan terdiri daripada Pengkelas Kumpulan berasaskan Ukuran Keserupaan (PKUK) dan Pengkelas berganda Genetik-Perambat-balik (PGPB). Di aras pertama, PKUK menggunakan fitur struktur dan MTB untuk mengelompokkan kesemua aksara. Tujuh jenis primitif diperoleh menggunakan fitur struktur, dan proses pengelompokan berdasarkan kepada jenis primitif ini. Fitur MTB digunakan untuk mengirakan ukuran keserupaan dan kemudian menentukan kadar pengkelasan untuk setiap kumpulan. Setelah kesemua sampel aksara telah dikelompokkan, PGPB digunakan untuk mengkelaskan setiap aksara dalam kumpulan masing-masing dan dilarikan secara berasingan. Kelas aksara yang terbanyak ialah 14 aksara. Di aras kedua, PGPB dilaksanakan dalam dua peringkat iaitu peringkat pembelajaran, dan peringkat ujian. Di peringkat pembelajaran, pengkelasan ini menggunakan fitur MTB dan TPH, manakala di peringkat ujian pengkelas ini menggunakan maklumat tambahan iaitu maklumat yang diperoleh ketika menyingkirkan juzuk sekunder, dan di samping fitur MTB serta TPH. Pemecahan masalah ini kepada dua aras telah mengurangkan masa pembelajaran yang diambil oleh pengkelas dan beIjaya menambah kadar pengecaman. Tesis ini membicarakan secara terperinci setiap algoritma dan prestasinya terhadap sampel yang digunakan didalam ujikaji. Perbandingan juga dibuat terhadap kaedah pengawalan pemberat PB menggunakan pendekatan Sifar, Rawak, serta Rawak Nguyen-Widrow, di samping pendekatan ubah suai AG. Prestasi menggunakan AG (ubah suai) memberikan hasil pengkelasan yang dijanjikan

    Similar works