321 research outputs found

    Language Modeling by Clustering with Word Embeddings for Text Readability Assessment

    Full text link
    We present a clustering-based language model using word embeddings for text readability prediction. Presumably, an Euclidean semantic space hypothesis holds true for word embeddings whose training is done by observing word co-occurrences. We argue that clustering with word embeddings in the metric space should yield feature representations in a higher semantic space appropriate for text regression. Also, by representing features in terms of histograms, our approach can naturally address documents of varying lengths. An empirical evaluation using the Common Core Standards corpus reveals that the features formed on our clustering-based language model significantly improve the previously known results for the same corpus in readability prediction. We also evaluate the task of sentence matching based on semantic relatedness using the Wiki-SimpleWiki corpus and find that our features lead to superior matching performance

    Multilabel Text Classification Menggunakan SVM dan Doc2Vec Classification Pada Dokumen Berita Bahasa Indonesia

    Get PDF
    Seiring dengan berkembangnya informasi yang ada di sekitar dengan pesat, maka jenis informasi yang ada pun menjadi sangat bervariasi dan sangat banyak jumlahnya, dan akan semakin terus bertambah. Dengan kondisi tersebut, kita akan mengalami kesulitan untuk mengenali jenis dari informasi tersebut satu persatu. Oleh karena itu dengan adanya proses klasifikasi teks dan dokumen sangatlah membantu untuk memilah dan mengenali informasi-informasi apa saja yang ada, baik informasi yang lama maupun informasi yang baru dan belum pernah ditemui sebelumnya. Bertujuan untuk dapat mengidentifikasi dan mengklasifikasikan dokumen-dokumen berita dalam bahasa Indonesia ke dalam beberapa kategori sekaligus, maka dibuatlah sebuah penelitian berupa sistem untuk menangani klasifikasi dokumen teks dalam bahasa Indonesia. Sistem tersebut akan memproses berita-berita yang diberikan, dan kemudian akan memberikan 2 kategori yang paling mendekati terhadap isi dari berita tersebut. Sistem dibuat dengan menggunakan Python, memanfaatkan Doc2Vec untuk mengambil fitur dataset, dan SVM untuk melakukan klasifikasi terhadap banyak kelas. Dataset yang digunakan adalah kumpulan dokumen berupa berita-berita yang diperoleh dari CNN Indonesia tahun 2016-2017, dan terbagi dalam 5 kategori berita utama, yaitu: Politik, Ekonomi, Teknologi, Olahraga, dan Hiburan. Dikarenakan sedikitnya literatur untuk klasifikasi text dalam bahasa Indonesia, maka pada penelitian ini hanya menargetkan akurasi sebesar 70% saja. Namun dari hasil ujicoba, akurasi yang diperoleh melebihi 90%. Hasil prediksi untuk kelas dokumen pun memiliki tingkat keberhasilan yang tinggi. Dengan penggunaan dataset dan penanganan preprocessing yang tepat untuk dokumen bahasa Indonesia, maka hasil yang dicapai bisa lebih bagus dan akurat
    • …
    corecore