26 research outputs found

    Metode Pembobotan Kata Berbasis Cluster Untuk Perangkingan Dokumen Berbahasa Arab

    Get PDF
    Perangkingan dokumen telah menjadi topik yang banyak dibahas pada sistem temu kembali informasi untuk memberikan urutan dokumen paling relevan berdasarkan kueri yang diberikan oleh pengguna. Namun, penelitian tentang perangkingan dokumen dalam bahasa Arab masih belum banyak dilakukan karena memiliki morfologi yang unik dan literatur dalam bahasa Arab yang masih sedikit. Selain itu, didalam proses perangkingan juga diperlukan perhitungan pembobotan kata yang optimal supaya dapat memberikan hasil yang sesuai. Pembobotan kata yang paling umum digunakan adalah term frequency-inverse document frequency (TF.IDF) yang hanya menghitung pembobotan setiap kata berdasarkan pengelompokan dokumen saja sehingga dapat menyebabkan relevansi antar dokumen menjadi rendah karena memiliki tingkat kemiripan antar dokumen yang berbeda. Oleh karena itu, diperlukan suatu pembobotan kata berdasarkan pengelompokan dokumen dalam suatu cluster untuk meningkatkan relevansi antar dokumen. Tujuan penelitian ini membuat metode perangkingan dokumen berbahasa Arab dengan menggunakan pembobotan berbasis cluster yang menggabungkan TF.IDF dan inverse cluster frequency (ICF) sehingga diperoleh TF.IDF.ICF. Evaluasi dilakukan menggunakan dokumen e-book berbahasa Arab yang telah dikelompokkan menjadi tiga cluster. Hasil penelitian membuktikan pembobotan TF.IDF.ICF mampu menemukan dokumen paling relevan terhadap kueri yang dimasukan oleh pengguna serta memperoleh nilai rata-rata precision dan F1-Measure yang lebih tinggi daripada hanya menggunakan pembobotan TF.IDF yaitu sebesar 68% dan 78%

    Arabic Book Retrieval using Class and Book Index Based Term Weighting

    Get PDF
    One of the most common issue in information retrieval is documents ranking. Documents ranking system collects search terms from the user and orderly retrieves documents based on the relevance. Vector space models based on TF.IDF term weighting is the most common method for this topic. In this study, we are concerned with the study of automatic retrieval of Islamic Fiqh (Law) book collection. This collection contains many books, each of which has tens to hundreds of pages. Each page of the book is treated as a document that will be ranked based on the user query. We developed class-based indexing method called inverse class frequency (ICF) and book-based indexing method inverse book frequency (IBF) for this Arabic information retrieval. Those method then been incorporated with the previous method so that it becomes TF.IDF.ICF.IBF. The term weighting method also used for feature selection due to high dimensionality of the feature space. This novel method was tested using a dataset from 13 Arabic Fiqh e-books. The experimental results showed that the proposed method have the highest precision, recall, and F-Measure than the other three methods at variations of feature selection. The best performance of this method was obtained when using best 1000 features by precision value of 76%, recall value of 74%, and F-Measure value of 75%

    Rankings universitarios como sistemas de organización del conocimiento: un análisis de su naturaleza clasificatoria

    Get PDF
    Considering the knowledge organization system as a core issue in the knowledge organization field, this paper focuses on international university rankings as a new incarnation of KOS through an analysis of their classificatory nature. For this, three important international university rankings are analyzed: THE, Shanghai, and QS in terms of their notation, facets, citation order, editions, and updating. The results confirm their classificatory nature as essentially faceted systems whose structure is derived from specific contextual slants and whose dynamic updating process leads to a constant remodeling of the structure and the weight of the facets. Keywords: Knowledge Organization Systems. University Ranking.; Classificatory structures.Teniendo en cuente que los Sistemas de Organización del Conocimiento – SOCs - constituyen en centro del campo disciplinar de la Organización del Conocimiento, este artículo busca identificar y caracterizar los rankings universitarios a partir del análisis de su naturaleza clasificatoria. Para esto, se analizan los tres más importantes rankings universitarios internacionales – THE, Shanghai y QS – en términos de sus notaciones, facetas, ediciones y actualización. Los resultados confirman que estos rankings actúan como sistemas de clasificación facetados cuya estructura refleja sesgos contextuales específicos. Por otro lado, su dinámico proceso de actualización permite una constante remodelación estructura así como de la preponderancia de cada faceta.  Palabras clave: Sistemas de Organización del Conocimiento. Rankings Universitarios. Estructuras Clasificatorias


    Get PDF
    Automating the identification of the genre of web pages becomes an important area in web pages classification, as it can be used to improve the quality of the web search result and to reduce search time. To index the terms used in classification, generally the selected type of weighting is the document-based TF-IDF. However, this method does not consider genre, whereas web page documents have a type of categorization called genre. With the existence of genre, the term appearing often in a genre should be more significant in document indexing compared to the term appearing frequently in many genres despites its high TF-IDF value. We proposed a new weighting method for web page documents indexing called inverse genre frequency (IGF). This method is based on genre, a manual categorization done semantically from previous research. Experimental results show that the term weighting based on index of genre (TF-IGF) performed better compared to term weighting based on index of document (TF-IDF), with the highest value of accuracy, precision, recall, and F-measure in case of excluding the genre-specific keywords were 78%, 80.2%, 78%, and 77.4% respectively, and in case of including the genre-specific keywords were 78.9%, 78.7%, 78.9%, and 78.1% respectively

    Classification of online grooming on chat logs using two term weighting schemes

    Get PDF
    Due to the growth of Internet, it has not only become the medium for getting information, it has also become a platform for communicating. Social Network Service (SNS) is one of the main platform where Internet users can communicate by distributing, sharing of information and knowledge. Chatting has become a popular communication medium for Internet users whereby users can communicate directly and privately with each other. However, due to the privacy of chat rooms or chatting mediums, the content of chat logs is not monitored and not filtered. Thus, easing cyber predators preying on their preys. Cyber groomers are one of cyber predators who prey on children or minors to satisfy their sexual desire. Workforce expertise that involve in intelligence gathering always deals with difficulty as the complexity of crime increases, human errors and time constraints. Hence, it is difficult to prevent undesired content, such as grooming conversation, in chat logs. An investigation on two term weighting schemes on two datasets are used to improve the content-based classification techniques. This study aims to improve the content-based classification accuracy on chat logs by comparing two term weighting schemes in classifying grooming contents. Two term weighting schemes namely Term Frequency – Inverse Document Frequency – Inverse Class Space Density Frequency (TF.IDF.ICSdF) and Fuzzy Rough Feature Selection (FRFS) are used as feature selection process in filtering chat logs. The performance of these techniques were examined via datasets, and the accuracy of their result was measured by Support Vector Machine (SVM). TF.IDF.ICSdF and FRFS are judged based on accuracy, precision, recall and F score measurement

    Metode Pembobotan Hibrida untuk Ekstraksi Frasa Kunci Bahasa Arab

    Get PDF
    Banyaknya informasi membuat proses pengindeksan dan pencarian inti dari dokumen menjadi permasalahan yang rumit. Sebagian besar dokumen yang tersedia tidak dilengkapi dengan kata kunci terkait. Hal ini sehingga memaksa pembaca untuk membaca seluruh dokumen untuk mendapat gambaran penuh dari konten seluruh dokumen. Ekstraksi frasa kunci otomatis yang menggunakan Algoritma YAKE memberi solusi cepat ekstraksi frasa kunci menggunakan fitur lokal dari sebuah dokumen. Namun, penggunaan fitur lokal saja membuat hasil ekstraksi menjadi kurang relevan karena diperlukan istilah signifikan yang muncul di dokumen lain. Masalah lain yang muncul adalah terdapat beberapa fitur lokal yang tidak dapat digunakan untuk bahasa Arab, misalnya huruf kapital. Pada penelitian ini, diusulkan metode pembobotan kata yang mengintegrasikan fitur statistik lokal dari sebuah dokumen dan fitur eksternal dari dokumen lain untuk sistem ekstraksi kata kunci. Metode ini dapat digunakan secara efektif pada bahasa Arab dan dapat digunakan pada bahasa lain yang tidak memiliki huruf kapital serta untuk dokumen-dokumen yang tidak terstruktur seperti berita atau karya ilmiah. Dari hasil uji coba telah dibuktikan bahwa performansi metode ini lebih baik daripada metode pembanding yaitu YAKE dan TF-IDF

    Metode Pembobotan Hibrida untuk Ekstraksi Frasa Kunci Bahasa Arab

    Get PDF
    Banyaknya informasi membuat proses pengindeksan dan pencarian inti dari dokumen menjadi permasalahan yang rumit. Sebagian besar dokumen yang tersedia tidak dilengkapi dengan kata kunci terkait. Hal ini sehingga memaksa pembaca untuk membaca seluruh dokumen untuk mendapat gambaran penuh dari konten seluruh dokumen. Ekstraksi frasa kunci otomatis yang menggunakan Algoritma YAKE memberi solusi cepat ekstraksi frasa kunci menggunakan fitur lokal dari sebuah dokumen. Namun, penggunaan fitur lokal saja membuat hasil ekstraksi menjadi kurang relevan karena diperlukan istilah signifikan yang muncul di dokumen lain. Masalah lain yang muncul adalah terdapat beberapa fitur lokal yang tidak dapat digunakan untuk bahasa Arab, misalnya huruf kapital. Pada penelitian ini, diusulkan metode pembobotan kata yang mengintegrasikan fitur statistik lokal dari sebuah dokumen dan fitur eksternal dari dokumen lain untuk sistem ekstraksi kata kunci. Metode ini dapat digunakan secara efektif pada bahasa Arab dan dapat digunakan pada bahasa lain yang tidak memiliki huruf kapital serta untuk dokumen-dokumen yang tidak terstruktur seperti berita atau karya ilmiah. Dari hasil uji coba telah dibuktikan bahwa performansi metode ini lebih baik daripada metode pembanding yaitu YAKE dan TF-IDF

    Cultural Biases in Knowledge Organization Systems: A Discussion Regarding International University Rankings

    Get PDF
    This paper aims to: 1. present university rankings as knowledge organization systems; 2. compare the structures from the following rankings: Times, QS, Shangai, and Linden; and 3. point out cultural biases which permeate these university rankings

    Analisis Sentimen Masyarakat Terhadap Kebijakan Vaksinasi Covid-19 pada Media Sosial Twitter menggunakan Metode Logistic Regression

    Get PDF
    Kebijakan melakukan vaksinasi ini hadir sebagai upaya pemerintah dalam merespon wabah penyakit menular Covid-19, tentu dalam suatu kebijakan tidak terlepas dari dukungan maupun kontra. Berbagai komentar ini muncul dari masyarakat baik berupa opini atau fakta pengalaman yang mereka alami, ratusan bahkan ribuan komentar ini dapat menjadi data yang berharga untuk dijadikan bahan analisis dan mengetahui reaksi masyarakat ketika kebijakan vaksinasi Covid-19 ini diterapkan ke masyarakat, data komentar ini dapat diproses untuk mendapatkan informasi, salah satu analisis pendapat atau review dapat dilakukan adalah menggunakan analisis sentimen. Berdasarkan uraian diatas, dapat memanfaatkan pembelajaran mesin menggunakan algoritma Logistic Regression untuk membantu dalam mengolah data informasi tersebut, dalam hal ini klasifikasi. Hasil pengujian menunjukan tingkat akurasi mencapai 82% terhadap data dev akan tetapi tidak diikuti oleh nilai F1-Score yang cukup baik untuk membangun sebuah model, hal ini disebabkan oleh data train memiliki distribusi klasifikasi yang tak seimbang. Maka dilakukan proses Slicing data serta Tuning Hyperparameters yang bertujuan untuk mendapatkan model terbaik, setelah menerapkan model terbaik yang didapat dari data dev maka dilakukan pengujian terhadap data test, metode Logistic Regression menghasilkan nilai akurasi 67% dan F1-score 60% terhadap data test hasil ini membuktikan bahwa model yang dibangun cukup handal dalam melakukan klasifkasi, terbukti nilai f1-score dan akurasi cukup berimbang dan lebih baik dari Naïve Bayes, SVM dan LSTM