5 research outputs found

    Peningkatan Akurasi pada Prediksi Kepribadian Mbti Pengguna Twitter Menggunakan Augmentasi Data

    Get PDF
    Kepribadian suatu individu perlu diketahui untuk membantu seseorang dalam mempertimbangkan beberapa hal, salah satunya perekrutan karier. Pada umumnya, kepribadian dapat diketahui melalui metode wawancara, observasi, maupun survei kuesioner. Akan tetapi, metode konvensional tersebut dinilai kurang praktis dari segi waktu dan materi karena dibutuhkan waktu yang lama dan biaya yang cukup besar untuk mengolah data. Selain itu, penggunaan metode konvensional juga dapat menimbulkan bias karena melibatkan orang ketiga dalam pengolahan data. Penelitian ini mencoba memberikan solusi dengan membangun model yang dapat melakukan prediksi terhadap kepribadian seseorang berdasarkan analisis data dan informasi dari media sosial Twitter. Data dan informasi tersebut akan diproses sehingga didapatkan prediksi kepribadian orang tersebut. Teori klasifikasi kepribadian yang digunakan adalah teori Myers-Briggs Type Indicator (MBTI). Penelitian ini juga mencoba menerapkan teknik augmentasi data untuk meningkatkan performa dari text mining task yang memiliki dataset sedikit. Hasil terbaik didapatkan dengan metode Random Forest menggunakan pembobotan Term Frequency-Inverse Document Frequency (TF-IDF) dan fitur yang tersedia pada Twitter. Penggunaan teknik augmentasi dapat meningkatkan akurasi hingga 30% dari akurasi awal sehingga hasil penelitian menunjukkan bahwa penggunaan teknik augmentasi data dapat meningkatkan performa pada model prediksi kepribadian MBTI.AbstractThe personality of an individual needs to be known to help people in considering things, one of them is career recruitment. In general, personality can be known through interviews, observations, and questionnaire surveys. However, the conventional method is judged to be impractical in terms of time and material because it takes a long time and has considerable costs to process data. After all, the use of conventional methods can also cause bias because it involves a third person in data processing. The research tries to provide a solution by building a system that can predict the personality of a person based on the analysis of data and information from social media Twitter. The data and information will be processed so that the personality prediction is obtained. The personality classification theory used is the Myers-Briggs Type Indicator (MBTI) theory. The research also tries to implement data augmentation techniques to improve the performance of text mining tasks that have a slight dataset. The best results are obtained by the Random Forest method using the Term Frequency-Inverse Document Frequency (TF-IDF) weighted and the features available on Twitter. The use of augmentation techniques can increase accuracy by up to 30% from initial accuracy. So, the use of data augmentation techniques can be used to improve the performance of MBTI personality prediction models

    Prediksi Kepribadian DISC dengan K-Nearest Neighbors Algorithm (KNN) Menggunakan Pembobotan TF-IDF dan TF-Chi Square

    Get PDF
    Media sosial berkembang pesat pada saat ini. Salah satu media sosial yang berkembang dengan sangat pesat adalah twitter. Twitter adalah media sosial yang di dalamnya berisikan informasi seperti biografi seseorang dan tweet atau cuitan dari penggunanya. Oleh karena informasi yang kita dapatkan di twitter bisa dimanfaatkan untuk menggambarkan kepribadian seseorang. Ada banyak metode yang bisa digunakan untuk mengetahui kepribadian seperti Big 5, MBTI dan DISC. Dalam penelitian ini penulis menggunakan metode DISC (Dominance Influence Steadiness Conscientiousness) karena metode ini masih sangat sedikit digunakan untuk penelitian, dan penulis menggunakan metode pengklasifikasian dari data mining dengan metode pengklasifikasian K- Nearest Neighbors Algorithm (KNN). Fitur linguistic yang akan digunakan dibagi menjadi dua bagian yaitu fitur katagori kata dari corpus yang dibangun secara manual dan fitur yang didapatkan langsung dari data twitter menggunakan twitter apps. Penelitian ini akan sangat berguna untuk pemilihan sumber daya manusia karena bisa menghemat biaya dan tenaga yang dikeluarkan, dengan menggunakan aplikasi ini bisa menentukan kepribadian seseorang hanya dengan menggunakan media sosial twitter. Metode pembobotan yang digunakan dalam penelitian ini adalah TF- IDF dan TF-Chi Square yang berguna untuk mengukur bobot setiap kata pada sebuah tweet. Dari hasil percobaan didapatkan akurasi terbaik sebesar 40.60% pada perbandingan data latih dan data uji sebesar 60:40 dan pendekatan linguistik dengan menggunakan skenario pendakatan perilaku sosial dengan pemilihan nilai k sebesar 61

    Web Page Ranking Based on Text Content and Link Information Using Data Mining Techniques

    Get PDF
    Thanks to the rapid expansion of the Internet, anyone can now access a vast array of information online. However, as the volume of web content continues to grow exponentially, search engines face challenges in delivering relevant results. Early search engines primarily relied on the words or phrases found within web pages to index and rank them. While this approach had its merits, it often resulted in irrelevant or inaccurate results. To address this issue, more advanced search engines began incorporating the hyperlink structures of web pages to help determine their relevance. While this method improved retrieval accuracy to some extent, it still had limitations, as it did not consider the actual content of web pages. The objective of the work is to enhance Web Information Retrieval methods by leveraging three key components: text content analysis, link analysis, and log file analysis. By integrating insights from these multiple data sources, the goal is to achieve a more accurate and effective ranking of relevant web pages in the retrieved document set, ultimately enhancing the user experience and delivering more precise search results the proposed system was tested with both multi-word and single-word queries, and the results were evaluated using metrics such as relative recall, precision, and F-measure. When compared to Google’s PageRank algorithm, the proposed system demonstrated superior performance, achieving an 81% mean average precision, 56% average relative recall, and a 66% F-measure
    corecore