39 research outputs found

    Klasifikasi Berita Indonesia Menggunakan Metode Naive Bayesian Classification dan Support Vector Machine Dengan Confix Stripping Stemmer

    Get PDF
    Jumlah aliran artikel berita yang diunggah di internet sangat banyak dan rentang waktu yang cepat. Jumlah yang banyak dan waktu yang cepat akan menyulitkan editor mengkategorikan secara manual. Terdapat metode agar berita dapat dikategorikan secara otomatis, yaitu klasifikasi. Data berita berbentuk teks, sehingga jauh lebih rumit dan perlu proses untuk mempersiapkan data. Salah satu prosesnya adalah confix-stripping stemmer sebagai cara untuk mendapatkan kata dasar dari berita Indonesia. Untuk metode klasifikasi yang digunakan adalah Naive Bayes Classifier (NBC) yang secara umum sering digunakan dalam data teks dan Support Vector Machine (SVM) yang diketahui bekerja sangat baik pada data dengan dimensi besar.  Kedua metode tersebut akan dibandingkan untuk mengetahui hasil klasifikasi yang paling baik. Hasil penelitian menunjukkan bahwa SVM kernel Linier dan kernel RBF menghasilkan ketepatan klasifikasi yang sama dan bila dibandingkan dengan NBC maka SVM lebih baik

    Algoritma ClusterMix K-Prototypes Untuk Menangkap Karakteristik Pasien Berdasarkan Variabel Penciri Mortalitas Pasien Dengan Gagal Jantung

    Get PDF
    Cardiovascular Disease  (CVD) atau penyakit kardiovaskular adalah salah satu penyebab utama kematian cukup besar di seluruh dunia yang berujung pada kejadian gagal jantung. Organiasasi kesehatan WHO menyebutkan jumlah orang yang  meninggal karena penyakit kardiovaskuler akibat gagal jantung setiap tahun memiliki rata-rata 17,9 juta kematian setiap tahunnya, yaitu sekitar 31 persen dari total kematian secara global. Pendeteksian faktor mortalitas pasien gagal jantung perlu dibentuk segmentasi yang berguna untuk memperkecil peluang terjadinya kematian akibat  gagal jantung. Salah satunya dengan menggunakan variabel penciri mortalitas akibat gagal jantung dengan cara menerapkan algoritma k-prototypes. Hasil penggerombolan terbentuk 2 kluster yang dianggap optimal berdasarkan nilai koefisien silhouette tertinggi yaitu sebesar 0.5777. Hasil penelitian dilakukan segementasi pasien dengan variabel penciri mortalitas pasien gagal jantung yang menunjukan bahwa kluster 1 merupakan gerombol pasien yang memiliki resiko rendah terhadap peluang mortalitas akibat gagal jantung dan kluster 2 merupakan gerombol pasien dengan karaktistik pasien dengan resiko yang tinggi terhadap peluang mortalitas akibat gagal jantung. Segementasi tersebut didasari dari nilai rata-rata setiap variabel penciri  dari faktor mortalitas gagal jantung pada setiap kluster yang dibandingkan dengan kondisi normal pada variabel serum creatine, ejection fraction, usia, serum sodium, tekanan darah, anemia, creatinine phosphokinase, plateles, merokok, jenis kelamin dan diabetes

    Peramalan Curah Hujan Di Wilayah Surabaya Timur Dengan Vector Autoregressive Neural Network

    Full text link
    Hujan merupakan suatu peristiwa alam yang terjadi di setiap wilayah. Intensitas hujan di beberapa wilayah yang saling berdekatan mengindikasi ada pola curah hujan yang sama setiap tahunnya. Pemodelan time series dengan menggunakan lebih dari satu variabel dapat dipergunakan jika melihat hubungan pola curah hujan tersebut. Tetapi seringkali data curah hujan mengandung pola-pola non linier, sehingga diperlukan metode non lini-er untuk mengantisipasinya. Sehingga dalam penelitian ini digunakan pemodelan VAR-NN yang merupakan gabu-ngan antara metode pemodelan time series linier dan non linier untuk kasus curah hujan di dua kelurahan yang be-rada di wilayah Surabaya Timur. Berdasarkan hasil anali-sis yang diperoleh diketahui untuk model VAR terbaik yaitu VARIMA (5,1,0) (0,1,0)36, sedangkan untuk pemode-lan VAR-NN yang terbaik adalah arsitektur jaringan dengan jumlah neuron pada input layer sebanyak 8, 2 neuron pada hidden layer, dan pada lapisan output seba-nyak 2 neuro

    Impact of SST Anomalies on Coral Reefs Damage Based on Copula Analysis

    Get PDF
    The condition of coral reefs in Indonesia is alarming. One of the influenting factors of coral reefs damage is extreme climate change. The aim of this study is to determine the relationship of climate change, that is Sea Surface Temperature (SST) anomaly index, and coral reefs damage in West, Central and East Region of Indonesia. The method used in this study is Copula analysis. Copula is one of the statistical methods used to determine the relationship of two or more variables, in which case the distribution can be normal or not. First, data is transformed into Uniform [0,1] domain. Then, Copula parameter is estimated to get significance parameter. Lastly, the best Copula that has the highest log likelihood value is selected to represent the relationship of data. The result indicates that percentage of coral reefs damage in West and Central Region has relationship with SST Nino 4, while coral reefs damage in East Region does not have relationship with any of SST Nino anomalies. In West Region, the best Copula represents the relationship is Gaussian Copula (parameter = -0.32); it concludes that the higher the value of SST Nino 4, the lower the percentage of coral reefs damage and otherwise. While in Central Indonesia, Frank Copula (parameter = -4.89) is selected; it does not have tail dependency so that the SST Nino 4 and the percentage of coral reefs in damage condition in Central Region has low correlation

    Klasifikasi Kesejahteraan Rumah Tangga di Provinsi Papua dengan Metode Regresi Logistik dan Support Vector Machine

    Full text link
    Provinsi Papua dalam lima tahun terakhir ini menunjukkan bahwa presentase penduduk miskin di Provinsi Papua menempati peringkat pertama dibandingkan ke-32 provinsi lainnya di Indonesia. Klasifikasi kesejahteraan rumah tangga ditujukan untuk mengkategorikan suatu rumah tangga, kedalam kategori keluarga miskin ataupun tidak miskin berdasarkan faktor-faktor yang mencirikan suatu kemiskinan. Dalam rangka meningkatkan kesejahteraan masyarakat di Provinsi Papua, salah satu upaya yang dilakukan adalah dijalankannya program pengentasan kemiskinan, dimana dalam pelaksanaannya perlu dalam mengkategorikan suatu rumah tangga kedalam kategori miskin atau tidak miskin untuk mengetahui layak atau tidaknya mendapatkan bantuan dari program tersebut. Analisis klasifikasi dilakukan menggunakan metode regresi logistik dan support vector machine. Karakteristik kesejahteraan rumah tangga di Papua menunjukkan sebanyak 27% rumah tangga dikategorikan rumah tangga miskin dan sebanyak 73% rumah tangga dikategorikan rumah tangga tidak miskin. Klasifikasi menggunakan metode regresi logistik biner menunjukkan bahwa ketepatan klasifikasi tertinggi sebesar 81.20%. Klasifikasi menggunakan metode support vector machine menunjukkan bahwa ketepatan klasifikasi tertinggi yakni sebesar 82.05% menggunakan variabel prediktor yang signifikan pada analisis regresi logistik biner. Model klasifikasi yang menghasilkan ketepatan klasifikasi tertinggi tersebut menggunakan fungsi kernel Radial Basis Function (RBF) dengan parameter Ï=2 dan C=1

    Analisis Faktor Resiko Penyebab Diabetes Mellitus dengan Regresi Logistik Biner

    Get PDF
    Diabetes Mellitus menjadi salah satu masalah perawatan kesehatan utama di seluruh dunia. Penyakit gula ini merupakan penyakit berbahaya yang mana mengakibatkan kematian akibat komplikasi yang ditimbulkanya. Banyak faktor yang memengaruhi orang menderita diabetes , beberapa diantaranya yaitu usia, merokok,  serum sodium dan platelet dalam badan. Regresi logistik merupakan salah satu alat statistik yang dapat digunakan dalam permodelan klasifikasi tentang ada tidaknya yang mengalami diabetes. Tujuan penelitian ini adalah melihat pengaruh variabel independent usia, merokok, serum sodium dan platelet dalam mengklasifikasikan observasi  antara kategori yang tidak mengalami diabetes dan penderita diabetes.  Hasil yang didapatkan adalah semua variabel independent signfikan berpengaruh di dalam model dimana semakin meningkatnya umur kecenderungan orang menjadi diabetes semakin tinggi. Selain itu,  kegiatan merokok mampu memberikan kecenderungan orang menderita diabetes daripada orang yang tidak merokok. Kemudian semakin bertambahnya serum sodium dalam tubuh maka kecenderungan orang akan tidak menderita diabetes serta untuk bertambahnya platelet memberi kecenderungan sangat kecil orang menderita diabetes. Dalam klasifikasi ini, persentase akurasi klasifikasi sebesar 61,9 persen.  Walupun lebih dari 50 persen namun terjadi misklasifikasi orang yang menderita diabetes sebagai orang tidak mengalami diabetes sebesar 60 persen. Hal itu menyebabkan klasifikasi ini agak beresiko dalam mengelompokkan orang yang diabetes sebagai tujuan penanganan yang lebih cepat

    Pengelompokan Kabupaten/Kota di Jawa Timur Berdasarkan Indikator Kesehatan Masyarakat Menggunakan Metode Kohonen SOM dan K-Means

    Full text link
    Kondisi kesehatan masyarakat di Jawa Timur yang tidak homogen akan menyulitkan bagi Tim Pembina Kota Sehat pada saat melakukan pembinaan dan monitoring. Berdasarkan hal tersebut diperlukan pengelompokan kabupaten dan kota di Jawa Timur yang didasarkan pada kemiripan karakteristik kondisi kesehatan masyarakat, sehingga proses pembinaan dan monitoring akan dilakukan berdasarkan kelompok kabupaten dan kota yang terbentuk. Pengelompokan kabupaten/kota di Jawa Timur akan dilakukan menggunakan metode Kohonen SOM kemudian akan dibandingkan dengan hasil pengelom-pokan metode klasik K-Means, yang merupakan metode penge-lompokan yang populer dan sering digunakan, berdasarkan kriteria nilai icdrate (internal cluster dispersion rate). Pada peng-ujian Bartlett diperoleh kesimpulan bahwa terdapat hubungan atau korelasi di antara variabel penelitian. Setelah dilakukan analisis faktor untuk mereduksi variabel diperoleh 3 faktor baru yang terbentuk. Berdasarkan nilai Pseudo Fstatistics yaitu sebe-sar 13,819, hasil pengelompokan terbaik adalah menggunakan metode Kohonen SOM dengan jenis topologi hextop. Sedangkan pada metode K-Means nilai Pseudo Fstatistics terbesar yaitu 9,781 ketika digunakan kelompok sebanyak 2 klaster. Perban-dingan hasil klaster terbaik berdasarkan nilai icdrate diperoleh kesimpulan bahwa nilai icdrate metode Kohonen SOM yaitu sebesar 0,962 lebih kecil dibandingkan dengan nilai icdrate hasil pengelompokan metode K-Means yaitu sebesar 0,988. Pada hasil pengujian One-way MANOVA diperoleh kesimpulan bahwa pada masing-masing kelompok yang terbentuk memiliki per-bedaan

    Klasifikasi Berita Online Menggunakan Metode Support Vector Machine Dan K-Nearest Neighbor

    Full text link
    Teknologi informasi merupakan salah satu hal yang tidak akan lepas dari kehidupan manusia. Tanpa adanya teknologi, manusia akan kesulitan dalam berkomunikasi dan menyampaikan informasi. Perlu adanya sistem yang secara otomatis yang dapat mengelompokkan berita sesuai dengan kategori berita dengan menggunakan text mining. Dalam penelitian ini, metode yang digunakan dalam klasifikasi adalah SVM dan KNN. KNN memiliki kelebihan dalam hal data training yang cukup banyak. Sebagai komparasi, dalam penelitian ini juga menggunakan SVM karena metode ini merupakan salah satu metode yang banyak digunakan untuk klasifikasi data, khususnya data teks. Kedua metode ini akan dibandingkan untuk mengetahui hasil ketepatan klasifikasi yang paling baik. Hasil dari penelitian ini bahwa SVM kernel linier dan kernel polynomial menghasilkan ketepatan klasifikasi yang paling baik adalah kernel polynomial. Apabila dibandingklan dengan KNN maka SVM lebih baik daripada KNN dengan hasil nilai akurasi, recall, precision dan F-Measure sebesar 93.2%, 93.2%, 93.63% dan 93.14%

    Peramalan Curah Hujan di Wilayah Surabaya Timur dengan Vector Autoregressive Neural Network

    Get PDF
    Hujan merupakan suatu peristiwa alam yang terjadi di setiap wilayah. Intensitas hujan di beberapa wilayah yang saling berdekatan mengindikasi ada pola curah hujan yang sama setiap tahunnya. Pemodelan time series dengan menggunakan lebih dari satu variabel dapat dipergunakan jika melihat hubungan pola curah hujan tersebut. Tetapi seringkali data curah hujan mengandung pola-pola non linier, sehingga diperlukan metode non lini-er untuk mengantisipasinya. Sehingga dalam penelitian ini digunakan pemodelan VAR-NN yang merupakan gabu-ngan antara metode pemodelan time series linier dan non linier untuk kasus curah hujan di dua kelurahan yang be-rada di wilayah Surabaya Timur. Berdasarkan hasil anali-sis yang diperoleh diketahui untuk model VAR terbaik yaitu VARIMA (5,1,0) (0,1,0)36, sedangkan untuk pemode-lan VAR-NN yang terbaik adalah arsitektur jaringan dengan jumlah neuron pada input layer sebanyak 8, 2 neuron pada hidden layer, dan pada lapisan output seba-nyak 2 neuro

    Handling Imbalance Data in Classification Model with Nominal Predictors

    Get PDF
    Decision tree, one of classification method, can be done to find out the factors that predict something with interpretable result. However, a small and unbalanced percentage will make the classification only lead to the majority class. Therefore, handling imbalance class needs to be done. One method that often used in nominal predictor data is SMOTE-N. For accuracy improving, a hybrid SMOTE-N and ADASYN-N was developed. SMOTE-N-ENN and ADASYN-N were developed for accuracy improvement. In this study, SMOTE-N, SMOTE-N-ENN and ADASYN-N will be compared in handling imbalance class in the classification of premarital sex among adolescent using base class CART. The conclusion obtained regarding the best method for handling class imbalance is ADASYN-N because it provides the highest AUC compared to SMOTE-N and SMOTE-N-ENN. The best decision tree provides information that factors that can predict adolescents having premarital sexual relations are dating style, knowledge of the fertile period, knowledge of the risk of young marriage, gender, recent education, and area of residence
    corecore