2 research outputs found

    Semantic Information Retrival for Scientific Experimental Papers with Knowlege based Feature Extraction

    Get PDF
    Seiring dengan perkembangan zaman, jumlah karya ilmiah semakin meningkat. Permintaan pencarian informasi dalam makalah ilmiah juga meningkat. Pada  makalah ilmiah eksperimental, peneliti mengalami kesulitan dalam mencari informasi pada karya ilmiah eksperimental karena mesin pencari informasi memiliki keterbatasan dalam proses pencarian berdasarkan ekstraksi fitur berbasis text-mining dari seluruh teks, sedangkan jenis makalah ilmiah eksperimental memiliki konten spesifik, yang memiliki perlakuan berbeda dalam ekstraksi fitur. Dalam makalah ini, kami mengusulkan sistem baru untuk pengambilan informasi pada makalah ilmiah eksperimental. Sistem ini terdiri dari 4 fungsi utama: (1) Ekstraksi fitur berbasis konten spesifik, (2) Model klasifikasi, (3) Pemilihan subruang berbasis konteks, dan (4) Pengukuran kesamaan yang bergantung pada konteks. Dalam ekstraksi fitur, sistem kami mengekstraksi kategori fitur dalam makalah ilmiah eksperimental dengan fitur berbasis konten tertentu, yaitu data, masalah, metode, dan hasil. Untuk model klasifikasi, kami menggunakan beberapa algoritma klasifikasi untuk mengklasifikasikan fitur konten tertentu dari paper queri ke agregasi dokumen pembelajaran. Dalam Pemilihan Subruang Berbasis Konteks, sistem melakukan pengurangan dimensi dengan pemilihan subruang berbasis konteks yang dipilih oleh pengguna. Untuk mendapatkan hasil pencarian akhir, kami mengukur kesamaan konteks dengan membangun metrik dataset berdasar konteks ke paper. Untuk melakukan penerapan sistem yang kami usulkan, kami menguji 77 makalah dalam dataset dengan model validasi Leave-One-Out dengan beberapa algoritma klasifikasi (Nearest Neighbor, Naive Bayes, Support Vector Machine, dan Decision Tree) dan rata-rata melakukan presisi 66,65% tingkat dan akurasi tingkat presisi 76,18%. Kami juga melakukan percobaan pada pengukuran kesamaan dengan memberikan queri paper dan konten yang diinginkan (data, hasil, metode, dan masalah) sebagai konteks yang diberikan oleh pengguna. Dalam percobaan pengukuran kesamaan, sistem yang kami usulkan memiliki tingkat akurasi 79,17%

    Novel Semi-Supervised Learning Models to Balance Data Inclusivity and Usability in Healthcare Applications

    Get PDF
    abstract: Semi-supervised learning (SSL) is sub-field of statistical machine learning that is useful for problems that involve having only a few labeled instances with predictor (X) and target (Y) information, and abundance of unlabeled instances that only have predictor (X) information. SSL harnesses the target information available in the limited labeled data, as well as the information in the abundant unlabeled data to build strong predictive models. However, not all the included information is useful. For example, some features may correspond to noise and including them will hurt the predictive model performance. Additionally, some instances may not be as relevant to model building and their inclusion will increase training time and potentially hurt the model performance. The objective of this research is to develop novel SSL models to balance data inclusivity and usability. My dissertation research focuses on applications of SSL in healthcare, driven by problems in brain cancer radiomics, migraine imaging, and Parkinson’s Disease telemonitoring. The first topic introduces an integration of machine learning (ML) and a mechanistic model (PI) to develop an SSL model applied to predicting cell density of glioblastoma brain cancer using multi-parametric medical images. The proposed ML-PI hybrid model integrates imaging information from unbiopsied regions of the brain as well as underlying biological knowledge from the mechanistic model to predict spatial tumor density in the brain. The second topic develops a multi-modality imaging-based diagnostic decision support system (MMI-DDS). MMI-DDS consists of modality-wise principal components analysis to incorporate imaging features at different aggregation levels (e.g., voxel-wise, connectivity-based, etc.), a constrained particle swarm optimization (cPSO) feature selection algorithm, and a clinical utility engine that utilizes inverse operators on chosen principal components for white-box classification models. The final topic develops a new SSL regression model with integrated feature and instance selection called s2SSL (with “s2” referring to selection in two different ways: feature and instance). s2SSL integrates cPSO feature selection and graph-based instance selection to simultaneously choose the optimal features and instances and build accurate models for continuous prediction. s2SSL was applied to smartphone-based telemonitoring of Parkinson’s Disease patients.Dissertation/ThesisDoctoral Dissertation Industrial Engineering 201