4 research outputs found

    Mining Primary Care Electronic Health Records for Automatic Disease Phenotyping: A Transparent Machine Learning Framework

    Get PDF
    (1) Background: We aimed to develop a transparent machine-learning (ML) framework to automatically identify patients with a condition from electronic health records (EHRs) via a parsimonious set of features. (2) Methods: We linked multiple sources of EHRs, including 917,496,869 primary care records and 40,656,805 secondary care records and 694,954 records from specialist surgeries between 2002 and 2012, to generate a unique dataset. Then, we treated patient identification as a problem of text classification and proposed a transparent disease-phenotyping framework. This framework comprises a generation of patient representation, feature selection, and optimal phenotyping algorithm development to tackle the imbalanced nature of the data. This framework was extensively evaluated by identifying rheumatoid arthritis (RA) and ankylosing spondylitis (AS). (3) Results: Being applied to the linked dataset of 9657 patients with 1484 cases of rheumatoid arthritis (RA) and 204 cases of ankylosing spondylitis (AS), this framework achieved accuracy and positive predictive values of 86.19% and 88.46%, respectively, for RA and 99.23% and 97.75% for AS, comparable with expert knowledge-driven methods. (4) Conclusions: This framework could potentially be used as an efficient tool for identifying patients with a condition of interest from EHRs, helping clinicians in clinical decision-support process

    Klasifikasi Multilabel pada Hadis Bukhari Terjemahan Bahasa Indonesia Menggunakan Mutual Information dan Support Vector Machine

    Get PDF
    Hadis merupakan sumber hukum kedua bagi umat Islam setelah Al-Quran. Banyak sekali hadis yang telah diriwayatkan, namun Hadis Bukhari memiliki tingkat kesahihan paling tinggi menurut para ulama. Seiring dengan perkembangan teknologi, hadis sangatlah mudah didapatkan melalui dunia digital. Akan tetapi untuk mempelajari hadis tidak semudah yang kita bayangkan. Banyaknya hadis yang ada dan juga belum dikategorikan membuat belajar hadis dengan kategori tertentu sangat sulit dilakukan. Oleh sebab itu penulis melakukan penelitian klasifikasi anjuran, larangan dan informasi pada Hadis Sahih Al-Bukhari terjemahan Bahasa Indonesia yang diharapkan dapat mempermudah masyarakat dalam mempelajari hadis. Proses klasifikasi menggunakan model unigram/bigram dengan Mutual Information (MI) sebagai seleksi fitur dan Support Vector Machine (SVM) sebagai metode klasifikasi. Pada penelitian ini dilakukan beberapa skenario pengujian dengan memodifikasi term model, preprocessing, feature selection dan menggunakan beberapa metode klasifikasi untuk membuktikan bahwa SVM merupakan salah satu metode klasifikasi teks yang cocok digunakan. Pengujian dengan menggunakan model unigram, tidak menggunakan stopword/stemming, menggunakan MI dan menggunakan SVM memberikan nilai hamming loss terbaik yaitu 0.0686. Hasil penelitian yang diperoleh juga menunjukkan bahwa metode SVM dengan menggunakan MI lebih baik daripada metode klasifikasi teks yang lain. Kata kunci: Hadis Bukhari, Hamming loss, Klasifikasi, Mutual Information, Preprocessing, Support Vector Machine

    Statystyczne metody klasyfikacji tekst贸w

    Get PDF
    W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz wi臋kszego znaczenia nabieraj膮 komputerowe metody badania tekstu, w szczeg贸lno艣ci metody ustalania sentymentu czy te偶 wyd藕wi臋ku tekstu. Metody komputerowe mog膮 by膰 p贸藕niej wykorzystywane w takich zagadnieniach, jak streszczanie tekstu, wyszukiwanie informacji z tekstu, sprawdzanie poprawno艣ci tekstu, maszynowe t艂umaczenie tekstu i wielu innych. Niniejsza monografia zawiera przegl膮d metod analizy sentymentu dla dokument贸w g艂贸wnie angloj臋zycznych, badanie efektywno艣ci wybranych metod analizy sentymentu w zastosowaniu do dokument贸w polskoj臋zycznych, propozycje nowych metod, kt贸re mog膮 poprawi膰 jako艣膰 klasyfikacji. W nowych propozycjach nacisk zosta艂 po艂o偶ony na problemy klasyfikacji binarnej, niekorzystanie ze 藕r贸de艂 zewn臋trznych, korzystanie w jak najmniejszym stopniu ze zbioru ucz膮cego. Proponujemy przenie艣膰 ci臋偶ar klasyfikacji tekst贸w z obszernego zbioru ucz膮cego na wyszukiwanie i analizowanie zwi膮zk贸w pomi臋dzy s艂owami tworz膮cymi dokument, a nawet grupami s艂贸w. Zaproponowana metoda ma prost膮 interpretacj臋, mo偶e konkurowa膰 z metodami standardowymi oraz mo偶e by膰 wykorzystana do innych problem贸w zwi膮zanych z ustalaniem sentymentu tekst贸w
    corecore