Search CORE

4 research outputs found

Mining Primary Care Electronic Health Records for Automatic Disease Phenotyping: A Transparent Machine Learning Framework

Author: Atkinson M
Brophy S
Choy E
Cooksey R
Fernández-Gutiérrez F
Huo L
Kennedy JI
Zhou S-M
Publication venue: 'MDPI AG'
Publication date: 01/01/2021
Field of study

(1) Background: We aimed to develop a transparent machine-learning (ML) framework to automatically identify patients with a condition from electronic health records (EHRs) via a parsimonious set of features. (2) Methods: We linked multiple sources of EHRs, including 917,496,869 primary care records and 40,656,805 secondary care records and 694,954 records from specialist surgeries between 2002 and 2012, to generate a unique dataset. Then, we treated patient identification as a problem of text classification and proposed a transparent disease-phenotyping framework. This framework comprises a generation of patient representation, feature selection, and optimal phenotyping algorithm development to tackle the imbalanced nature of the data. This framework was extensively evaluated by identifying rheumatoid arthritis (RA) and ankylosing spondylitis (AS). (3) Results: Being applied to the linked dataset of 9657 patients with 1484 cases of rheumatoid arthritis (RA) and 204 cases of ankylosing spondylitis (AS), this framework achieved accuracy and positive predictive values of 86.19% and 88.46%, respectively, for RA and 99.23% and 97.75% for AS, comparable with expert knowledge-driven methods. (4) Conclusions: This framework could potentially be used as an efficient tool for identifying patients with a condition of interest from EHRs, helping clinicians in clinical decision-support process

Online Research @ Cardiff

Plymouth Electronic Archive and Research Library

Cronfa at Swansea University

Klasifikasi Multilabel pada Hadis Bukhari Terjemahan Bahasa Indonesia Menggunakan Mutual Information dan Support Vector Machine

Author: MOHAMAD IRWAN AFANDI
Publication venue: Universitas Telkom
Publication date: 06/09/2019
Field of study

Hadis merupakan sumber hukum kedua bagi umat Islam setelah Al-Quran. Banyak sekali hadis yang telah diriwayatkan, namun Hadis Bukhari memiliki tingkat kesahihan paling tinggi menurut para ulama. Seiring dengan perkembangan teknologi, hadis sangatlah mudah didapatkan melalui dunia digital. Akan tetapi untuk mempelajari hadis tidak semudah yang kita bayangkan. Banyaknya hadis yang ada dan juga belum dikategorikan membuat belajar hadis dengan kategori tertentu sangat sulit dilakukan. Oleh sebab itu penulis melakukan penelitian klasifikasi anjuran, larangan dan informasi pada Hadis Sahih Al-Bukhari terjemahan Bahasa Indonesia yang diharapkan dapat mempermudah masyarakat dalam mempelajari hadis. Proses klasifikasi menggunakan model unigram/bigram dengan Mutual Information (MI) sebagai seleksi fitur dan Support Vector Machine (SVM) sebagai metode klasifikasi. Pada penelitian ini dilakukan beberapa skenario pengujian dengan memodifikasi term model, preprocessing, feature selection dan menggunakan beberapa metode klasifikasi untuk membuktikan bahwa SVM merupakan salah satu metode klasifikasi teks yang cocok digunakan. Pengujian dengan menggunakan model unigram, tidak menggunakan stopword/stemming, menggunakan MI dan menggunakan SVM memberikan nilai hamming loss terbaik yaitu 0.0686. Hasil penelitian yang diperoleh juga menunjukkan bahwa metode SVM dengan menggunakan MI lebih baik daripada metode klasifikasi teks yang lain. Kata kunci: Hadis Bukhari, Hamming loss, Klasifikasi, Mutual Information, Preprocessing, Support Vector Machine

Open Library

Statystyczne metody klasyfikacji tekstów

Author: Idczak Adam
Korzeniewski Jerzy
Publication venue: 'Uniwersytet Lodzki (University of Lodz)'
Publication date: 01/01/2022
Field of study

W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz większego znaczenia nabierają komputerowe metody badania tekstu, w szczególności metody ustalania sentymentu czy też wydźwięku tekstu. Metody komputerowe mogą być później wykorzystywane w takich zagadnieniach, jak streszczanie tekstu, wyszukiwanie informacji z tekstu, sprawdzanie poprawności tekstu, maszynowe tłumaczenie tekstu i wielu innych. Niniejsza monografia zawiera przegląd metod analizy sentymentu dla dokumentów głównie anglojęzycznych, badanie efektywności wybranych metod analizy sentymentu w zastosowaniu do dokumentów polskojęzycznych, propozycje nowych metod, które mogą poprawić jakość klasyfikacji. W nowych propozycjach nacisk został położony na problemy klasyfikacji binarnej, niekorzystanie ze źródeł zewnętrznych, korzystanie w jak najmniejszym stopniu ze zbioru uczącego. Proponujemy przenieść ciężar klasyfikacji tekstów z obszernego zbioru uczącego na wyszukiwanie i analizowanie związków pomiędzy słowami tworzącymi dokument, a nawet grupami słów. Zaproponowana metoda ma prostą interpretację, może konkurować z metodami standardowymi oraz może być wykorzystana do innych problemów związanych z ustalaniem sentymentu tekstów

Repozytorium Uniwersytetu Łódzkiego (University of Lodz Repository)