Tupakointistatuksen selvittäminen potilastietojärjestelmästä koneoppimiseen pohjautuvan potilastekstien luokittelijan avulla

Abstract

Smoking is a significant factor affecting human health and development of various diseases but smoking status is usually documented in an unstructured format in the electronic health records. Therefore the information about smoking status is difficult to extract with purpose to, for example, analyse the health effects of smoking based on a real world data. This thesis was made as a part of a study where effects of smoking on postoperative surgical complications were assessed. Therefore a text classifier to identify smoking status of a patient based on clinical notes was built. Smoking-related sentences were selected by searching smoking-related regular expressions from the clinical notes. Overall 809,958 sentences were classified with a machine learning-based fastText classifier trained with 19,999 sentences into classes ex-smoker, nonsmoker, smoker and unknown smoking status. The results were improved by estimating the uncertainty of the classification results and the classifications in the classes ex-smoker, nonsmoker and smoker that were considered as uncertain results were reassigned to the class unknown. The final classifier achieved the precisions of 0.958, 0.974 and 0.95 for the classes ex-smoker, nonsmoker and smoker, respectively and the accuracy of the classifier for the sentences classified in these three classes was 0.959. Additionally, a rule-based classifier to assign smoking status for each surgery patient based on the smoking statuses of the classified sentences was introduced. The classifier outperformed prior approaches to identify smoking status from clinical notes taking into account the differences in the study settings.Tupakointi on merkittävä terveyteen ja sairauksiin vaikuttava taustatekijä. Potilaan tupakointistatus ei kuitenkaan usein ole kirjattu sähköisiin potilastietojärjestelmiin rakenteisesti, mikä hankaloittaa tupakointistatuksen saamista tutkimuskäyttöön, kun tutkitaan esimerkiksi tupakoinnin vaikutusta terveyteen tosielämän tietoon perustuen. Tämä diplomityö on tehty osana tutkimusta, jossa tutkittiin tupakoinnin vaikutusta postoperatiivisiin leikkauskomplikaatioihin ja sitä varten kehitettiin tekstiluokittelija tunnistamaan potilaan tupakointistatus potilasteksteistä. Tupakointiin viittaavat lauseet valittiin etsimällä tupakointiin liittyviä säännöllisiä lausekkeita potilasteksteistä. Tupakointiin viittaavia lauseita löytyi yhteensä 809 958, joista kliinikot antoivat 19 999 lausetta opetusaineistoksi luokittelijalle. Lauseet luokiteltiin ohjattuun koneoppimiseen pohjautuvalla fastText-luokittelijalla luokkiin entinen tupakoitsija, ei tupakoitsija, tupakoitsija ja ei tiedossa oleva tupakointistatus. Tuloksia parannettiin arvioimalla luokittelutulosten epävarmuutta ja siirtämällä epävarmoiksi arvioidut lauseet luokista entinen tupakoitsija, ei tupakoitsija ja tupakoitsija luokkaan ei tiedossa oleva tupakointistatus. Lopullisen luokittelijan täsmällisyydet luokille entinen tupakoitsija, ei tupakoitsija ja tupakoitsija olivat 0.958, 0.974 and 0.95, ja tarkkuus näihin luokkiin luokitelluille lauseille oli 0.959. Tässä työssä esitettiin myös sääntöpohjainen luokittelija määrittämään leikkauspotilaille tupakointistatus luokiteltujen lauseiden tupakointistatusten perusteella. Lausetason luokittelija suoriutui tunnistamaan tupakointistatuksen potilasteksteistä paremmin kuin aiemmissa tutkimuksissa esitetyt vastaavat luokittelijat, kun otetaan huomioon erot tutkimusasetelmissa

    Similar works

    Full text

    thumbnail-image