206 research outputs found

    Computational intelligence contributions to readmisision risk prediction in Healthcare systems

    Get PDF
    136 p.The Thesis tackles the problem of readmission risk prediction in healthcare systems from a machine learning and computational intelligence point of view. Readmission has been recognized as an indicator of healthcare quality with primary economic importance. We examine two specific instances of the problem, the emergency department (ED) admission and heart failure (HF) patient care using anonymized datasets from three institutions to carry real-life computational experiments validating the proposed approaches. The main difficulties posed by this kind of datasets is their high class imbalance ratio, and the lack of informative value of the recorded variables. This thesis reports the results of innovative class balancing approaches and new classification architectures

    Forecasting Hospital Readmissions with Machine Learning

    Get PDF
    Hospital readmissions are regarded as a compounding economic factor for healthcare systems. In fact, the readmission rate is used in many countries as an indicator of the quality of services provided by a health institution. The ability to forecast patients’ readmissions allows for timely intervention and better post-discharge strategies, preventing future life-threatening events, and reducing medical costs to either the patient or the healthcare system. In this paper, four machine learning models are used to forecast readmissions: support vector machines with a linear kernel, support vector machines with an RBF kernel, balanced random forests, and weighted random forests. The dataset consists of 11,172 actual records of hospitalizations obtained from the General Hospital of Komotini “Sismanogleio” with a total of 24 independent variables. Each record is composed of administrative, medical-clinical, and operational variables. The experimental results indicate that the balanced random forest model outperforms the competition, reaching a sensitivity of 0.70 and an AUC value of 0.78

    Interpretable Machine Learning Model for Clinical Decision Making

    Get PDF
    Despite machine learning models being increasingly used in medical decision-making and meeting classification predictive accuracy standards, they remain untrusted black-boxes due to decision-makers\u27 lack of insight into their complex logic. Therefore, it is necessary to develop interpretable machine learning models that will engender trust in the knowledge they generate and contribute to clinical decision-makers intention to adopt them in the field. The goal of this dissertation was to systematically investigate the applicability of interpretable model-agnostic methods to explain predictions of black-box machine learning models for medical decision-making. As proof of concept, this study addressed the problem of predicting the risk of emergency readmissions within 30 days of being discharged for heart failure patients. Using a benchmark data set, supervised classification models of differing complexity were trained to perform the prediction task. More specifically, Logistic Regression (LR), Random Forests (RF), Decision Trees (DT), and Gradient Boosting Machines (GBM) models were constructed using the Healthcare Cost and Utilization Project (HCUP) Nationwide Readmissions Database (NRD). The precision, recall, area under the ROC curve for each model were used to measure predictive accuracy. Local Interpretable Model-Agnostic Explanations (LIME) was used to generate explanations from the underlying trained models. LIME explanations were empirically evaluated using explanation stability and local fit (R2). The results demonstrated that local explanations generated by LIME created better estimates for Decision Trees (DT) classifiers

    Predicting Hospital Readmission for Campylobacteriosis from Electronic Health Records: A Machine Learning and Text Mining Perspective

    Get PDF
    (1) Background: This study investigates influential risk factors for predicting 30-day readmission to hospital for Campylobacter infections (CI). (2) Methods: We linked general practitioner and hospital admission records of 13,006 patients with CI in Wales (1990−2015). An approach called TF-zR (term frequency-zRelevance) technique was presented to evaluates how relevant a clinical term is to a patient in a cohort characterized by coded health records. The zR is a supervised term-weighting metric to assign weight to a term based on relative frequencies of the term across different classes. Cost-sensitive classifier with swarm optimization and weighted subset learning was integrated to identify influential clinical signals as predictors and optimal model for readmission prediction. (3) Results: From a pool of up to 17,506 variables, 33 most predictive factors were identified, including age, gender, Townsend deprivation quintiles, comorbidities, medications, and procedures. The predictive model predicted readmission with 73% sensitivity and 54% specificity. Variables associated with readmission included male gender, recurrent tonsillitis, non-healing open wounds, operation for in-gown toenails. Cystitis, paracetamol/codeine use, age (21−25), and heliclear triple pack use, were associated with a lower risk of readmission. (4) Conclusions: This study gives a profile of clustered variables that are predictive of readmission associated with campylobacteriosis

    Computational intelligence contributions to readmisision risk prediction in Healthcare systems

    Get PDF
    136 p.The Thesis tackles the problem of readmission risk prediction in healthcare systems from a machine learning and computational intelligence point of view. Readmission has been recognized as an indicator of healthcare quality with primary economic importance. We examine two specific instances of the problem, the emergency department (ED) admission and heart failure (HF) patient care using anonymized datasets from three institutions to carry real-life computational experiments validating the proposed approaches. The main difficulties posed by this kind of datasets is their high class imbalance ratio, and the lack of informative value of the recorded variables. This thesis reports the results of innovative class balancing approaches and new classification architectures

    Real-time Prediction of the Risk of Hospital Readmissions

    Get PDF
    This study aims to identify predictors for patients likely to be readmitted to a hospital within 28 days of discharge and to develop and validate a prediction model for identifying patients at a high risk of readmission. Numerous attempts have been made to build similar predictive models. However, the majority of existing models suffer from at least one of the following shortcomings: the model is not based on Australian Health Data; the model uses insurance claim data, which would not be available in a real-time clinical setting; the model does not consider socio-demographic determinants of health, which have been demonstrated to be predictive of readmission risk; or the model is limited to a particular medical condition and is thus limited in scope. To address these shortcomings, we built several models to predict all-cause 28-day readmission risk and included Socio-economic Indexes for Areas (SEIFA) data as proxies for socio-demographic determinants of health. Additionally, instead of using insurance claims data, which could require several weeks to process, we built our models using data that is readily available during the inpatient stay or at the time of discharge. The set of default prediction models that were examined include logistic regression, elastic net, random forest and adaptive boosting (Ada Boost). This study examined A not for profit tertiary healthcare organisation from fiscal year 2012-2013 through fiscal year 2017-2018. The out-of-sample results show that all of the models performed similarly and adequately to predict readmission risk

    Reduction of emergency department returns after discharge from hospital: Machine learning model to predict emergency department returns 30 days post hospital discharge for medical patients

    Get PDF
    Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Business AnalyticsPost-hospital discharge returns to emergency departments are associated with reducing the efficiency of the emergency department (ED) utilisation and the quality of healthcare. These returns are often related to the nature of the disease and/or inadequate care. This thesis aims to develop a machine-learning model that predicts ED returns within 30 days of inpatient discharge from Portuguese public hospitals. Different binary classification models were trained and evaluated with a particular focus on sensitivity (predictive power of the critical class of returning patients). The selected model was the Extreme gradient boost Classifier, which showed the best performance on recall and the other considered performance metrics. A cohort of 93 449 medical hospitalisations of adult patients discharged between January 1st, 2018, and December 31st, 2019, was assembled with diagnoses details to be used in this study. According to the problem's requirement, the recall was the performance metric to be maximised. Therefore, Performance optimisation methods were considered, and the final model resulted in a recall of 84.38%, precision of 84.35%, F1 score of 84.36% and accuracy of 84.10%. Future deployment and integration of this ED return predictive analytics into the inpatient care workflow may allow identifying patients that require targeted care interventions that reduce overall healthcare expense and improve health outcomes

    Readmission risk prediction for patients after total hip or knee arthroplasty

    Get PDF
    Cybersecurity intelligence sharing (CIS) has the potential to help organisations improving their situational awareness. Although CIS has received more attention from organisations, participation in CIS operation is not satisfactory, and there is not too much information about the factors that are antecedent to CIS among organisations . Thus, this study aims to investigate technical and non-technical factors including organisational and environmental factors influence organisational participation in CIS practices

    Predicting post-surgical lenght of stay using machine learning

    Get PDF
    Tese de mestrado integrado em Engenharia Biomédica e Biofísica (Engenharia Clínica e Instrumentação Médica), Universidade de Lisboa, Faculdade de Ciências, 2020Ser saudável, em qualquer cultura, é essencialmente a condição mais importante para uma vida longa e feliz e para ela contribui toda a rede hospitalar de um país, quer seja um sistema de saúde nacional ou privado. Análogo a diferentes áreas, também a saúde deve acompanhar a evolução tecnológica para oferecer serviços avançados devido às variedades de demandas sociais. Isso acontece porque o desenvolvimento de tecnologias e metodologias em saúde permite criar novos processos aprimorados e torna os já existentes mais eficientes. A tecnologia na medicina não envolve apenas anestésicos e antibióticos ou técnicas médicas, como ressonância magnética e radioterapia. Na verdade, como os pacientes geram enormes quantidades de informações, não só médicas (como resultados de análises ao sangue), mas também relacionadas com o hospital (nomeadamente o tempo e o tipo de cirurgia), um dos avanços mais importantes dos últimos anos foi a digitalização dessas mesmas informações por meio dos registos de saúde eletrónico. Um dos maiores e mais diretos benefícios conhecidos da digitalização médica é que o atendimento ao paciente é mais fácil e eficiente. Contudo, a grande finalidade da existência destes registos vem após o tratamento e manipulação dos dados com técnicas de ciência dos dados quando, por exemplo, alguns diagnósticos, como as doenças cardíacas, podem ser previstos pelo uso dessas metodologias. Assim, na posse dos dados em formato digital, diferentes técnicas podem ser aplicadas, conforme o caso, de modo a extrair informações que não seriam visíveis per si. Os resultados são tanto melhores quanto mais cógnito todo o processo por trás da coleta de dados, pois aperfeiçoa a seleção e o pré- -processamento dos dados. Dentro das técnicas existentes para a previsão a partir dos bancos de dados e, consequentemente, auxiliar uma empresa a tomar as melhores decisões, está a aprendizagem automática. Esta área fornece aos sistemas a capacidade de aprender e melhorar automaticamente com a experiência, sem ser explicitamente programado, o que pode ser extremamente relevante na área da saúde. Paralelamente à tecnologia, fatores financeiros e de gestão também devem ser considerados, pois também o hospital é uma empresa que deve ser gerida. Assim, além de contribuir para o bem-estar da população, um dos seus objetivos internos é reduzir ao máximo os custos sem prejudicar o normal funcionamento de qualquer atividade desempenhada, otimizando recursos. Neste seguimento, um dos aspetos mais problemáticos da logística hospitalar é a gestão de camas. O seu excesso, ao mesmo tempo que garante maior alocação de pacientes, leva também a um custo hospitalar excessivo. Sob outra perspetiva, um défice pode gerar situações graves para quem precisa. Em suma, a gestão profissional de camas visa uma alta taxa de ocupação, mas uma baixa taxa de cancelamentos, alcançando assim uma alocação ótima. Porém, a sua distribuição ideal é dificultada pela difícil precisão do tempo de internamento de pacientes hospitalizados. De modo a colmatar esta adversidade, é possível a concretização de um modelo capaz de prever o tempo de estadia com maior rigor através da manipulação de um conjunto de dados composto, neste caso, por informações de pacientes. Desta forma, esta dissertação tem como finalidade a criação e avaliação, em Python, de um modelo preditivo de classificação para o tempo de internamento para pacientes que sejam submetidos a cirurgia, tendo como base de comparação o adotado atualmente pelo hospital em estudo, o HBA. Por forma a alcançar este propósito, recorrendo à metodologia Cross-Industry Standard Process for Data Mining, este trabalho dividiu-se em três etapas: o entendimento dos dados e respetiva preparação, a sua modelação e por fim a sua avaliação e comparação com o modelo do HBA. Este estudo visa suprir as lacunas de outros estudos que não consideram simultaneamente características gerais dos pacientes e hospitalares, como a de data e hora da cirurgia. Além disso, existe ainda uma carência na literatura de estudos que utilizem aprendizagem automática no que diz respeito aos pacientes de origem exclusivamente cirúrgica. Para o início da primeira fase, foi utilizado um dataset referente a 20 736 pacientes que estiveram hospitalizados no HBA entre o ano de 2017 e 2018, estando ainda asseguradas 135 características dos mesmos, quer do foro do paciente, quer do foro hospitalar. Após a receção dos dados, é necessária a sua compreensão do ponto de vista médico e comportamental, uma vez que o modo como foi preenchido está sujeito a erros de cariz humano. Estes erros podem ir desde a troca de informações no momento do preenchimento, assim como à existência de características que representam a mesma ideia, estando uma mais atualizada relativamente a outra. Assim sendo, é importante um primeiro contacto com os responsáveis pelo preenchimento do conjunto de dados por forma a garantir a sua leitura plausível e respetivo entendimento das informações fornecidas por cada uma das características. A partir desta análise é possível uma organização primordial dos dados. Ainda nesta etapa é imperativo verificar a possibilidade de formação de novas variáveis a partir de outras já existentes de forma a enriquecer o dataset. O conhecimento da distribuição das variáveis torna-se essencial para a total compreensão dos da dos, uma vez que permite a averiguação da repartição de categorias de cada uma das características. Nesta fase é assim necessário o conhecimento, limpeza e preparação dos dados para que estes possam ser seguidamente modelados. A segunda etapa refere-se à modelação dos dados a um dos algoritmos de aprendizagem automática, neste caso, das Random Forests. Uma vez que a finalidade se prende em dois modelos diferentes – pré e pós-cirúrgico – é indispensável ter em consideração as variáveis consideradas em cada um dos modelos, tendo pleno conhecimento do momento em que cada uma delas é referenciada pela primeira vez. Tratando-se de um algoritmo de classificação com 135 features, é ainda imprescindível uma seleção de variáveis ideal. Esta seleção de variáveis permite um aperfeiçoamento da acuidade e uma redução do overfitting, face a um modelo que utilize todas as variáveis. Para além disto, o facto de haver um menor número de atributos considerados, também levará a que o tempo de treino seja menor. Por fim, a última fase diz respeito à avaliação dos resultados. Para ambos os modelos, pré e pós cirúrgico, a métrica utilizada foi o F1-score, por se tratar de dados não equilibrados. Desta forma, com a elaboração destes modelos foi possível verificar-se uma melhoria notória, dependendo da especialidade, face ao modelo atualmente em vigência de, em média, 13,87 pontos percentuais para o modelo pós operatório e 12,32 para o modelo pré-operatório. Constrangimentos como o número restrito de pacientes considerados após a preparação do conjunto de dados para a modelação e erros comportamentais no preenchimento do dataset poderão ter limitado os resultados desta dissertação. No entanto, mesmo podendo beneficiar de algumas melhorias, a finalidade para o qual este projeto foi proposto, foi cumprida. Neste caso em específico, foi possível denotar melhorias face ao modelo atualmente empregue no hospital, comprovando assim o potencial de modelos que tiram proveito dos benefícios da aprendizagem automática. Em adição ao objetivo central deste trabalho foi ainda feita uma análise e comparação entre modelos que contivessem apenas variáveis do foro do paciente e modelos que incluíam unicamente variáveis de procedimento ou estruturais. A elaboração destes modelos e posterior análise visou a comparação da influência destes dois tipos de variáveis num modelo hospitalar, com o intuito de enaltecer a importância do correto preenchimento destes atributos por parte dos profissionais. Os resultados desta abordagem permitiram reconhecer a relevância associada à integração dos dois tipos de variáveis num modelo de Random Forests, adicionando uma melhoria média de 9,68 pontos percentuais em relação ao uso exclusivo de variáveis relacionadas ao paciente e 3,83 para variáveis relacionadas ao procedimento para o modelo pós-cirúrgico. Por sua vez, para o modelo pré-cirúrgico, a incorporação de ambas as variáveis traz uma melhoria de 7,67 pontos percentuais em relação ao modelo que utiliza apenas características do paciente e 5,72 para o modelo apenas com variáveis relacionadas ao procedimento. Com esta dissertação, demonstra-se que a partir da aplicação de técnicas de Random Forests aos registos de saúde eletrónico do hospital em estudo é possível criar um modelo preditivo para o tempo de estadia. Isto possibilita no futuro um processo de gestão de camas otimizado, permitindo assim a diminuição dos custos hospitalares.In recent years, there has been a steady increase in the number of hospitals adopting Electronic Health Records (EHR) allowing a digitalisation of patient data. In turn, the correct manipulation of these data, using Data Mining (DM) techniques, can lead to achieving solutions both related to patients’ health and hospital management. Regarding hospital management problems, one of the most severe issues is related to bed management, which is associated with the Length of Stay (LOS) in the hospital. In this way, taking advantage of the information taken from the data collected from the patients, whether of a personal or hospital nature, it is possible to solve or mitigate this complication hitherto hardly solvable. In this follow-up, this dissertation will focus on the case study of Hospital Beatriz Ângelo (HBA) and proposes a Cross-Industry Standard Process for Data Mining (CRISP-DM) methodology in order to predict the LOS of patients after surgeries. Random Forests (RF) was the technique considered to perform the classification task and F1-score was the metric selected to evaluate the results. LOS is predicted by models developed in different situations: in the postoperative period and in the preoperative period. Comparing the results between the models developed and the discharge system used in this hospital, it is possible to conclude that there are remarkable results, with an average improvement of 13.87 percentage points for the postoperative model and 12.32 for the preoperative model, in terms of F1-score. In addition, an analysis and comparison between models that have as input merely patient-related variables and models solely containing procedure or structural-related variables was made, in order to understand the importance of each of these two types of features in the LOS. The results of this approach allowed the recognition of the importance associated with the integration of the two types of features in a Machine Learning (ML) model, adding an average improvement, in terms of F1-score, of 9.68 percentage points in relation to the exclusive use of patient-related variables and 3.83 for procedure-related variables for the post-surgical model. In turn, for the pre-surgical model, the incorporation of both variables brings an improvement of 7.67 percentage points compared to the model that uses only patient features and 5.72 for the model with only procedure-related variables. The overall results of this work demonstrated that there was an improvement in the ML model in relation to the existing one, highlighting a better forecast of the day of discharge, which allows a better management of the beds
    corecore