275 research outputs found

    Consistency of compact and extended models of glucose-insulin homeostasis: The role of variable pancreatic reserve

    Get PDF
    Published compact and extended models of the glucose-insulin physiologic control system are compared, in order to understand why a specific functional form of the compact model proved to be necessary for a satisfactory representation of acute perturbation experiments such as the Intra Venous Glucose Tolerance Test (IVGTT). A spectrum of IVGTT’s of virtual subjects ranging from normal to IFG to IGT to frank T2DM were simulated using an extended model incorporating the population-of-controllers paradigm originally hypothesized by Grodsky, and proven to be able to capture a wide array of experimental results from heterogeneous perturbation procedures. The simulated IVGTT’s were then fitted with the Single-Delay Model (SDM), a compact model with only six free parameters, previously shown to be very effective in delivering precise estimates of insulin sensitivity and secretion during an IVGTT. Comparison of the generating, extended-model parameter values with the obtained compact model estimates shows that the functional form of the nonlinear insulin-secretion term, empirically found to be necessary for the compact model to satisfactorily fit clinical observations, captures the pancreatic reserve level of the simulated virtual patients. This result supports the validity of the compact model as a meaningful analysis tool for the clinical assessment of insulin sensitivity

    Model Predictive Control Algorithms for Pen and Pump Insulin Administration

    Get PDF

    Contributions to modelling and control for improved hypoglycaemia and variability mitigation by dual-hormone artificial pancreas systems

    Full text link
    [ES] Las personas con diabetes tipo 1 carecen de la capacidad de secretar insulina y, por lo tanto, necesitan regular su glucosa en sangre con la administración de insulina exógena. El páncreas artificial se presenta como la solución tecnológica ideal para alcanzar los objetivos terapéuticos de la normoglucemia, liberando al paciente de la carga actual de autocontrol y manejo. Sin embargo, el riesgo de hipoglucemia y la variabilidad glucémica siguen siendo factores limitantes en los algoritmos de control actuales integrados en el páncreas artificial. El propósito de la presente tesis es profundizar en el conocimiento de la hipoglucemia y avanzar los algoritmos de control del páncreas artificial para minimizar la incidencia de hipoglucemia y reducir la variabilidad glucémica. Después de proporcionar una visión general del estado del arte del control de la glucosa y el páncreas artificial, esta tesis aborda temas relacionados con el modelado y el control, con las siguientes contribuciones: Se presenta una extensión del modelo de Bergman Minimal que tiene en cuenta la respuesta contrarreguladora a la hipoglucemia. Este modelo explica la relación entre los diversos cambios fisiológicos producidos durante la hipoglucemia, con la adrenalina y los ácidos grasos libres como actores principales. Como resultado, se obtiene una mejor comprensión de la hipoglucemia, lo que permite explicar una auto-potenciación paradójica de la hipoglucemia como se modela a través de enfoques funcionales en el ampliamente utilizado simulador de diabetes tipo 1 UVA-Padova, que se utilizará en esta tesis para la validación in silico de los controladores desarrollados. Se realiza una evaluación de las métricas de variabilidad de la glucosa y los índices de calidad de control. La evaluación de la variabilidad glucémica en el desempeño de los controladores es necesaria; pero todavía no hay un conjunto de métricas de variabilidad glucémica que sea considerado como el "gold estándar". Por tanto, se lleva a cabo un análisis de las métricas de variabilidad disponibles en la literatura para definir un conjunto de indicadores recomendables. Debido a las limitaciones de los sistemas de páncreas artificiales unihormonales para mitigar la hipoglucemia en escenarios difíciles como el ejercicio, esta tesis se centra en el desarrollo de nuevos algoritmos de control bihormonales, con infusión simultanea de insulina y glucagón. Se propone un controlador coordinado bihormonal con estructuras de control paralelas como un algoritmo de control factible para la mitigación de la hipoglucemia y la reducción de la variabilidad glucémica, demostrando un rendimiento superior al de las estructuras de control utilizadas actualmente con lazos de control independientes de insulina y glucagón. Los controladores están diseñados y evaluados in silico en escenarios desafiantes y su rendimiento se evalúa principalmente con el conjunto de métricas definidas previamente como las recomendables.[CA] Les persones amb diabetis tipus 1 no tenen la capacitat de secretar insulina secreta i per tant, necessiten regular la seva glucosa en sang amb l'administració d'insulina exògena. El Pàncrees Artificial es presenta com la solució tecnològica ideal per assolir els objectius terapèutics de la normoglucèmia, alliberant al pacient de la càrrega actual d'autocontrol. No obstant, el risc d'hipoglucèmia i l'alta variabilitat glucèmica continuen sent un factor limitant en els algoritmes de control actuals integrats en el Pàncrees Artificials. El propòsit de la present tesi és aprofundir en el coneixement de la hipoglucèmia i millorar els algoritmes de control per corregir amb antelació la dosi excessiva d'insulina, minimitzant la incidència d'hipoglucèmia i reduint la variabilitat glucèmica. Després de donar una visió general de l'estat de l'art del control de la glucosa i el pàncrees artificial, aquesta tesi aborda aspectes de modelització i control, amb les següents contribucions: Es presenta una extensió del model Minimal de Bergman amb la contrarregulació. Aquest model explica la relació entre els diversos canvis siològics produïts durant la hipoglucèmia. Així, permet comprendre millor la hipoglucèmia i comparar els resultats amb els proporcionats per l'enfocament funcional del simulador de diabetis tipus 1 més utilitzat a la comunitat científica. Es realitza una avaluació de les mètriques de variabilitat glucèmica i dels índexs de qualitat de control. Es necessària l'avaluació de la variabilitat glucèmica en el rendiment dels controladors; però encara no hi ha un conjunt de mètriques considerades com les "gold standard". Per tant, es realitza una anàlisi de les mètriques de variabilitat disponibles a la literatura per definir un conjunt d'indicadors recomanables. Es proposa un controlador bi-hormonal coordinat amb estructures de control paral.leles com un algoritme de control viable per a la mitigació d'hipoglucèmia i la reducció de la variabilitat glucèmica. Els controladors estan dissenyats i avaluats in-silico en escenaris desafiadors i el seu rendiment es valora principalment amb el conjunt de mètriques definides prèviament com les mètriques recomanables.[EN] People with Type 1 Diabetes lack the ability to secrete insulin and therefore need to regulate their blood glucose with exogenous insulin delivery. The Artificial Pancreas is presented as the ideal technological solution to reach the therapeutic goals of normoglycaemia, freeing the patient from the current burden of self-control and management. Nevertheless, the risk of hypoglycaemia and the high glycaemic variability are still a limiting factors in the current control algorithms integrated in the Artificial Pancreas. The purpose of the present thesis is to delve into knowledge of hypoglycaemia and to advance in the artificial pancreas control algorithms in order to minimise hypoglycaemia incidence and reduce glycaemic variability. After providing an overview of the state of the art in the eld of glucose control and articial pancreas, this thesis addresses issues on modelling and control, with the following contributions: An extension of the Bergman Minimal model accounting for counterregulatory response to hypoglycaemia is presented. This model explains the relationship between the several physiological changes produced during hypoglycaemia, with adrenaline and free fatty acids as main players. As a result, a better understanding of hypoglycaemia is gained, allowing to explain a paradoxical auto-potentiation of hypoglycaemia as modeled through functional approaches in the widespread used UVA-Padova Type 1 Diabetes simulator, which will be used in this thesis for in silico validation of the developed controllers. An assessment of glucose variability metrics and control quality indices is carried out. The evaluation of the glycaemic variability on the controllers performance is necessary; but there is not a gold standard variability metrics yet. Therefore, an analysis of the variability metrics available in literature is conducted in order to define a recommendable set of indicators. Due to the limitations of single-hormone artificial pancreas systems in mitigating hypoglycaemia in challenging scenarios such as exercise, this thesis focuses on the developement of new dual-hormone control algorithms, with concomitant infusion of insulin and glucagon. A coordinated dual-hormone controller with parallel control structures is proposed as a feasible control algorithm for hypoglycaemia mitigation and glycaemic variability reduction, demonstrating superior performance as currently used control structures with independent insulin and glucagon control loops. The controllers are designed and evaluated in-silico under challenging scenarios and their performance are assessed mainly with the set of metrics defined previously as the recommendable ones.Moscardó García, V. (2019). Contributions to modelling and control for improved hypoglycaemia and variability mitigation by dual-hormone artificial pancreas systems [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/120456TESI

    Insulin Estimation and Prediction A REVIEW OF THE ESTIMATION AND PREDICTION OF SUBCUTANEOUS INSULIN PHARMACOKINETICS IN CLOSED-LOOP GLUCOSE CONTROL

    Full text link
    This work was supported by the Spanish Ministry of Economy and Competitiveness (MINECO) through grant DPI2013-46982-C2-1-R and the EU through FEDER funds.Bondía Company, J.; Romero Vivó, S.; Ricarte Benedito, B.; Diez, J. (2018). Insulin Estimation and Prediction A REVIEW OF THE ESTIMATION AND PREDICTION OF SUBCUTANEOUS INSULIN PHARMACOKINETICS IN CLOSED-LOOP GLUCOSE CONTROL. IEEE Control Systems. 38(1):47-66. https://doi.org/10.1109/MCS.2017.2766312S476638

    Evaluation of blood glucose level control in Type 1 diabetic patients using online and offline reinforcement learning

    Get PDF
    [SPA] Los pacientes con diabetes tipo 1 deben monitorear de cerca sus niveles de glucemia y administrar insulina para controlarlos. Se han propuesto métodos de control automatizado de la glucemia que eliminan la necesidad de intervención humana, y recientemente, el aprendizaje por refuerzo, un tipo de algoritmo de aprendizaje automático, se ha utilizado como un método efectivo de control en entornos simulados. Actualmente, los métodos utilizados para los pacientes con diabetes, como el régimen basal- bolus y los monitores continuos de glucemia, tienen limitaciones y todavía requieren intervención manual. Los controladores PID se utilizan ampliamente por su simplicidad y robustez, pero son sensibles a factores externos que afectan su efectividad. Las obras existentes en la literatura de investigación se han enfocado principalmente en mejorar la precisión de estos algoritmos de control. Sin embargo, todavía hay margen para mejorar la adaptabilidad a los pacientes individuales. La siguiente fase de investigación tiene como objetivo optimizar aún más los métodos actuales y adaptar los algoritmos para controlar mejor los niveles de glucemia. Una solución potencial es usar el aprendizaje por refuerzo (RL) para entrenar los algoritmos en base a datos individuales del paciente. En esta tesis, proponemos un control en lazo cerrado para los niveles de glucemia basado en el aprendizaje profundo por refuerzo. Describimos la evaluación inicial de varias alternativas llevadas a cabo en un simulador realista del sistema glucorregulador y proponemos una estrategia de implementación particular basada en reducir la frecuencia de las observaciones y recompensas pasadas al agente, y usar una función de recompensa simple. Entrenamos agentes con esa estrategia para tres grupos de clases de pacientes, los evaluamos y los comparamos con otras alternativas. Nuestros resultados muestran que nuestro método con Proximal Policy Optimization es capaz de superar a los métodos tradicionales, así como a propuestas similares recientes, al lograr períodos más prolongados de estado glicémico seguro y de bajo riesgo. Como extensión del aporte anterior, constatamos que la aplicación práctica de los algoritmos de control de glucemia requeriría interacciones de prueba y error con los pacientes, lo que es una limitación para entrenar el sistema de manera efectiva. Como alternativa, el aprendizaje reforzado sin conexión no requiere interacción con humanos y la investigación previa sugiere que se pueden lograr resultados prometedores con conjuntos de datos obtenidos sin interacción, similar a los algoritmos de aprendizaje automático clásicos. Sin embargo, aún no se ha evaluado la aplicación del aprendizaje reforzado sin conexión al control de la glucemia. Por lo tanto, en esta tesis, evaluamos exhaustivamente dos algoritmos de aprendizaje reforzado sin conexión para el control de glucemia y examinamos su potencial y limitaciones. Evaluamos el impacto del método utilizado para generar los conjuntos de datos de entrenamiento, el tipo de trayectorias (secuencias de estados, acciones y recompensas experimentadas por un agente en un entorno,) empleadas (método único o mixto), la calidad de las trayectorias y el tamaño de los conjuntos de datos en el entrenamiento y el rendimiento, y los comparamos con las alternativas como PID y Proximal Policy Optimization. Nuestros resultados demuestran que uno de los algoritmos de aprendizaje reforzado sin conexión evaluados, Trajectory Transformer, es capaz de rendir al mismo nivel que alternativas, pero sin necesidad de interacción con pacientes reales durante el entrenamiento.[ENG] Patients with Type 1 diabetes are required to closely monitor their blood glucose levels and administer insulin to manage them. Automated glucose control methods that eliminate the need for human intervention have been proposed, and recently, reinforcement learning, a type of machine learning algorithm, has been used as an effective control method in simulated environments. Currently, the methods used for diabetes patients, such as the basal-bolus regime and continuous glucose monitors, have limitations and still require manual intervention. The PID controllers are widely used for their simplicity and robustness, but they are sensitive to external factors affecting their effectiveness. The existing works in the research literature have mainly focused on improving the accuracy of these control algorithms. However, there is still room for improvement regarding adaptability to individual patients. The next phase of research aims to further optimize the current methods and adapt the algorithms to better control blood glucose levels. Machine learning proposals have paved the way partially, but they can generate generic models with limited adaptability. One potential solution is to use reinforcement learning (RL) to train the algorithms based on individual patient data. In this thesis, we propose a closed-loop control for blood glucose levels based on Deep reinforcement learning. We describe the initial evaluation of several alternatives conducted on a realistic simulator of the glucoregulatory system and propose a particular implementation strategy based on reducing the frequency of the observations and rewards passed to the agent, and using a simple reward function. We train agents with that strategy for three groups of patient classes, evaluate and compare it with alternative control baselines. Our results show that our method with Proximal Policy Optimization is able to outperform baselines as well as similar recent proposals, by achieving longer periods of safe glycemic state and low risk. As an extension of the previous contribution, we have noticed that, practical application of blood glucose control algorithms would necessitate trial-and-error interaction with patients, which could be a limitation for effectively training the system. As an alternative, offline reinforcement learning does not require interaction with subjects and preliminary research suggests that promising results can be achieved with datasets obtained offline, similar to classical machine learning algorithms. However, application of offline reinforcement learning to glucose control has to be evaluated yet. Thus, in this thesis, we comprehensively evaluate two offline reinforcement learning algorithms for blood glucose control and examine their potential and limitations. We assess the impact of the method used to generate training datasets, the type of trajectories employed (sequences of states, actions, and rewards experienced by an agent in an environment over time), the quality of the trajectories, and the size of the datasets on training and performance, and compare them to commonly used baselines such as PID and Proximal Policy Optimization. Our results demonstrate that one of the offline reinforcement learning algorithms evaluated, Trajectory Transformer, is able to perform at the same level as the baselines, but without the need for interaction with real patients during training.Escuela Internacional de Doctorado de la Universidad Politécnica de CartagenaUniversidad Politécnica de CartagenaPrograma Doctorado en Tecnologías de la Información y las Comunicacione

    STOCHASTIC SEASONAL MODELS FOR GLUCOSE PREDICTION IN TYPE 1 DIABETES

    Full text link
    [ES] La diabetes es un importante problema de salud mundial, siendo una de las enfermedades no transmisibles más graves después de las enfermedades cardiovasculares, el cáncer y las enfermedades respiratorias crónicas. La prevalencia de la diabetes ha aumentado constantemente en las últimas décadas, especialmente en países de ingresos bajos y medios. Se estima que 425 millones de personas en todo el mundo tenían diabetes en 2017, y para 2045 este número puede aumentar a 629 millones. Alrededor del 10% de las personas con diabetes padecen diabetes tipo 1, caracterizada por una destrucción autoinmune de las células beta en el páncreas, responsables de la secreción de la hormona insulina. Sin insulina, la glucosa plasmática aumenta a niveles nocivos, provocando complicaciones vasculares a largo plazo. Hasta que se encuentre una cura, el manejo de la diabetes depende de los avances tecnológicos para terapias de reemplazo de insulina. Con la llegada de los monitores continuos de glucosa, la tecnología ha evolucionado hacia sistemas automatizados. Acuñados como "páncreas artificial", los dispositivos de control de glucosa en lazo cerrado suponen hoy en día un cambio de juego en el manejo de la diabetes. La investigación en las últimas décadas ha sido intensa, dando lugar al primer sistema comercial a fines de 2017, y muchos más están siendo desarrollados por las principales industrias de dispositivos médicos. Sin embargo, como dispositivo de primera generación, muchos problemas aún permanecen abiertos y nuevos avances tecnológicos conducirán a mejoras del sistema para obtener mejores resultados de control glucémico y reducir la carga del paciente, mejorando significativamente la calidad de vida de las personas con diabetes tipo 1. En el centro de cualquier sistema de páncreas artificial se encuentra la predicción de glucosa, tema abordado en esta tesis. La capacidad de predecir la glucosa a lo largo de un horizonte de predicción dado, y la estimación de las tendencias futuras de glucosa, es la característica más importante de cualquier sistema de páncreas artificial, para poder tomar medidas preventivas que eviten por completo el riesgo para el paciente. La predicción de glucosa puede aparecer como parte del algoritmo de control en sí, como en sistemas basados en técnicas de control predictivo basado en modelo (MPC), o como parte de un sistema de supervisión para evitar episodios de hipoglucemia. Sin embargo, predecir la glucosa es un problema muy desafiante debido a la gran variabilidad inter e intra-sujeto que sufren los pacientes, cuyas fuentes solo se entienden parcialmente. Esto limita las prestaciones predictivas de los modelos, imponiendo horizontes de predicción relativamente cortos, independientemente de la técnica de modelado utilizada (modelos fisiológicos, basados en datos o híbridos). La hipótesis de partida de esta tesis es que la complejidad de la dinámica de la glucosa requiere la capacidad de caracterizar grupos de comportamientos en los datos históricos del paciente que llevan naturalmente al concepto de modelado local. Además, la similitud de las respuestas en un grupo puede aprovecharse aún más para introducir el concepto clásico de estacionalidad en la predicción de glucosa. Como resultado, los modelos locales estacionales están en el centro de esta tesis. Se utilizan varias bases de datos clínicas que incluyen comidas mixtas y ejercicio para demostrar la viabilidad y superioridad de las prestaciones de este enfoque.[CA] La diabetisés un important problema de salut mundial, sent una de les malalties no transmissibles més greus després de les malalties cardiovasculars, el càncer i les malalties respiratòries cròniques. La prevalença de la diabetis ha augmentat constantment en les últimes dècades, especialment en països d'ingressos baixos i mitjans. S'estima que 425 milions de persones a tot el món tenien diabetis en 2017, i per 2045 aquest nombre pot augmentar a 629 milions. Al voltant del 10% de les persones amb diabetis pateixen diabetis tipus 1, caracteritzada per una destrucció autoimmune de les cèl·lules beta en el pàncrees, responsables de la secreció de l'hormona insulina. Sense insulina, la glucosa plasmàtica augmenta a nivells nocius, provocant complicacions vasculars a llarg termini. Fins que es trobi una cura, el maneig de la diabetis depén dels avenços tecnològics per a teràpies de reemplaçament d'insulina. Amb l'arribada dels monitors continus de glucosa, la tecnologia ha evolucionat cap a sistemes automatitzats. Encunyats com "pàncrees artificial", els dispositius de control de glucosa en llaç tancat suposen avui dia un canvi de joc en el maneig de la diabetis. La investigació en les últimes dècades ha estat intensa, donant lloc al primer sistema comercial a finals de 2017, i molts més estan sent desenvolupats per les principals indústries de dispositius mèdics. No obstant això, com a dispositiu de primera generació, molts problemes encara romanen oberts i nous avenços tecnològics conduiran a millores del sistema per obtenir millors resultats de control glucèmic i reduir la càrrega del pacient, millorant significativament la qualitat de vida de les persones amb diabetis tipus 1. Al centre de qualsevol sistema de pàncrees artificial es troba la predicció de glucosa, tema abordat en aquesta tesi. La capacitat de predir la glucosa al llarg d'un horitzó de predicció donat, i l'estimació de les tendències futures de glucosa, és la característica més important de qualsevol sistema de pàncrees artificial, per poder prendre mesures preventives que evitin completament el risc per el pacient. La predicció de glucosa pot aparèixer com a part de l'algoritme de control en si, com en sistemes basats en técniques de control predictiu basat en model (MPC), o com a part d'un sistema de supervisió per evitar episodis d'hipoglucèmia. No obstant això, predir la glucosa és un problema molt desafiant degut a la gran variabilitat inter i intra-subjecte que pateixen els pacients, les fonts només s'entenen parcialment. Això limita les prestacions predictives dels models, imposant horitzons de predicció relativament curts, independentment de la tècnica de modelatge utilitzada (models fisiològics, basats en dades o híbrids). La hipòtesi de partida d'aquesta tesi és que la complexitat de la dinàmica de la glucosa requereix la capacitat de caracteritzar grups de comportaments en les dades històriques del pacient que porten naturalment al concepte de modelatge local. A més, la similitud de les respostes en un grup pot aprofitar-se encara més per introduir el concepte clàssic d'estacionalitat en la predicció de glucosa. Com a resultat, els models locals estacionals estan al centre d'aquesta tesi. S'utilitzen diverses bases de dades clíniques que inclouen menjars mixtes i exercici per demostrar la viabilitat i superioritat de les prestacions d'aquest enfocament.[EN] Diabetes is a significant global health problem, one of the most serious noncommunicable diseases after cardiovascular diseases, cancer and chronic respiratory diseases. Diabetes prevalence has been steadily increasing over the past decades, especially in low- and middle-income countries. It is estimated that 425 million people worldwide had diabetes in 2017, and by 2045 this number may rise to 629 million. About 10% of people with diabetes suffer from type 1 diabetes, characterized by autoimmune destruction of the beta-cells in the pancreas, responsible for the secretion of the hormone insulin. Without insulin, plasma glucose rises to deleterious levels, provoking long-term vascular complications. Until a cure is found, the management of diabetes relies on technological developments for insulin replacement therapies. With the advent of continuous glucose monitors, technology has been evolving towards automated systems. Coined as "artificial pancreas", closed-loop glucose control devices are nowadays a game-changer in diabetes management. Research in the last decades has been intense, yielding a first commercial system in late 2017 and many more are in the pipeline of the main medical devices industry. However, as a first-generation device, many issues still remain open and new technological advancements will lead to system improvements for better glycemic control outputs and reduced patient's burden, improving significantly the quality of life of people with type 1 diabetes. At the core of any artificial pancreas system is glucose prediction, the topic addressed in this thesis. The ability to predict glucose along a given prediction horizon, and estimation of future glucose trends, is the most important feature of any artificial pancreas system, in order to be able to take preventive actions to entirely avoid risk to the patient. Glucose prediction can appear as part of the control algorithm itself, such as in systems based on model predictive control (MPC) techniques, or as part of a monitoring system to avoid hypoglycemic episodes. However, predicting glucose is a very challenging problem due to the large inter- and intra-subject variability that patients suffer, whose sources are only partially understood. These limits models forecasting performance, imposing relatively short prediction horizons, despite the modeling technique used (physiological, data-driven or hybrid approaches). The starting hypothesis of this thesis is that the complexity of glucose dynamics requires the ability to characterize clusters of behaviors in the patient's historical data naturally yielding to the concept of local modeling. Besides, the similarity of responses in a cluster can be further exploited to introduce the classical concept of seasonality into glucose prediction. As a result, seasonal local models are at the core of this thesis. Several clinical databases including mixed meals and exercise are used to demonstrate the feasibility and superiority of the performance of this approach.This work has been supported by the Spanish Ministry of Economy and Competitiveness (MINECO) under the FPI grant BES-2014-069253 and projects DPI2013-46982-C2-1-R and DPI2016-78831-C2-1-R. Moreover, with relation to this grant, a short stay was done at the end of 2017 at the Illinois Institute of Technology, Chicago, United States of America, under the supervision of Prof. Ali Cinar, for four months from 01/09/2017 to 29/12/2017.Montaser Roushdi Ali, E. (2020). STOCHASTIC SEASONAL MODELS FOR GLUCOSE PREDICTION IN TYPE 1 DIABETES [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/136574TESI

    Modeling, Estimation, and Feedback Techniques in Type 2 Diabetes

    Get PDF

    In-Silico Evaluation of Glucose Regulation Using Policy Gradient Reinforcement Learning for Patients with Type 1 Diabetes Mellitus

    Get PDF
    In this paper, we test and evaluate policy gradient reinforcement learning for automated blood glucose control in patients with Type 1 Diabetes Mellitus. Recent research has shown that reinforcement learning is a promising approach to accommodate the need for individualized blood glucose level control algorithms. The motivation for using policy gradient algorithms comes from the fact that adaptively administering insulin is an inherently continuous task. Policy gradient algorithms are known to be superior in continuous high-dimensional control tasks. Previously, most of the approaches for automated blood glucose control using reinforcement learning has used a finite set of actions. We use the Trust-Region Policy Optimization algorithm in this work. It represents the state of the art for deep policy gradient algorithms. The experiments are carried out in-silico using the Hovorka model, and stochastic behavior is modeled through simulated carbohydrate counting errors to illustrate the full potential of the framework. Furthermore, we use a model-free approach where no prior information about the patient is given to the algorithm. Our experiments show that the reinforcement learning agent is able to compete with and sometimes outperform state-of-the-art model predictive control in blood glucose regulation
    corecore