Identification des personnes utilisant des drogues injectables dans les données clinico-administratives : développement et validation d’un algorithme au CHUM
Contexte : Les personnes utilisant des drogues injectables (PUDI) sont particulièrement à risque d’infections bactériennes telles que l’endocardite infectieuse, les infections ostéo-articulaires et les infections de la peau et des tissus mous. Leur identification, difficile dans les bases de données clinico-administratives, constitue un préalable essentiel pour mieux documenter leurs facteurs de risque et leur prévalence. Objectifs : Ce mémoire vise à développer et valider un algorithme d’identification des PUDI à partir des données clinico-administratives du Centre hospitalier de l’Université de Montréal (CHUM), en ciblant les patients admis au service des urgences entre 2012 et 2022 pour une infection bactérienne potentiellement liée à l’usage de drogues injectables. Méthodes : Un échantillon aléatoire de 4 000 patients a été extrait de la cohorte TRENDS, une cohorte rétrospective construite à partir des données clinico-administratives du CHUM, et divisé en deux sous-ensembles : un ensemble de développement (n = 3 000) et un ensemble de validation (n = 1 000). Le statut PUDI de chaque patient a été établi à partir d'une révision manuelle des dossiers médicaux. Une analyse univariée a d’abord été réalisée pour identifier les variables significativement associées au statut PUDI. Ces variables ont ensuite été intégrées à des modèles de régression logistique multivariée. Plusieurs modèles ont été construits, puis comparés selon leurs performances diagnostiques, en s’appuyant notamment sur la sensibilité, la spécificité, les valeurs prédictives, la courbe ROC (Receiver Operating Characteristic) et le score F1. Le modèle le plus parcimonieux et optimisant les critères dont le F1 a été retenu comme modèle final. Résultats : Après l’analyse univariée, 12 modèles ont été développés et évalués. Le modèle final a été retenu pour ses bonnes performances et sa simplicité d’implantation. Les variables les plus prédictives comprenaient l’âge, le statut sérologique VIH (virus de l'immunodéficience humaine) et VHC (virus de l'hépatite C), le temps d’attente à l’urgence, les antécédents de consommation de cocaïne et d’opiacés, la consultation en médecine des toxicomanies et l’utilisation d’un traitement agoniste aux opioïdes. Ce modèle, fondé sur des variables sociodémographiques, cliniques et liées à l’utilisation des services, a atteint une sensibilité de 0,740, une spécificité de 0,973, une valeur prédictive positive (VPP) de 0,587, une aire sous la courbe (AUC) de 0,937 et un score F1 de 0,655. Conclusions : Cette étude montre qu’un algorithme fondé sur les données clinico-administratives peut permettre d’identifier efficacement les PUDI, ouvrant la voie à de meilleures études épidémiologiques dans une perspective de développement d’interventions ciblées à l’amélioration de la prise en charge clinique de cette population vulnérable.Background: People who inject drugs (PWID) are particularly at risk of bacterial infections such as infective endocarditis, osteoarticular infections, and skin and soft tissue infections. Identifying them, which is difficult in clinical and administrative databases, is an essential prerequisite for better documenting their risk factors and prevalence. Objectives: This thesis aims to develop and validate an algorithm to identify PWID using administrative health data from the University of Montreal Hospital Center (CHUM), focusing on patients admitted to the emergency department between 2012 and 2022 for a bacterial infection potentially related to injection drug use. Methods: A random sample of 4,000 patients was extracted from the TRENDS cohort; a retrospective cohort built from CHUM administrative health data and divided into two subsets: a training set (n = 3,000) and a validation set (n = 1,000). The PWID status of each patient was determined through patient record. A univariate analysis was first conducted to identify variables significantly associated with PWID status. These variables were then included in multivariable logistic regression models. Several models were constructed and compared based on their diagnostic performance, using sensitivity, specificity, predictive values, the Receiver Operating Characteristic (ROC) curve, and the F1 score. The most parsimonious model, optimizing these criteria particularly the F1 score was selected as the final model. Results: Following univariate analysis, 12 models were developed and evaluated. The final model was selected for its optimal performance and implementation simplicity. The most predictive variables included age, HIV and HCV serostatus, emergency department wait time, history of cocaine and opioid use, consultation in addiction medicine, and use of opioid agonist therapy. Based on sociodemographic, clinical, and service utilization variables, this model achieved a sensitivity of 0.740, a specificity of 0.973, a positive predictive value (PPV) of 0.587, an area under the ROC curve (AUC) of 0.937, and an F1 score of 0.655. Conclusions: This study demonstrates that an algorithm based on administrative health data can effectively identify PWID, paving the way for improved epidemiological studies and the development of targeted interventions to enhance the clinical management of this vulnerable population