1,001 research outputs found

    Deep Neural Networks for Multi-Label Text Classification: Application to Coding Electronic Medical Records

    Get PDF
    Coding Electronic Medical Records (EMRs) with diagnosis and procedure codes is an essential task for billing, secondary data analyses, and monitoring health trends. Both speed and accuracy of coding are critical. While coding errors could lead to more patient-side financial burden and misinterpretation of a patient’s well-being, timely coding is also needed to avoid backlogs and additional costs for the healthcare facility. Therefore, it is necessary to develop automated diagnosis and procedure code recommendation methods that can be used by professional medical coders. The main difficulty with developing automated EMR coding methods is the nature of the label space. The standardized vocabularies used for medical coding contain over 10 thousand codes. The label space is large, and the label distribution is extremely unbalanced - most codes occur very infrequently, with a few codes occurring several orders of magnitude more than others. A few codes never occur in training dataset at all. In this work, we present three methods to handle the large unbalanced label space. First, we study how to augment EMR training data with biomedical data (research articles indexed on PubMed) to improve the performance of standard neural networks for text classification. PubMed indexes more than 23 million citations. Many of the indexed articles contain relevant information about diagnosis and procedure codes. Therefore, we present a novel method of incorporating this unstructured data in PubMed using transfer learning. Second, we combine ideas from metric learning with recent advances in neural networks to form a novel neural architecture that better handles infrequent codes. And third, we present new methods to predict codes that have never appeared in the training dataset. Overall, our contributions constitute advances in neural multi-label text classification with potential consequences for improving EMR coding

    Automated clinical coding using off-the-shelf large language models

    Full text link
    The task of assigning diagnostic ICD codes to patient hospital admissions is typically performed by expert human coders. Efforts towards automated ICD coding are dominated by supervised deep learning models. However, difficulties in learning to predict the large number of rare codes remain a barrier to adoption in clinical practice. In this work, we leverage off-the-shelf pre-trained generative large language models (LLMs) to develop a practical solution that is suitable for zero-shot and few-shot code assignment, with no need for further task-specific training. Unsupervised pre-training alone does not guarantee precise knowledge of the ICD ontology and specialist clinical coding task, therefore we frame the task as information extraction, providing a description of each coded concept and asking the model to retrieve related mentions. For efficiency, rather than iterating over all codes, we leverage the hierarchical nature of the ICD ontology to sparsely search for relevant codes.Comment: Accepted to the NeurIPS 2023 workshop Deep Generative Models For Health (DGM4H). 9 pages, 3 figure

    Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt

    Full text link
    Automatic International Classification of Diseases (ICD) coding aims to assign multiple ICD codes to a medical note with an average of 3,000+ tokens. This task is challenging due to the high-dimensional space of multi-label assignment (155,000+ ICD code candidates) and the long-tail challenge - Many ICD codes are infrequently assigned yet infrequent ICD codes are important clinically. This study addresses the long-tail challenge by transforming this multi-label classification task into an autoregressive generation task. Specifically, we first introduce a novel pretraining objective to generate free text diagnoses and procedure using the SOAP structure, the medical logic physicians use for note documentation. Second, instead of directly predicting the high dimensional space of ICD codes, our model generates the lower dimension of text descriptions, which then infer ICD codes. Third, we designed a novel prompt template for multi-label classification. We evaluate our Generation with Prompt model with the benchmark of all code assignment (MIMIC-III-full) and few shot ICD code assignment evaluation benchmark (MIMIC-III-few). Experiments on MIMIC-III-few show that our model performs with a marco F1 30.2, which substantially outperforms the previous MIMIC-III-full SOTA model (marco F1 4.3) and the model specifically designed for few/zero shot setting (marco F1 18.7). Finally, we design a novel ensemble learner, a cross attention reranker with prompts, to integrate previous SOTA and our best few-shot coding predictions. Experiments on MIMIC-III-full show that our ensemble learner substantially improves both macro and micro F1, from 10.4 to 14.6 and from 58.2 to 59.1, respectively.Comment: To be appear in AAAI202

    Beyond Volume: The Impact of Complex Healthcare Data on the Machine Learning Pipeline

    Full text link
    From medical charts to national census, healthcare has traditionally operated under a paper-based paradigm. However, the past decade has marked a long and arduous transformation bringing healthcare into the digital age. Ranging from electronic health records, to digitized imaging and laboratory reports, to public health datasets, today, healthcare now generates an incredible amount of digital information. Such a wealth of data presents an exciting opportunity for integrated machine learning solutions to address problems across multiple facets of healthcare practice and administration. Unfortunately, the ability to derive accurate and informative insights requires more than the ability to execute machine learning models. Rather, a deeper understanding of the data on which the models are run is imperative for their success. While a significant effort has been undertaken to develop models able to process the volume of data obtained during the analysis of millions of digitalized patient records, it is important to remember that volume represents only one aspect of the data. In fact, drawing on data from an increasingly diverse set of sources, healthcare data presents an incredibly complex set of attributes that must be accounted for throughout the machine learning pipeline. This chapter focuses on highlighting such challenges, and is broken down into three distinct components, each representing a phase of the pipeline. We begin with attributes of the data accounted for during preprocessing, then move to considerations during model building, and end with challenges to the interpretation of model output. For each component, we present a discussion around data as it relates to the healthcare domain and offer insight into the challenges each may impose on the efficiency of machine learning techniques.Comment: Healthcare Informatics, Machine Learning, Knowledge Discovery: 20 Pages, 1 Figur

    Explainable clinical coding with in-domain adapted transformers

    Get PDF
    Background and Objective: Automatic clinical coding is a crucial task in the process of extracting relevant in-formation from unstructured medical documents contained in Electronic Health Records (EHR). However, most of the existing computer-based methods for clinical coding act as “black boxes”, without giving a detailed description of the reasons for the clinical-coding assignments, which greatly limits their applicability to real-world medical scenarios. The objective of this study is to use transformer-based models to effectively tackle explainable clinical-coding. In this way, we require the models to perform the assignments of clinical codes to medical cases, but also to provide the reference in the text that justifies each coding assignment. Methods: We examine the performance of 3 transformer-based architectures on 3 different explainable clinical-coding tasks. For each transformer, we compare the performance of the original general-domain version with an in-domain version of the model adapted to the specificities of the medical domain. We address the explainable clinical-coding problem as a dual medical named entity recognition (MER) and medical named entity normal-ization (MEN) task. For this purpose, we have developed two different approaches, namely a multi-task and a hierarchical-task strategy. Results: For each analyzed transformer, the clinical-domain version significantly outperforms the corresponding general domain model across the 3 explainable clinical-coding tasks analyzed in this study. Furthermore, the hierarchical-task approach yields a significantly superior performance than the multi-task strategy. Specifically, the combination of the hierarchical-task strategy with an ensemble approach leveraging the predictive capa-bilities of the 3 distinct clinical-domain transformersFunding for open access charge: Universidad de Málaga / CBUA. The authors thankfully acknowledge the computer resources, technical expertise and assistance provided by the SCBI (Supercomputing and Bioinformatics) center of the University of Málaga

    Passive optical network (PON) monitoring using optical coding technology

    Get PDF
    Les réseaux optiques passifs (PON) semblent être la technologie gagnante et ultime du futur pour les "fibres jusqu'au domicile" ayant une haute capacité. L'écoute de contrôle de ce genre de système est nécessaire pour s'assurer un niveau de qualité de service prédéterminé pour chaque client. En outre, l'écoute de contrôle réduit considérablement les dépenses en capital et de fonctionnement (CAPEX et OPEX), tant pour le fournisseur du réseau que les clients. Alors que la capacité des PON est croissante, les gestionnaires de réseau ne disposent pas encore d'une technologie efficace et appropriée pour l'écoute de contrôle des réseaux de capacité aussi élevée. Une variété de solutions a été proposée. Toutes ces dernières solutions ne sont pas pratiques à cause de leur faible capacité (nombre de clients), d'une faible évolutivité, d'une grande complexité et des défis technologiques. Plus important encore, la technologie souhaitable pour l'écoute de contrôle devrait être rentable car le marché des PON est très sensible aux coûts. Dans cette thèse, nous considérons l'application de la technologie du codage optique passif (OC) comme une solution prometteuse pour l'écoute de contrôle centralisée d'un réseau optique ramifié tels que les réseaux PON. Dans la première étape, nous développons une expression pour le signal détecté par l'écoute de contrôle et étudions ses statistiques. Nous trouvons une nouvelle expression explicite pour le rapport signal utile/signal brouillé (SIR) comme outil de mesure métrique de performance. Nous considérons cinq distributions PON géographiques différentes et étudions leurs effets sur l'SIR pour l'écoute de contrôle d'OC. Dans la prochaine étape, nous généralisons notre modèle mathématique et ses expressions pour le contrôle des signaux détectés par un détecteur quadratique et des paramètres réalistes. Nous évaluons ensuite les performances théoriques de la technologie basée sur l'écoute de contrôle selon le rapport signal/bruit (SNR), le rapport signal/bruit plus coefficient d'interférence (SNIR), et la probabilité de fausse alarme. Nous élaborons l'effet de la puissance d'impulsion transmise, la taille du réseau et la cohérence de la source lumineuse sur le rendement des codes unidimensionnels (ID) et bidimensionnels (2D) de l'écoute de contrôle d'OC. Une conception optimale est également abordée. Enfin, nous appliquons les tests de Neyman-Pearson pour le récepteur de notre système d'écoute de contrôle et enquêtons sur la façon dont le codage et la taille du réseau affectent les dépenses de fonctionnement (OPEX) de notre système d'écoute de contrôle. Malgré le fait que les codes ID et 2D fournissent des performances acceptables, elles exigent des encodeurs avec un nombre élevé de composants optiques : ils sont encombrants, causent des pertes, et ils sont coûteux. Par conséquent, nous proposons un nouveau schéma de codage simple et plus approprié pour notre application de l'écoute de contrôle que nous appelons le codage périodique. Par simulation, nous évaluons l'efficacité de l'écoute de contrôle en terme de SNR pour un PON employant cette technologie. Ce système de codage est utilisé dans notre vérification expérimentale de l'écoute de contrôle d'OC. Nous étudions expérimentalement et par simulation, l'écoute de contrôle d'un PON utilisant la technologie de codage périodique. Nous discutons des problèmes de conception pour le codage périodique et les critères de détection optimale. Nous développons également un algorithme séquentiel pour le maximum de vraisemblance avec une complexité réduite. Nous menons des expériences pour valider notre algorithme de détection à l'aide de quatre encodeurs périodiques que nous avons conçus et fabriqués. Nous menons également des simulations de Monte-Carlo pour des distributions géographiques de PON réalistes, avec des clients situés au hasard. Nous étudions l'effet de la zone de couverture et la taille du réseau (nombre d'abonnés) sur l'efficacité de calcul de notre algorithme. Nous offrons une borne sur la probabilité pour un réseau donné d'entraîner l'algorithme vers un temps exorbitant de surveillance du réseau, c'est à dire le délai d'attente de probabilité. Enfin, nous soulignons l'importance du moyennage pour remédier aux restrictions budgétaires en puissance/perte dans notre système de surveillance afin de supporter de plus grandes tailles de réseaux et plus grandes portées de fibres. Ensuite, nous mettrons à niveau notre dispositif expérimental pour démontrer un m PON avec 16 clients. Nous utilisons un laser à modulation d'exploitation directement à 1 GHz pour générer les impulsions sonde. Les données mesurées par le dispositif expérimental est exploité par l'algorithme de MLSE à détecter et à localiser les clients. Trois déploiements PON différents sont réalisés. Nous démontrons une surveillance plus rigoureuse pour les réseaux ayant une répartition géographique à plusieurs niveaux. Nous étudions aussi le budget de la perte de notre dispositif de soutien plus élevés de capacités du réseau. Enfin, nous étudions le budget total admissible de la perte d'exploitation du système de surveillance dans la bande de fréquences à 1650 nm en fonction des spécifications de l'émetteur/récepteur. En particulier, la limite totale de la perte de budget est représentée en fonction du gain de l'amplicateure de transimpédance (TIA) et le résolution de la conversion analogique-numérique (ADC). Par ailleurs, nous enquêtons sur le compromis entre la distance portée et la capacité (taille de fractionnement au niveau du noeud distant) dans notre système de suivi

    Substituting Data Annotation with Balanced Updates and Collective Loss in Multi-label Text Classification

    Full text link
    Multi-label text classification (MLTC) is the task of assigning multiple labels to a given text, and has a wide range of application domains. Most existing approaches require an enormous amount of annotated data to learn a classifier and/or a set of well-defined constraints on the label space structure, such as hierarchical relations which may be complicated to provide as the number of labels increases. In this paper, we study the MLTC problem in annotation-free and scarce-annotation settings in which the magnitude of available supervision signals is linear to the number of labels. Our method follows three steps, (1) mapping input text into a set of preliminary label likelihoods by natural language inference using a pre-trained language model, (2) calculating a signed label dependency graph by label descriptions, and (3) updating the preliminary label likelihoods with message passing along the label dependency graph, driven with a collective loss function that injects the information of expected label frequency and average multi-label cardinality of predictions. The experiments show that the proposed framework achieves effective performance under low supervision settings with almost imperceptible computational and memory overheads added to the usage of pre-trained language model outperforming its initial performance by 70\% in terms of example-based F1 score.Comment: Proc. Conf. Lifelong Learning Agents (CoLLAs), 202
    • …
    corecore