23 research outputs found

    Benchmarking for Biomedical Natural Language Processing Tasks with a Domain Specific ALBERT

    Get PDF
    The availability of biomedical text data and advances in natural language processing (NLP) have made new applications in biomedical NLP possible. Language models trained or fine tuned using domain specific corpora can outperform general models, but work to date in biomedical NLP has been limited in terms of corpora and tasks. We present BioALBERT, a domain-specific adaptation of A Lite Bidirectional Encoder Representations from Transformers (ALBERT), trained on biomedical (PubMed and PubMed Central) and clinical (MIMIC-III) corpora and fine tuned for 6 different tasks across 20 benchmark datasets. Experiments show that BioALBERT outperforms the state of the art on named entity recognition (+11.09% BLURB score improvement), relation extraction (+0.80% BLURB score), sentence similarity (+1.05% BLURB score), document classification (+0.62% F1-score), and question answering (+2.83% BLURB score). It represents a new state of the art in 17 out of 20 benchmark datasets. By making BioALBERT models and data available, our aim is to help the biomedical NLP community avoid computational costs of training and establish a new set of baselines for future efforts across a broad range of biomedical NLP tasks

    MedCPT: Contrastive Pre-trained Transformers with Large-scale PubMed Search Logs for Zero-shot Biomedical Information Retrieval

    Full text link
    Information retrieval (IR) is essential in biomedical knowledge acquisition and clinical decision support. While recent progress has shown that language model encoders perform better semantic retrieval, training such models requires abundant query-article annotations that are difficult to obtain in biomedicine. As a result, most biomedical IR systems only conduct lexical matching. In response, we introduce MedCPT, a first-of-its-kind Contrastively Pre-trained Transformer model for zero-shot semantic IR in biomedicine. To train MedCPT, we collected an unprecedented scale of 255 million user click logs from PubMed. With such data, we use contrastive learning to train a pair of closely-integrated retriever and re-ranker. Experimental results show that MedCPT sets new state-of-the-art performance on six biomedical IR tasks, outperforming various baselines including much larger models such as GPT-3-sized cpt-text-XL. In addition, MedCPT also generates better biomedical article and sentence representations for semantic evaluations. As such, MedCPT can be readily applied to various real-world biomedical IR tasks.Comment: The MedCPT code and API are available at https://github.com/ncbi/MedCP

    CLISTER : un corpus pour la similarité sémantique textuelle dans des cas cliniques en français

    Get PDF
    National audienceNatural Language Processing relies on the availability of annotated corpora for training and evaluating models. There are very few resources for semantic similarity in the clinical domain in French. Herein, we introduce a definition of similarity guided by clinical facts and apply it to the development of a new shared corpus of 1,000 sentence pairs manually annotated with similarity scores. We evaluate the corpus through experiments of automatic similarity measurement. We show that a model of sentence embeddings can capture similarity with state of the art performance on the DEFT STS shared task data set (Spearman=0.8343). We also show that CLISTER is complementary to DEFT STS.Le TAL repose sur la disponibilité de corpus annotés pour l'entraînement et l'évaluation de modèles. Il existe très peu de ressources pour la similarité sémantique dans le domaine clinique en français. Dans cette étude, nous proposons une définition de la similarité guidée par l'analyse clinique et l'appliquons au développement d'un nouveau corpus partagé de 1 000 paires de phrases annotées manuellement en scores de similarité. Nous évaluons ensuite le corpus par des expériences de mesure automatique de similarité. Nous montrons ainsi qu'un modèle de plongements de phrases peut capturer la similarité avec des performances à l'état de l'art sur le corpus DEFT STS (Spearman=0,8343). Nous montrons également que le contenu du corpus CLISTER est complémentaire de celui de DEFT STS

    Pemodelan Text Mining dalam Pengkodean Penyakit Pasien Berdasar Kode ICD 10

    Get PDF
    Pengkodean penyakit yang lazim dilakukan oleh Rumah Sakit adalah menggunakan 2 metode, yang pertama adalah klinisi/ dokter menuliskan numenklatur penyakit berdasarkan kode ICD-10 dengan panduan kamus ICD-10 yang dapat berupa elektronik maupun buku. Metode kedua adalah klinisi/ dokter menulis secara free-text kemudian petugas koding dari rekam medis yang memberikan kode penyakit berdasar kode ICD-10 dan apabila ada hal yang sekiranya diragukan, petugas koding akan mengkonfirmasi ke dokter yang merawat pasien. Dari kebanyakan diagnosis medis yang berupa deskripsi free-text, kemiripan makna serta istilah medis yang memiliki kekhususan daripada istilah umum akan menjadi tantangan tersendiri dalam mengekstrak informasi yang berada di dalamnya. Hal ini yang mendorong penulis untuk membuat pendekatan koding penyakit dengan pememodelkan Text Mining dalam membantu pengkodean penyakit tersebut melalui data diagnosis dokter sehingga diharapkan proses pengkodean penyakit menjadi lebih cepat dan mengurangi aspek human error khususnya untuk penyakit di Indonesia. Metode pendekatan yang diterapkan adalah Clinical Text Mining dengan Natural Language Processing dimana metode ini dirasa paling tepat untuk mengekstraksi informasi dari diagnosis dokter yang tidak terstruktur. Data diambil dari Rumah Sakit bagian poliklinik penyakit dalam sejumlah 3787 data dengan 5 kategori kode ICD 10 yakni E11.9 Type 2 diabetes mellitus without complications, I10 Essential (primary) hypertension, I11.9 Hypertensive heart disease without (congestive) heart failure, K21.9 Gastro-oesophageal reflux disease without oesophagitis, K30 Functional dyspepsia  dengan pembagian komposisi data untuk training dan testing adalah 70:30 proses ekstraksi melalui tahapan case folding, contraction untuk pencocokan dengan kamus singkatan, tokenization, stop word removal dan menggunakan word2vec untuk proses konversi kata yang berupa karakter alphanumeric kedalam bentuk vector dari hasil pemodelan menggunakan Neural Network didapatkan nilai performa model cukup baik yakni memiliki akurasi 86.8%
    corecore