673 research outputs found

    Towards Automatic Generation of Shareable Synthetic Clinical Notes Using Neural Language Models

    Full text link
    Large-scale clinical data is invaluable to driving many computational scientific advances today. However, understandable concerns regarding patient privacy hinder the open dissemination of such data and give rise to suboptimal siloed research. De-identification methods attempt to address these concerns but were shown to be susceptible to adversarial attacks. In this work, we focus on the vast amounts of unstructured natural language data stored in clinical notes and propose to automatically generate synthetic clinical notes that are more amenable to sharing using generative models trained on real de-identified records. To evaluate the merit of such notes, we measure both their privacy preservation properties as well as utility in training clinical NLP models. Experiments using neural language models yield notes whose utility is close to that of the real ones in some clinical NLP tasks, yet leave ample room for future improvements.Comment: Clinical NLP Workshop 201

    ACI-BENCH: a Novel Ambient Clinical Intelligence Dataset for Benchmarking Automatic Visit Note Generation

    Full text link
    Recent immense breakthroughs in generative models such as in GPT4 have precipitated re-imagined ubiquitous usage of these models in all applications. One area that can benefit by improvements in artificial intelligence (AI) is healthcare. The note generation task from doctor-patient encounters, and its associated electronic medical record documentation, is one of the most arduous time-consuming tasks for physicians. It is also a natural prime potential beneficiary to advances in generative models. However with such advances, benchmarking is more critical than ever. Whether studying model weaknesses or developing new evaluation metrics, shared open datasets are an imperative part of understanding the current state-of-the-art. Unfortunately as clinic encounter conversations are not routinely recorded and are difficult to ethically share due to patient confidentiality, there are no sufficiently large clinic dialogue-note datasets to benchmark this task. Here we present the Ambient Clinical Intelligence Benchmark (ACI-BENCH) corpus, the largest dataset to date tackling the problem of AI-assisted note generation from visit dialogue. We also present the benchmark performances of several common state-of-the-art approaches

    Clinical XLNet: Modeling Sequential Clinical Notes and Predicting Prolonged Mechanical Ventilation

    Full text link
    Clinical notes contain rich data, which is unexploited in predictive modeling compared to structured data. In this work, we developed a new text representation Clinical XLNet for clinical notes which also leverages the temporal information of the sequence of the notes. We evaluated our models on prolonged mechanical ventilation prediction problem and our experiments demonstrated that Clinical XLNet outperforms the best baselines consistently

    Full Issue: Volume 8, Number 1

    Get PDF

    16th Sound and Music Computing Conference SMC 2019 (28–31 May 2019, Malaga, Spain)

    Get PDF
    The 16th Sound and Music Computing Conference (SMC 2019) took place in Malaga, Spain, 28-31 May 2019 and it was organized by the Application of Information and Communication Technologies Research group (ATIC) of the University of Malaga (UMA). The SMC 2019 associated Summer School took place 25-28 May 2019. The First International Day of Women in Inclusive Engineering, Sound and Music Computing Research (WiSMC 2019) took place on 28 May 2019. The SMC 2019 TOPICS OF INTEREST included a wide selection of topics related to acoustics, psychoacoustics, music, technology for music, audio analysis, musicology, sonification, music games, machine learning, serious games, immersive audio, sound synthesis, etc

    Goal Driven Discovery of Distributional Differences via Language Descriptions

    Full text link
    Mining large corpora can generate useful discoveries but is time-consuming for humans. We formulate a new task, D5, that automatically discovers differences between two large corpora in a goal-driven way. The task input is a problem comprising a research goal "comparing the side effects of drug A and drug B\textit{comparing the side effects of drug A and drug B}" and a corpus pair (two large collections of patients' self-reported reactions after taking each drug). The output is a language description (discovery) of how these corpora differ (patients taking drug A "mention feelings of paranoia\textit{mention feelings of paranoia}" more often). We build a D5 system, and to quantitatively measure its performance, we 1) contribute a meta-dataset, OpenD5, aggregating 675 open-ended problems ranging across business, social sciences, humanities, machine learning, and health, and 2) propose a set of unified evaluation metrics: validity, relevance, novelty, and significance. With the dataset and the unified metrics, we confirm that language models can use the goals to propose more relevant, novel, and significant candidate discoveries. Finally, our system produces discoveries previously unknown to the authors on a wide range of applications in OpenD5, including temporal and demographic differences in discussion topics, political stances and stereotypes in speech, insights in commercial reviews, and error patterns in NLP models

    Building End-to-End Neural Machine Translation Systems for Crisis Scenarios: The Case of COVID-19

    Get PDF
    Η Μηχανική Μετάφραση είναι ένα σημαντικό κομμάτι της Επεξεργασίας Φυσικής Γλώσσας, καθώς στοχεύει στην γρήγορη και αυτόματη μετάφραση διαφόρων ειδών κειμένων. Τα τελευταία χρόνια, η επικράτηση της Νευρωνικής Μηχανικής Μετάφρασης και η δημιουργία μεγάλων παράλληλων συλλογών κειμένων έχει οδηγήσει σε σημαντική βελτίωση της ποιότητας μετάφρασης. Ωστόσο, τα μεταφραστικά μοντέλα δεν είναι απαραιτήτως κατάλληλα για όλους τους τομείς κειμένων κι αυτό έχει οδηγήσει σε διάφορες έρευνες σχετικές με την προσαρμογή υπαρχόντων συστημάτων Μηχανικής Μετάφρασης σε διάφορους γνωστικούς τομείς κειμένων, δηλ. στο πώς να βελτιωθεί καλύτερα η ποιότητα μετάφρασης για μία συγκεκριμένη θεματική ή είδος κειμένων. Η Μηχανική Μετάφραση για Καταστάσεις Κρίσεων είναι μία ιδιαίτερη εφαρμογή της εξειδίκευσης συστημάτων σε θεματικούς τομείς, η οποία ασχολείται με την γρήγορη εξειδίκευση ενός υπάρχοντος συστήματος Μηχανικής Μετάφρασης για μία κατάσταση κρίσης, καθώς η ενσωμάτωση ενός τέτοιου συστήματος σε μία υποδομή ταχείας απόκρισης μπορεί να επιταχύνει την παροχή βοήθειας και την λήψη αποφάσεων. Η πανδημία του COVID-19 αποδείχτηκε μία κρίση μεγάλης διάρκειας και διεθνούς χαρακτήρα στην οποία παρουσιάστηκαν μεγάλα κενά στην διαφανή, έγκαιρη και αποτελεσματική επικοινωνία με το κοινό, ενώ σημαδεύτηκε από παραπληροφόρηση, θεωρίες συνομωσίας και σημαντικούς περιορισμούς στην ελευθερία του Τύπου. Περαιτέρω έρευνα στο πεδίο της Μηχανικής Μετάφρασης για Καταστάσεις Κρίσεων θα μπορούσε να συνδράμει σημαντικά στην αντιμετώπιση παρόμοιων μελλοντικών κρίσεων. Η παρούσα διπλωματική εργασία εστιάζει στην περίπτωση της πανδημίας του COVID-19 και στην μετάφραση αγγλικών κειμένων στα ελληνικά, ενώ επίσης κατασκευάζονται δύο εξειδικευμένα πολυγλωσσικά παράλληλα σώματα κειμένων. Το ένα σχετίζεται με τον COVID-19 και το άλλο προέρχεται από περιλήψεις ακαδημαϊκών εργασιών και διατριβών. Στην αρχή περιγράφουμε την διαδικασία συλλογής καινούριων παράλληλων σωμάτων κειμένων για συγκεκριμένους τομείς και την δημιουργία συνθετικών δεδομένων. Αυτά τα δεδομένα συνδυάζονται με υπάρχοντα παράλληλα δεδομένα ώστε να εξειδικεύσουν ένα υπάρχον σύστημα για τον COVID-19. Η διαδικασία αυτή περιλαμβάνει επίσης το φιλτράρισμα, την προεπεξεργασία και την επιλογή κατάλληλων δεδομένων, τα οποία παρουσιάζονται αναλυτικώς. Έπειτα, κάνουμε πειράματα πάνω σε διαφορετικές στρατηγικές εξειδίκευσης υπαρχόντων συστημάτων Μηχανικής Μετάφρασης για μία προσομοιωμένη κατάσταση κρίσης όπου τα σχετικά δεδομένα αυξάνονται με την πάροδο του χρόνου. Μας ενδιαφέρει επίσης το φαινόμενο “catastrophic forgetting” στο οποίο παρουσιάζεται μείωση της ποιότητας μετάφρασης σε κείμενα γενικού περιεχομένου. Τέλος, κατασκευάζουμε ένα ολοκληρωμένο σύστημα Νευρωνικής Μηχανικής Μετάφρασης το οποίο είναι εξειδικευμένο στην μετάφραση αγγλικών κειμένων σχετικά με τον COVID-19 στα ελληνικά. Αξιολογούμε διεξοδικά την απόδοσή του σε διαφορετικά είδη κειμένων ώστε να βρούμε τα δυνατά και αδύνατα σημεία του, κάνοντας χρήση οκτώ εξειδικευμένων δοκιμασιών (εκ των οποίων τα τέσσερα δημιουργήθηκαν για την παρούσα διπλωματική) και άλλων διαθέσιμων μοντέλων και υπηρεσιών μετάφρασης.Machine Translation is a crucial task of Natural Language Processing, as it aims to provide a fast and automatic way of translating various types of texts. In recent years, the emergence of Neural Machine Translation and the compilation of large-scale parallel corpora have led to significant improvements in translation quality. However, translation models are not necessarily suited for all domains and, thus, there has been significant research on domain adaptation of Neural Machine Translation Systems, i.e., on how to best improve the translation quality of an existing system for a specific topic or genre. Crisis Machine Translation is a special case of Domain Adaptation which is concerned with the rapid adaptation of an existing Machine Translation system for a crisis scenario, as the integration of such a system in a rapid response infrastructure can accelerate the speed of decision making and relief provision. The COVID-19 pandemic proved to be a prolonged and global crisis with large gaps in transparent, timely, and effective communication; it was also marked by misinformation, conspiracy theories, and significant restrictions on press freedom. Further research on Crisis Machine Translation could play an important role in better responding to future similar crises. In this thesis, we focus on the case of the COVID-19 pandemic and the English-Greek translation direction, while we also create two domain-specific multilingual parallel corpora; one which is related to COVID-19 and one which has been gathered from the abstracts of academic theses and dissertations. First, we describe the methodologies of acquiring new domain-specific parallel corpora and generating synthetic data which are combined with existing parallel data so as to adapt an existing system to the domain of COVID-19. This process includes data filtering, pre-processing, and selection pipelines, which are also described in detail. Afterwards, we conduct experiments on different fine-tuning strategies for a simulated crisis scenario in which varying amounts of related data become available as time progresses. We are also concerned with the phenomenon of “catastrophic forgetting”, i.e., the degradation of system performance on general texts. Lastly, we construct an end-to-end Neural Machine Translation system which is specialized in translating COVID-19 related English texts into Greek. In order to assess its performance across different domains and determine its strengths and weaknesses, we conduct an extended evaluation with eight test sets (half of them have been specifically created for this thesis) and other publicly available models and commercial translation services
    corecore