13,482 research outputs found

    Recognition and normalization of biomedical entities within clinical notes

    Get PDF
    Tese de mestrado, Engenharia Informática (Sistemas de Informação), Universidade de Lisboa, Faculdade de Ciências, 2015Os profissionais de saúde, como parte do seu trabalho, têm a obrigação de registar manualmente o seu conhecimento de forma não estruturada, sendo as notas clínicas um dos vários tipos de documentos gerados. As notas clínicas descrevem a situação clínica dos pacientes, contendo informação relativamente aos seus tratamentos, sintomas, doenças, diagnósticos, procedimentos, etc. A introdução desta informação em Electronic Health Records (EHRs) está a ser fortemente encorajada, originando um crescimento exponencial no volume de notas clínicas em formato digital. A disponibilização desta informação em formato digital oferece uma maior liberdade, permitindo uma fácil partilha das mesmas entre instituições médicas, acompanhando assim o percurso do paciente. Nas notas clínicas a informação é registada utilizando a língua natural desprovida de qualquer estruturação. O registo de informação de forma estruturada, apesar de ser recomendado, condiciona o trabalho dos profissionais de saúde. Tal imposição aumenta o tempo necessário para efetuar o registo do conhecimento assim como impõe limites na descrição de casos fora do comum. A aplicação de técnicas de prospeção de texto (text mining) aparece então como solução para o processamento automático da informação não estruturada permitindo a conversão num formato que permita os sistemas computacionais analisar. Dado que os profissionais médicos utilizam diferentes terminologias de acordo com o contexto e a respetiva especialização, o processamento de notas clínicas comporta vários desafios, dada a sua heterogeneidade, ambiguidade e necessidade contextual. São várias as técnicas de text mining utilizadas para resolver estes desafios, sendo neste trabalho exploradas técnicas de aprendizagem automática (Machine Learning), semelhança textual (Pattern Matching), conteúdo da informação (Information Content) e semelhança semântica (Semantic Similarity). O objetivo deste trabalho consiste no estudo e desenvolvimento de um sistema que permita reconhecer e normalizar entidades biomédicas em notas clínicas, assim como o desenvolvimento da respetiva interface. A tarefa de reconhecimento consiste em identificar entidades relevantes em notas clínicas, sendo que a normalização passa pela atribuição, a cada entidade reconhecida, de um identificador único pertencente a um vocabulário controlado. Para tal, o sistema desenvolvido utiliza técnicas de prospeção de texto e usa a ontologia SNOMED CT como vocabulário controlado. Utiliza ainda dois conjuntos de notas clínicas, um não anotado e outro anotado manualmente por profissionais de saúde. Este último conjunto é referido como conjunto de treino. O sistema foi desenvolvido usando uma arquitetura modular em pipeline, composta por dois módulos, recebendo como input um conjunto de notas clínicas não anotadas. A execução do sistema resulta na anotação automática, isto é, no reconhecimento e normalização das notas clínicas recebidas como input. O primeiro módulo é responsável pelo reconhecimento de entidades biomédicas. A estratégia usada consiste na aplicação de algoritmos de aprendizagem automática de forma a gerar um modelo de reconhecimento baseado em casos passados, isto é, notas clínicas manualmente anotadas. O software de aprendizagem automática Stanford NER foi utilizado para gerar modelos CRF (Conditional Random Field). Este módulo comporta dois processos: o de treino e o de execução. No processo de treino, cada palavra (ou token) existente nas notas clínicas é caracterizada com base num conjunto de propriedades entre as quais: Brown clusters, formato do token, vizinhança e léxicos pertencentes a vários domínios. A caracterização de cada token permite que estes sejam representados junto do algoritmo de aprendizagem automática. Este trabalho utilizou o inovador modelo de segmentação SBIEON, permitindo a identificação de entidades não contínuas. O algoritmo de aprendizagem automática vai gerar um modelo de reconhecimento baseado nas propriedades associadas a cada token. O modelo de reconhecimento gerado permite identificar entidades em novas notas clínicas Não anotadas, associando a cada token existente nas respectivas notas clínicas, uma classe pertencente ao modelo de segmentação escolhido. As entidades relevantes são compostas por tokens que tenham sido associados a uma classe relevante. O segundo módulo do sistema é responsável pela normalização das entidades identificadas pelo módulo de reconhecimento como sendo relevantes. Uma arquitetura modular em pipeline é utilizada, sendo cada componente responsável pela normalização de um conjunto restrito de entidades pertencentes a um determinado dicionário. Um total de cinco dicionários são gerados baseados nas notas clínicas de treino (abreviações não ambíguas, entidades não ambíguas e entidades ambíguas) e na ontologia SNOMED CT (entidades ambíguas e não ambíguas). Os primeiros três componentes normalizam as entidades não ambíguos utilizando uma pesquisa de dicionário. A entidade a normalizar é procurada nos dicionários não ambíguos, e caso seja encontrada uma correspondência, o respetivo identificador e associado. O primeiro componente utiliza o dicionário de abreviações, o segundo o dicionário de notas clinicas de treino não ambíguo e o terceiro o dicionário SNOMED CT não ambíguo. O quarto e quinto componente normalizam entidades ambíguas pertencentes às notas clínicas de treino e ao SNOMED CT respetivamente. Em ambos, uma pesquisa de dicionário é efetuada para recolher os identificadores candidatos. O quarto componente desambigua as entidades utilizando uma medida resultante da combinação linear do Information Content e da frequência do identificador nas notas clínicas em questão. O quinto componente baseia-se em entidades previamente normalizadas num mesmo documento, utilizando uma estratégia baseada na semelhança semântica. A entidade ambígua com maior semelhança semântica é a escolhida, assumindo desta forma que entidades pertencentes ao mesmo documento devem ser semelhantes entre si.O último componente normaliza entidades que não estejam representadas em nenhum dos dicionários referidos. Técnicas de Pattern Matching são aplicadas de forma a identificar a entidade candidata textualmente mais semelhante. Esta entidade é depois inserida no pipeline do sistema, sendo normalizada por um dos componentes anteriormente descritos. Para este componente, medidas como o NGram Similarity e Levenhstein foram utilizadas, tendo esta ultima medida sido estendida de forma a permitir medir a semelhança textual entre duas entidades sem ter em conta a ordem dos seus tokens (ExtendedLevenhstein). A interface desenvolvida permite aos utilizadores introduzirem documentos no formato de texto ou através da introdução de um identificador de um artigo no sistema PUBMED ou de um Tweet, sendo efetuada a recolha do texto associado. A interface permite ainda que os utilizadores corrijam ou adicionem novas anotações ao texto, sendo estas alterações registadas pelo sistema. São ainda apresentadas várias estatísticas em tempo real que permitem aos utilizadores navegar entre documentos. O sistema apresentado neste trabalho é resultante de duas primeiras iterações. A primeira foi utilizada para participar no SemEval 2014 e foi desenvolvida pela equipa ULisboa da qual fui autor principal. A segunda foi desenvolvida por mim no âmbito deste trabalho e foi utilizada para participar no SemEval 2015. Ambas as competições endereçavam a tarefa de Analysis of Clinical Text, sendo os sistemas submetidos avaliados oficialmente usando as medidas: precision, recall, F-score e accuracy. De forma a comparar o impacto do uso de machine learning no reconhecimento, desenvolvi adicionalmente um módulo de reconhecimento baseada em regras, permitindo assim comparar o desempenho de ambas as estratégias. Além das avaliações oficiais, o sistema foi igualmente avaliado localmente utilizando as mesmas medidas mas recorrendo a um conjunto de notas clinicas diferentes para avaliação. As avaliações permitiram entender o desempenho do sistema ao longo das várias iterações e do seu potencial atual. Foi possível observar que o sistema apresentado atingiu os objetivos esperados, conseguindo reconhecer e normalizar entidades biomédicas com um elevado desempenho. Olhando para cada módulo individualmente, observou-se que a utilização de algoritmos de machine learning permitiu atingir resultados bastante mais elevados no reconhecimento de entidades, do que aqueles obtidos utilizando uma abordagem baseada em regras. Observou-se ainda que a adição de Brown clusters como propriedades durante o treino melhorou o desempenho do sistema. A adição de léxicos produziu um efeito contrário, reduzindo o desempenho. Olhando apenas para o módulo de normalização, este conseguiu normalizar entidades com uma confiança de 91.3%. Este valor é bastante superior ao obtido pela primeira iteração do sistema que apenas atingiu uma confiança de 60.2%. O sistema como um todo foi avaliado oficialmente nas competições mencionadas. No SemEval 2014 o sistema submetido obteve o 14o lugar na tarefa de reconhecimento e o 25o na de normalização. Já no SemEval 2015, o sistema foi capaz de obter o 2o lugar com uma precision de 77.9%, um recall de 70.5% e um F-score de 74%. A avaliação desta última competição assumiu o reconhecimento e a normalização como uma tarefa única. Estes resultados mostram que o sistema evoluiu bastante, atingindo um excelente desemepenho. O sistema conseguiu ainda superar os resultados obtidos pelo sistema da equipa UTH CCB que na edição de 2014 foi a equipa que obteve a melhor classificação. Este trabalho apresenta um sistema que apesar de usar técnicas state of the art com algumas adaptações, conseguiu atingir um desempenho relevante face a outros sistemas a nível global, possuindo um enorme potencial para atingir melhores resultados. Como trabalho futuro, o módulo de reconhecimento poderá ser melhorado através da introdução de novas propriedades que melhorem a definição das entidades relevantes. Alguns componentes da pipeline de normalização podem ser amplamente melhorados, aplicando novas técnicas de desambiguação e pattern matching, ou mesmo recorrendo a algoritmos learningto rank semelhantes ao apresentado pelo sistema de DNorm é visto igualmente como uma mais valia.Clinical notes in textual form occur frequently in Electronic Health Records (EHRs).They are mainly used to describe treatment plans, symptoms, diagnostics, etc. Clinicalnotes are recorded in narrative language without any structured form and, since each medicalprofessional uses different types of terminologies according to context and to theirspecialization, the interpretation of these notes is very challenging for their complexity,heterogeneity, ambiguity and contextual sensitivity.Forcing medical professionals to introduce the information in a predefined structuresimplifies the interpretation. However, the imposition of such a rigid structure increasesnot only the time needed to record data, but it also introduces barriers at recording unusualcases. Thus, medical professionals are already encouraged to record the information in adigital form, but mostyl as narrative text. This will increase the amount of clinical notes toprocess, and doing it manually requires a huge human effort to accomplish it in a feasible time. This work presents a system for automatic recognition and normalization of biomedical concepts within clinical notes, by applying text mining techniques and using domain knowledge from the SNOMED CT ontology. The system is composed by two modules.The first one is responsible for the recognition and it is based on the Stanford NER Softwareto generate CRF models. The models were generated by using a rich set of features and employing a novel classification system, SBIEON. The second module is responsible for the normalization, where a pipeline framework was created. This modular framework leverages on a set of techniques such as (i) direct match dictionary lookup, (ii) pattern matching, (iii) information content and (iv) semantic similarity. The system was evaluated in the SemEval 2015 international competition, achieving the second best F-score (74%) and the second best precision (77.9%), among 38 submissions. After the competition, this system was improved, increasing the overall performance and reducing the running time by 60%

    Knowledge-based Biomedical Data Science 2019

    Full text link
    Knowledge-based biomedical data science (KBDS) involves the design and implementation of computer systems that act as if they knew about biomedicine. Such systems depend on formally represented knowledge in computer systems, often in the form of knowledge graphs. Here we survey the progress in the last year in systems that use formally represented knowledge to address data science problems in both clinical and biological domains, as well as on approaches for creating knowledge graphs. Major themes include the relationships between knowledge graphs and machine learning, the use of natural language processing, and the expansion of knowledge-based approaches to novel domains, such as Chinese Traditional Medicine and biodiversity.Comment: Manuscript 43 pages with 3 tables; Supplemental material 43 pages with 3 table

    LeafAI: query generator for clinical cohort discovery rivaling a human programmer

    Full text link
    Objective: Identifying study-eligible patients within clinical databases is a critical step in clinical research. However, accurate query design typically requires extensive technical and biomedical expertise. We sought to create a system capable of generating data model-agnostic queries while also providing novel logical reasoning capabilities for complex clinical trial eligibility criteria. Materials and Methods: The task of query creation from eligibility criteria requires solving several text-processing problems, including named entity recognition and relation extraction, sequence-to-sequence transformation, normalization, and reasoning. We incorporated hybrid deep learning and rule-based modules for these, as well as a knowledge base of the Unified Medical Language System (UMLS) and linked ontologies. To enable data-model agnostic query creation, we introduce a novel method for tagging database schema elements using UMLS concepts. To evaluate our system, called LeafAI, we compared the capability of LeafAI to a human database programmer to identify patients who had been enrolled in 8 clinical trials conducted at our institution. We measured performance by the number of actual enrolled patients matched by generated queries. Results: LeafAI matched a mean 43% of enrolled patients with 27,225 eligible across 8 clinical trials, compared to 27% matched and 14,587 eligible in queries by a human database programmer. The human programmer spent 26 total hours crafting queries compared to several minutes by LeafAI. Conclusions: Our work contributes a state-of-the-art data model-agnostic query generation system capable of conditional reasoning using a knowledge base. We demonstrate that LeafAI can rival a human programmer in finding patients eligible for clinical trials

    Natural Language Processing and Graph Representation Learning for Clinical Data

    Get PDF
    The past decade has witnessed remarkable progress in biomedical informatics and its related fields: the development of high-throughput technologies in genomics, the mass adoption of electronic health records systems, and the AI renaissance largely catalyzed by deep learning. Deep learning has played an undeniably important role in our attempts to reduce the gap between the exponentially growing amount of biomedical data and our ability to make sense of them. In particular, the two main pillars of this dissertation---natural language processing and graph representation learning---have improved our capacity to learn useful representations of language and structured data to an extent previously considered unattainable in such a short time frame. In the context of clinical data, characterized by its notorious heterogeneity and complexity, natural language processing and graph representation learning have begun to enrich our toolkits for making sense and making use of the wealth of biomedical data beyond rule-based systems or traditional regression techniques. This dissertation comes at the cusp of such a paradigm shift, detailing my journey across the fields of biomedical and clinical informatics through the lens of natural language processing and graph representation learning. The takeaway is quite optimistic: despite the many layers of inefficiencies and challenges in the healthcare ecosystem, AI for healthcare is gearing up to transform the world in new and exciting ways

    Knowledge Graph Embeddings for Multi-Lingual Structured Representations of Radiology Reports

    Full text link
    The way we analyse clinical texts has undergone major changes over the last years. The introduction of language models such as BERT led to adaptations for the (bio)medical domain like PubMedBERT and ClinicalBERT. These models rely on large databases of archived medical documents. While performing well in terms of accuracy, both the lack of interpretability and limitations to transfer across languages limit their use in clinical setting. We introduce a novel light-weight graph-based embedding method specifically catering radiology reports. It takes into account the structure and composition of the report, while also connecting medical terms in the report through the multi-lingual SNOMED Clinical Terms knowledge base. The resulting graph embedding uncovers the underlying relationships among clinical terms, achieving a representation that is better understandable for clinicians and clinically more accurate, without reliance on large pre-training datasets. We show the use of this embedding on two tasks namely disease classification of X-ray reports and image classification. For disease classification our model is competitive with its BERT-based counterparts, while being magnitudes smaller in size and training data requirements. For image classification, we show the effectiveness of the graph embedding leveraging cross-modal knowledge transfer and show how this method is usable across different languages

    Ontology-Based Clinical Information Extraction Using SNOMED CT

    Get PDF
    Extracting and encoding clinical information captured in unstructured clinical documents with standard medical terminologies is vital to enable secondary use of clinical data from practice. SNOMED CT is the most comprehensive medical ontology with broad types of concepts and detailed relationships and it has been widely used for many clinical applications. However, few studies have investigated the use of SNOMED CT in clinical information extraction. In this dissertation research, we developed a fine-grained information model based on the SNOMED CT and built novel information extraction systems to recognize clinical entities and identify their relations, as well as to encode them to SNOMED CT concepts. Our evaluation shows that such ontology-based information extraction systems using SNOMED CT could achieve state-of-the-art performance, indicating its potential in clinical natural language processing
    corecore