126 research outputs found

    A Learning Health System for Radiation Oncology

    Get PDF
    The proposed research aims to address the challenges faced by clinical data science researchers in radiation oncology accessing, integrating, and analyzing heterogeneous data from various sources. The research presents a scalable intelligent infrastructure, called the Health Information Gateway and Exchange (HINGE), which captures and structures data from multiple sources into a knowledge base with semantically interlinked entities. This infrastructure enables researchers to mine novel associations and gather relevant knowledge for personalized clinical outcomes. The dissertation discusses the design framework and implementation of HINGE, which abstracts structured data from treatment planning systems, treatment management systems, and electronic health records. It utilizes disease-specific smart templates for capturing clinical information in a discrete manner. HINGE performs data extraction, aggregation, and quality and outcome assessment functions automatically, connecting seamlessly with local IT/medical infrastructure. Furthermore, the research presents a knowledge graph-based approach to map radiotherapy data to an ontology-based data repository using FAIR (Findable, Accessible, Interoperable, Reusable) concepts. This approach ensures that the data is easily discoverable and accessible for clinical decision support systems. The dissertation explores the ETL (Extract, Transform, Load) process, data model frameworks, ontologies, and provides a real-world clinical use case for this data mapping. To improve the efficiency of retrieving information from large clinical datasets, a search engine based on ontology-based keyword searching and synonym-based term matching tool was developed. The hierarchical nature of ontologies is leveraged to retrieve patient records based on parent and children classes. Additionally, patient similarity analysis is conducted using vector embedding models (Word2Vec, Doc2Vec, GloVe, and FastText) to identify similar patients based on text corpus creation methods. Results from the analysis using these models are presented. The implementation of a learning health system for predicting radiation pneumonitis following stereotactic body radiotherapy is also discussed. 3D convolutional neural networks (CNNs) are utilized with radiographic and dosimetric datasets to predict the likelihood of radiation pneumonitis. DenseNet-121 and ResNet-50 models are employed for this study, along with integrated gradient techniques to identify salient regions within the input 3D image dataset. The predictive performance of the 3D CNN models is evaluated based on clinical outcomes. Overall, the proposed Learning Health System provides a comprehensive solution for capturing, integrating, and analyzing heterogeneous data in a knowledge base. It offers researchers the ability to extract valuable insights and associations from diverse sources, ultimately leading to improved clinical outcomes. This work can serve as a model for implementing LHS in other medical specialties, advancing personalized and data-driven medicine

    System-Agnostic Clinical Decision Support Services: Benefits and Challenges for Scalable Decision Support

    Get PDF
    System-agnostic clinical decision support (CDS) services provide patient evaluation capabilities that are independent of specific CDS systems and system implementation contexts. While such system-agnostic CDS services hold great potential for facilitating the widespread implementation of CDS systems, little has been described regarding the benefits and challenges of their use. In this manuscript, the authors address this need by describing potential benefits and challenges of using a system-agnostic CDS service. This analysis is based on the authors’ formal assessments of, and practical experiences with, various approaches to developing, implementing, and maintaining CDS capabilities. In particular, the analysis draws on the authors’ experience developing and leveraging a system-agnostic CDS Web service known as SEBASTIAN. A primary potential benefit of using a system-agnostic CDS service is the relative ease and flexibility with which the service can be leveraged to implement CDS capabilities across applications and care settings. Other important potential benefits include facilitation of centralized knowledge management and knowledge sharing; the potential to support multiple underlying knowledge representations and knowledge resources through a common service interface; improved simplicity and componentization; easier testing and validation; and the enabling of distributed CDS system development. Conversely, important potential challenges include the increased effort required to develop knowledge resources capable of being used in many contexts and the critical need to standardize the service interface. Despite these challenges, our experiences to date indicate that the benefits of using a system-agnostic CDS service generally outweigh the challenges of using this approach to implementing and maintaining CDS systems

    A standards-based ICT framework to enable a service-oriented approach to clinical decision support

    Get PDF
    This research provides evidence that standards based Clinical Decision Support (CDS) at the point of care is an essential ingredient of electronic healthcare service delivery. A Service Oriented Architecture (SOA) based solution is explored, that serves as a task management system to coordinate complex distributed and disparate IT systems, processes and resources (human and computer) to provide standards based CDS. This research offers a solution to the challenges in implementing computerised CDS such as integration with heterogeneous legacy systems. Reuse of components and services to reduce costs and save time. The benefits of a sharable CDS service that can be reused by different healthcare practitioners to provide collaborative patient care is demonstrated. This solution provides orchestration among different services by extracting data from sources like patient databases, clinical knowledge bases and evidence-based clinical guidelines (CGs) in order to facilitate multiple CDS requests coming from different healthcare settings. This architecture aims to aid users at different levels of Healthcare Delivery Organizations (HCOs) to maintain a CDS repository, along with monitoring and managing services, thus enabling transparency. The research employs the Design Science research methodology (DSRM) combined with The Open Group Architecture Framework (TOGAF), an open source group initiative for Enterprise Architecture Framework (EAF). DSRM’s iterative capability addresses the rapidly evolving nature of workflows in healthcare. This SOA based solution uses standards-based open source technologies and platforms, the latest healthcare standards by HL7 and OMG, Decision Support Service (DSS) and Retrieve, Update Locate Service (RLUS) standard. Combining business process management (BPM) technologies, business rules with SOA ensures the HCO’s capability to manage its processes. This architectural solution is evaluated by successfully implementing evidence based CGs at the point of care in areas such as; a) Diagnostics (Chronic Obstructive Disease), b) Urgent Referral (Lung Cancer), c) Genome testing and integration with CDS in screening (Lynch’s syndrome). In addition to medical care, the CDS solution can benefit organizational processes for collaborative care delivery by connecting patients, physicians and other associated members. This framework facilitates integration of different types of CDS ideal for the different healthcare processes, enabling sharable CDS capabilities within and across organizations

    Recognition and normalization of biomedical entities within clinical notes

    Get PDF
    Tese de mestrado, Engenharia Informática (Sistemas de Informação), Universidade de Lisboa, Faculdade de Ciências, 2015Os profissionais de saúde, como parte do seu trabalho, têm a obrigação de registar manualmente o seu conhecimento de forma não estruturada, sendo as notas clínicas um dos vários tipos de documentos gerados. As notas clínicas descrevem a situação clínica dos pacientes, contendo informação relativamente aos seus tratamentos, sintomas, doenças, diagnósticos, procedimentos, etc. A introdução desta informação em Electronic Health Records (EHRs) está a ser fortemente encorajada, originando um crescimento exponencial no volume de notas clínicas em formato digital. A disponibilização desta informação em formato digital oferece uma maior liberdade, permitindo uma fácil partilha das mesmas entre instituições médicas, acompanhando assim o percurso do paciente. Nas notas clínicas a informação é registada utilizando a língua natural desprovida de qualquer estruturação. O registo de informação de forma estruturada, apesar de ser recomendado, condiciona o trabalho dos profissionais de saúde. Tal imposição aumenta o tempo necessário para efetuar o registo do conhecimento assim como impõe limites na descrição de casos fora do comum. A aplicação de técnicas de prospeção de texto (text mining) aparece então como solução para o processamento automático da informação não estruturada permitindo a conversão num formato que permita os sistemas computacionais analisar. Dado que os profissionais médicos utilizam diferentes terminologias de acordo com o contexto e a respetiva especialização, o processamento de notas clínicas comporta vários desafios, dada a sua heterogeneidade, ambiguidade e necessidade contextual. São várias as técnicas de text mining utilizadas para resolver estes desafios, sendo neste trabalho exploradas técnicas de aprendizagem automática (Machine Learning), semelhança textual (Pattern Matching), conteúdo da informação (Information Content) e semelhança semântica (Semantic Similarity). O objetivo deste trabalho consiste no estudo e desenvolvimento de um sistema que permita reconhecer e normalizar entidades biomédicas em notas clínicas, assim como o desenvolvimento da respetiva interface. A tarefa de reconhecimento consiste em identificar entidades relevantes em notas clínicas, sendo que a normalização passa pela atribuição, a cada entidade reconhecida, de um identificador único pertencente a um vocabulário controlado. Para tal, o sistema desenvolvido utiliza técnicas de prospeção de texto e usa a ontologia SNOMED CT como vocabulário controlado. Utiliza ainda dois conjuntos de notas clínicas, um não anotado e outro anotado manualmente por profissionais de saúde. Este último conjunto é referido como conjunto de treino. O sistema foi desenvolvido usando uma arquitetura modular em pipeline, composta por dois módulos, recebendo como input um conjunto de notas clínicas não anotadas. A execução do sistema resulta na anotação automática, isto é, no reconhecimento e normalização das notas clínicas recebidas como input. O primeiro módulo é responsável pelo reconhecimento de entidades biomédicas. A estratégia usada consiste na aplicação de algoritmos de aprendizagem automática de forma a gerar um modelo de reconhecimento baseado em casos passados, isto é, notas clínicas manualmente anotadas. O software de aprendizagem automática Stanford NER foi utilizado para gerar modelos CRF (Conditional Random Field). Este módulo comporta dois processos: o de treino e o de execução. No processo de treino, cada palavra (ou token) existente nas notas clínicas é caracterizada com base num conjunto de propriedades entre as quais: Brown clusters, formato do token, vizinhança e léxicos pertencentes a vários domínios. A caracterização de cada token permite que estes sejam representados junto do algoritmo de aprendizagem automática. Este trabalho utilizou o inovador modelo de segmentação SBIEON, permitindo a identificação de entidades não contínuas. O algoritmo de aprendizagem automática vai gerar um modelo de reconhecimento baseado nas propriedades associadas a cada token. O modelo de reconhecimento gerado permite identificar entidades em novas notas clínicas Não anotadas, associando a cada token existente nas respectivas notas clínicas, uma classe pertencente ao modelo de segmentação escolhido. As entidades relevantes são compostas por tokens que tenham sido associados a uma classe relevante. O segundo módulo do sistema é responsável pela normalização das entidades identificadas pelo módulo de reconhecimento como sendo relevantes. Uma arquitetura modular em pipeline é utilizada, sendo cada componente responsável pela normalização de um conjunto restrito de entidades pertencentes a um determinado dicionário. Um total de cinco dicionários são gerados baseados nas notas clínicas de treino (abreviações não ambíguas, entidades não ambíguas e entidades ambíguas) e na ontologia SNOMED CT (entidades ambíguas e não ambíguas). Os primeiros três componentes normalizam as entidades não ambíguos utilizando uma pesquisa de dicionário. A entidade a normalizar é procurada nos dicionários não ambíguos, e caso seja encontrada uma correspondência, o respetivo identificador e associado. O primeiro componente utiliza o dicionário de abreviações, o segundo o dicionário de notas clinicas de treino não ambíguo e o terceiro o dicionário SNOMED CT não ambíguo. O quarto e quinto componente normalizam entidades ambíguas pertencentes às notas clínicas de treino e ao SNOMED CT respetivamente. Em ambos, uma pesquisa de dicionário é efetuada para recolher os identificadores candidatos. O quarto componente desambigua as entidades utilizando uma medida resultante da combinação linear do Information Content e da frequência do identificador nas notas clínicas em questão. O quinto componente baseia-se em entidades previamente normalizadas num mesmo documento, utilizando uma estratégia baseada na semelhança semântica. A entidade ambígua com maior semelhança semântica é a escolhida, assumindo desta forma que entidades pertencentes ao mesmo documento devem ser semelhantes entre si.O último componente normaliza entidades que não estejam representadas em nenhum dos dicionários referidos. Técnicas de Pattern Matching são aplicadas de forma a identificar a entidade candidata textualmente mais semelhante. Esta entidade é depois inserida no pipeline do sistema, sendo normalizada por um dos componentes anteriormente descritos. Para este componente, medidas como o NGram Similarity e Levenhstein foram utilizadas, tendo esta ultima medida sido estendida de forma a permitir medir a semelhança textual entre duas entidades sem ter em conta a ordem dos seus tokens (ExtendedLevenhstein). A interface desenvolvida permite aos utilizadores introduzirem documentos no formato de texto ou através da introdução de um identificador de um artigo no sistema PUBMED ou de um Tweet, sendo efetuada a recolha do texto associado. A interface permite ainda que os utilizadores corrijam ou adicionem novas anotações ao texto, sendo estas alterações registadas pelo sistema. São ainda apresentadas várias estatísticas em tempo real que permitem aos utilizadores navegar entre documentos. O sistema apresentado neste trabalho é resultante de duas primeiras iterações. A primeira foi utilizada para participar no SemEval 2014 e foi desenvolvida pela equipa ULisboa da qual fui autor principal. A segunda foi desenvolvida por mim no âmbito deste trabalho e foi utilizada para participar no SemEval 2015. Ambas as competições endereçavam a tarefa de Analysis of Clinical Text, sendo os sistemas submetidos avaliados oficialmente usando as medidas: precision, recall, F-score e accuracy. De forma a comparar o impacto do uso de machine learning no reconhecimento, desenvolvi adicionalmente um módulo de reconhecimento baseada em regras, permitindo assim comparar o desempenho de ambas as estratégias. Além das avaliações oficiais, o sistema foi igualmente avaliado localmente utilizando as mesmas medidas mas recorrendo a um conjunto de notas clinicas diferentes para avaliação. As avaliações permitiram entender o desempenho do sistema ao longo das várias iterações e do seu potencial atual. Foi possível observar que o sistema apresentado atingiu os objetivos esperados, conseguindo reconhecer e normalizar entidades biomédicas com um elevado desempenho. Olhando para cada módulo individualmente, observou-se que a utilização de algoritmos de machine learning permitiu atingir resultados bastante mais elevados no reconhecimento de entidades, do que aqueles obtidos utilizando uma abordagem baseada em regras. Observou-se ainda que a adição de Brown clusters como propriedades durante o treino melhorou o desempenho do sistema. A adição de léxicos produziu um efeito contrário, reduzindo o desempenho. Olhando apenas para o módulo de normalização, este conseguiu normalizar entidades com uma confiança de 91.3%. Este valor é bastante superior ao obtido pela primeira iteração do sistema que apenas atingiu uma confiança de 60.2%. O sistema como um todo foi avaliado oficialmente nas competições mencionadas. No SemEval 2014 o sistema submetido obteve o 14o lugar na tarefa de reconhecimento e o 25o na de normalização. Já no SemEval 2015, o sistema foi capaz de obter o 2o lugar com uma precision de 77.9%, um recall de 70.5% e um F-score de 74%. A avaliação desta última competição assumiu o reconhecimento e a normalização como uma tarefa única. Estes resultados mostram que o sistema evoluiu bastante, atingindo um excelente desemepenho. O sistema conseguiu ainda superar os resultados obtidos pelo sistema da equipa UTH CCB que na edição de 2014 foi a equipa que obteve a melhor classificação. Este trabalho apresenta um sistema que apesar de usar técnicas state of the art com algumas adaptações, conseguiu atingir um desempenho relevante face a outros sistemas a nível global, possuindo um enorme potencial para atingir melhores resultados. Como trabalho futuro, o módulo de reconhecimento poderá ser melhorado através da introdução de novas propriedades que melhorem a definição das entidades relevantes. Alguns componentes da pipeline de normalização podem ser amplamente melhorados, aplicando novas técnicas de desambiguação e pattern matching, ou mesmo recorrendo a algoritmos learningto rank semelhantes ao apresentado pelo sistema de DNorm é visto igualmente como uma mais valia.Clinical notes in textual form occur frequently in Electronic Health Records (EHRs).They are mainly used to describe treatment plans, symptoms, diagnostics, etc. Clinicalnotes are recorded in narrative language without any structured form and, since each medicalprofessional uses different types of terminologies according to context and to theirspecialization, the interpretation of these notes is very challenging for their complexity,heterogeneity, ambiguity and contextual sensitivity.Forcing medical professionals to introduce the information in a predefined structuresimplifies the interpretation. However, the imposition of such a rigid structure increasesnot only the time needed to record data, but it also introduces barriers at recording unusualcases. Thus, medical professionals are already encouraged to record the information in adigital form, but mostyl as narrative text. This will increase the amount of clinical notes toprocess, and doing it manually requires a huge human effort to accomplish it in a feasible time. This work presents a system for automatic recognition and normalization of biomedical concepts within clinical notes, by applying text mining techniques and using domain knowledge from the SNOMED CT ontology. The system is composed by two modules.The first one is responsible for the recognition and it is based on the Stanford NER Softwareto generate CRF models. The models were generated by using a rich set of features and employing a novel classification system, SBIEON. The second module is responsible for the normalization, where a pipeline framework was created. This modular framework leverages on a set of techniques such as (i) direct match dictionary lookup, (ii) pattern matching, (iii) information content and (iv) semantic similarity. The system was evaluated in the SemEval 2015 international competition, achieving the second best F-score (74%) and the second best precision (77.9%), among 38 submissions. After the competition, this system was improved, increasing the overall performance and reducing the running time by 60%

    An extended HD Fluent Analysis of Temporal knowledge in OWL-based clinical Guideline System

    Get PDF
    The Web Ontology Language (OWL) based clinical guideline system is a kind of clinical decision support system which is often used to assist health professionals to find clinical recommendations from the guidelines and check clinical compliance issues in terms of the guideline recommendations. However, due to some limitations of the current OWL language constructs, temporal knowledge contained in various knowledge domains cannot be directly represented in OWL. As a result, the representation, query and reasoning of temporal knowledge are largely ignored in many OWL-based clinical guideline ontology systems. The aim of this research is to investigate a temporal knowledge modelling method namely “4D fluent” and extend it to represent the temporal constraints contained in clinical guideline recommendations within OWL language constructs. The extended 4D fluent method can model temporal constraints including valid calendar time, interval, duration, repetitive or cyclical temporal constraints and temporal relations such that it can enable reasoning over these temporal constraints in the OWL-based clinical guideline ontology system and overcome the shortcoming of the traditional OWL-based clinical guideline system to an extent
    corecore