252 research outputs found

    Enhancing Phenotype Recognition in Clinical Notes Using Large Language Models: PhenoBCBERT and PhenoGPT

    Full text link
    We hypothesize that large language models (LLMs) based on the transformer architecture can enable automated detection of clinical phenotype terms, including terms not documented in the HPO. In this study, we developed two types of models: PhenoBCBERT, a BERT-based model, utilizing Bio+Clinical BERT as its pre-trained model, and PhenoGPT, a GPT-based model that can be initialized from diverse GPT models, including open-source versions such as GPT-J, Falcon, and LLaMA, as well as closed-source versions such as GPT-3 and GPT-3.5. We compared our methods with PhenoTagger, a recently developed HPO recognition tool that combines rule-based and deep learning methods. We found that our methods can extract more phenotype concepts, including novel ones not characterized by HPO. We also performed case studies on biomedical literature to illustrate how new phenotype information can be recognized and extracted. We compared current BERT-based versus GPT-based models for phenotype tagging, in multiple aspects including model architecture, memory usage, speed, accuracy, and privacy protection. We also discussed the addition of a negation step and an HPO normalization layer to the transformer models for improved HPO term tagging. In conclusion, PhenoBCBERT and PhenoGPT enable the automated discovery of phenotype terms from clinical notes and biomedical literature, facilitating automated downstream tasks to derive new biological insights on human diseases

    Identifying Human Phenotype Terms by Combining Machine Learning and Validation Rules

    Get PDF

    Term-BLAST-like alignment tool for concept recognition in noisy clinical texts.

    Get PDF
    MOTIVATION: Methods for concept recognition (CR) in clinical texts have largely been tested on abstracts or articles from the medical literature. However, texts from electronic health records (EHRs) frequently contain spelling errors, abbreviations, and other nonstandard ways of representing clinical concepts. RESULTS: Here, we present a method inspired by the BLAST algorithm for biosequence alignment that screens texts for potential matches on the basis of matching k-mer counts and scores candidates based on conformance to typical patterns of spelling errors derived from 2.9 million clinical notes. Our method, the Term-BLAST-like alignment tool (TBLAT) leverages a gold standard corpus for typographical errors to implement a sequence alignment-inspired method for efficient entity linkage. We present a comprehensive experimental comparison of TBLAT with five widely used tools. Experimental results show an increase of 10% in recall on scientific publications and 20% increase in recall on EHR records (when compared against the next best method), hence supporting a significant enhancement of the entity linking task. The method can be used stand-alone or as a complement to existing approaches. AVAILABILITY AND IMPLEMENTATION: Fenominal is a Java library that implements TBLAT for named CR of Human Phenotype Ontology terms and is available at https://github.com/monarch-initiative/fenominal under the GNU General Public License v3.0

    Development of a text mining approach to disease network discovery

    Get PDF
    Scientific literature is one of the major sources of knowledge for systems biology, in the form of papers, patents and other types of written reports. Text mining methods aim at automatically extracting relevant information from the literature. The hypothesis of this thesis was that biological systems could be elucidated by the development of text mining solutions that can automatically extract relevant information from documents. The first objective consisted in developing software components to recognize biomedical entities in text, which is the first step to generate a network about a biological system. To this end, a machine learning solution was developed, which can be trained for specific biological entities using an annotated dataset, obtaining high-quality results. Additionally, a rule-based solution was developed, which can be easily adapted to various types of entities. The second objective consisted in developing an automatic approach to link the recognized entities to a reference knowledge base. A solution based on the PageRank algorithm was developed in order to match the entities to the concepts that most contribute to the overall coherence. The third objective consisted in automatically extracting relations between entities, to generate knowledge graphs about biological systems. Due to the lack of annotated datasets available for this task, distant supervision was employed to train a relation classifier on a corpus of documents and a knowledge base. The applicability of this approach was demonstrated in two case studies: microRNAgene relations for cystic fibrosis, obtaining a network of 27 relations using the abstracts of 51 recently published papers; and cell-cytokine relations for tolerogenic cell therapies, obtaining a network of 647 relations from 3264 abstracts. Through a manual evaluation, the information contained in these networks was determined to be relevant. Additionally, a solution combining deep learning techniques with ontology information was developed, to take advantage of the domain knowledge provided by ontologies. This thesis contributed with several solutions that demonstrate the usefulness of text mining methods to systems biology by extracting domain-specific information from the literature. These solutions make it easier to integrate various areas of research, leading to a better understanding of biological systems

    Development and Validation of Clinical Whole-Exome and Whole-Genome Sequencing for Detection of Germline Variants in Inherited Disease

    Get PDF
    Context.-With the decrease in the cost of sequencing, the clinical testing paradigm has shifted from single gene to gene panel and now whole-exome and whole-genome sequencing. Clinical laboratories are rapidly implementing next-generation sequencing-based whole-exome and whole-genome sequencing. Because a large number of targets are covered by whole-exome and whole-genome sequencing, it is critical that a laboratory perform appropriate validation studies, develop a quality assurance and quality control program, and participate in proficiency testing. Objective.-To provide recommendations for wholeexome and whole-genome sequencing assay design, validation, and implementation for the detection of germline variants associated in inherited disorders. Data Sources.-An example of trio sequencing, filtration and annotation of variants, and phenotypic consideration to arrive at clinical diagnosis is discussed. Conclusions.-It is critical that clinical laboratories planning to implement whole-exome and whole-genome sequencing design and validate the assay to specifications and ensure adequate performance prior to implementation. Test design specifications, including variant filtering and annotation, phenotypic consideration, guidance on consenting options, and reporting of incidental findings, are provided. These are important steps a laboratory must take to validate and implement whole-exome and whole-genome sequencing in a clinical setting for germline variants in inherited disorders

    Semantic annotation of electronic health records in a multilingual environment

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2017Os relatórios de Radiologia descrevem os resultados dos procedimentos de radiografia e têm o potencial de ser uma fonte de informação útil que pode trazer benefícios para os sistemas de saúde ao redor do mundo. No entanto, estes relatórios são geralmente escritos em texto livre e, portanto, é difícil extrair automaticamente informação a partir deles. Contudo, o fato de que a maioria dos relatórios estão agora digitalmente disponíveis torna-os passíveis de utilização de ferramentas de Prospeção de Texto (Text Mining). Outra vantagem dos relatórios de Radiologia, que os torna mais suscetíveis à utilização destas ferramentas, é que mesmo se escritos em texto livre, eles são geralmente bem estruturados. O problema é que estas ferramentas são principalmente desenvolvidas para Inglês e os relatórios são geralmente escritos na língua nativa do radiologista, que não é necessariamente o Inglês. Isso cria um obstáculo para a partilha de informação de Radiologia entre diferentes comunidades, partilha esta importante para compreender e tratar eficazmente problemas de saúde. Existem basicamente duas soluções possíveis para este problema. Uma solução é traduzir o próprio léxico que é utilizado pela ferramenta de Prospeção de Texto que se pretende utilizar. A outra é traduzir os próprios relatórios. Traduzir o léxico tem a vantagem de não necessitar de tradução contínua, ou seja, depois de traduzir um léxico para, por exemplo, Espanhol, podemos usá-lo para processar tantos relatórios Espanhóis não traduzidas conforme necessário. No entanto, quando uma nova versão do léxico é lançada as mudanças também precisam de ser traduzidas, caso contrário, o léxico traduzido ficaria desatualizado. Dada a crescente evolução de serviços de tradução hoje disponíveis, neste trabalho é avaliada a opção alternativa de traduzir os relatórios e verificar a sua viabilidade. Esta abordagem tem a vantagem de que os relatórios traduzidos seriam acessíveis a qualquer médico que entenda Inglês e as ferramentas estado da arte de Prospeção de Texto focadas em texto em Inglês podem ser aplicadas sem qualquer necessidade de adaptação. Se a tradução for feita por profissionais treinados em tradução de textos médicos, provavelmente pode-se assumir que informação não se perde no processo de tradução. Chamamos a este tipo de tradução Tradução Humana (Human Translation). Mas a utilização de tradutores especializados é cara e não escalável. Outra opção é usar Tradução Automática (Machine Translation). Não obstante a menor qualidade da tradução, é mais barata e mais viável em grande escala. Finalmente, uma opção que tenta obter o melhor dos dois mundos é usar Tradução Automática seguida de Pós-Edição (Post-Edition) por humanos. Nesta abordagem, o texto é automaticamente traduzido e, em seguida, a tradução é corrigida por um humano. Mais barata do que a opção de Tradução Humana e com melhor qualidade do que a de Tradução Automática. A escolha de abordagem de tradução é importante porque vai afetar a qualidade dos resultados das ferramentas de Prospeção de Texto. Atualmente não há nenhum estudo disponível publicamente que tenha fornecido evidência quantitativa que auxilie a fazer esta escolha. Isto pode ser explicado pela falta de um corpus paralelo que poderia ser usado para estudar este problema. Este trabalho explora a solução de traduzir os relatórios para Inglês antes de aplicar as ferramentas de Prospeção de Texto, analisando a questão de qual a abordagem de tradução que deve ser usada. Com este fim, criei MRRAD (Multilingual Radiology Research Articles Dataset), um corpus paralelo de 51 artigos portugueses de investiga ção relacionados com Radiologia, e uma série de traduções alternativas (humanas, automáticas e semi-automáticas) para Inglês. As versões originais dos artigos, em Português, e as traduções humanas foram extraídas automaticamente da biblioteca online SciELO. As traduções automáticas foram obtidas utilizando os serviços da Yandex e da Google e traduções semi-automáticas através dos serviços da Unbabel. Este é um corpus original que pode ser usado no avanço da investigação sobre este tema. Usando o MRRAD estudei que tipo de abordagem de tradução autom ática ou semi-automática é mais eficaz na tarefa de Reconhecimento de Entidades (Named-Entity Recognition ) relacionados com Radiologia mencionadas na versão em Inglês dos artigos. Estas entidades correspondem aos termos presentes no RadLex, que é uma ontologia que se foca em termos relacionados com Radiologia. A tarefa de Reconhecimento de Entidades é relevante uma vez que os seus resultados podem ser usadas em sistemas de Recuperação de Imagens (Image Retrieval ) e de Recuperação de Informação (Information Retrieval) e podem ser úteis para melhorar Sistemas de Respostas a Perguntas (Question Answering). Para realizar o Reconhecimento de termos do RadLex utilizei a API do Open Biomedical Annotator e duas diferentes configurações do software NOBLE Coder. Assim, ao todo utilizei três diferentes abordagens para identificar termos RadLex nos textos. A diferença entre as abordagens está em quão flexíveis ou estritas estas são em identificar os termos. Considerando os termos identificados nas traduções humanas como o padrão ouro (gold-standard ), calculei o quão semelhante a este padrão foram os termos identificados usando outras abordagens de tradução. Descobri que uma abordagem completamente automática de tradução utilizando o Google leva a micro F-Scores (entre 0,861 e 0,868, dependendo da abordagem de reconhecimento) semelhantes aos obtidos através de uma abordagem mais cara, tradução semi-automática usando Unbabel (entre 0,862 e 0,870). A abordagem de tradução utilizando os serviços da Yandex obteve micro F-Scores mais baixos (entre 0,829 e 0,831). Os resultados foram semelhantes mesmo no caso onde se consideraram apenas termos de RadLex pertences às sub-árvores correspondentes a entidades anatómicas e achados clínicos. Para entender melhor os resultados, também realizei uma análise qualitativa do tipo de erros encontrados nas traduções automáticas e semiautom áticas. A análise foi feita sobre os Falsos Positivos (FPs) e Falsos Negativos (FNs) cometidos pelas traduções utilizando Yandex, Google e Unbabel em 9 documentos aleatórios e cada erro foi classificado por tipo. A maioria dos FPs e FNs são explicados não por uma tradução errada mas por outras causas, por exemplo, uma tradução alternativa que leva a uma diferença nos termos identificados. Poderia ser esperado que as traduções Unbabel tivessem muitos menos erros, visto que têm o envolvimento de humanos, do que as da Google, mas isso nem sempre acontece. Há situações em que erros são até adicionados mesmo durante a etapa de Pós-Edição. Uma revisão dos erros faz-me propor que isso poderá ser devido à falta de conhecimento médico dos editores (utilizadores responsáveis por fazer a Pós-Edição) atuais da Unbabel. Por exemplo, um stroke (acidente vascular cerebral) é algo que ocorre no cérebro, mas num caso foi usado como algo que acontece no coração - alguém com algum conhecimento sobre a medicina não faria este erro. Mas a verdade é que a Unbabel atualmente não se foca em conteúdo médico. Prevejo que se eles o fizessem e investissem em crescer uma comunidade de utilizadores especialistas com melhor conhecimento da linguagem médica, isso levaria a melhores resultados. Dito isto, os resultados deste trabalho corroboram a conclusão de que se engenheiros de software tiverem recursos financeiros limitados para pagar por Tradução Humana, ficarão melhor servidos se usarem um serviço de tradução automática como a Google em vez de um serviço que implementa Pós-Edição, como a Unbabel. É claro que talvez haja melhores serviços de Tradução Automática do que a Google ou melhores serviços de Tradução Automática + Pós-Edição do que a Unbabel oferece atualmente para o campo médico, e isso é algo que poderia ser explorado em trabalhos futuros. O corpus MRRAD e as anotações utilizadas neste trabalho podem ser encontradas em https://github.com/lasigeBioTM/MRRAD.Radiology reports describe the results of radiography procedures and have the potential of being an useful source of information which can bring benefits to health care systems around the world. One way to automatically extract information from the reports is by using Text Mining tools. The problem is that these tools are mostly developed for English and reports are usually written in the native language of the radiologist, which is not necessarily English. This creates an obstacle to the sharing of Radiology information between different communities. This work explores the solution of translating the reports to English before applying the Text Mining tools, probing the question of what translation approach should be used. Having this goal, I created MRRAD (Multilingual Radiology Research Articles Dataset), a parallel corpus of Portuguese research articles related to Radiology and a number of alternative translations (human, automatic and semiautomatic) to English. This is a novel corpus which can be used to move forward the research on this topic. Using MRRAD, I studied which kind of automatic or semi-automatic translation approach is more effective on the Named-entity recognition task of finding RadLex terms in the English version of the articles. Considering the terms identified in human translations as the gold standard, I calculated how similar to this standard were the terms identified using other translation approaches (Yandex, Google and Unbabel). I found that a completely automatic translation approach using Google leads to micro F-Scores (between 0.861 and 0.868, depending on the identification approach) similar to the ones obtained through a more expensive semi-automatic translation approach using Unbabel (between 0.862 and 0.870). To better understand the results I also performed a qualitative analysis of the type of errors found in the automatic and semi-automatic translations. The MRRAD corpus and annotations used in this work can be found at https://github.com/lasigeBioTM/MRRAD

    Identifying human phenotype terms in text using a machine learning approach

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017Todos os dias, uma grande quantidade de informação biomédica está a ser criada sob a forma de artigos científicos, livros e imagens. Como a linguagem humana tem uma natureza não-estruturada (texto com baixo nível de organização), torna-se necessário a criação de métodos de extração de informação automáticos para que seja possível converter esta informação de modo a ser legível por uma máquina e para que seja possível automatizar este processo. Os sistemas de extração de informação têm melhorado ao longo dos anos, tornando-se cada vez mais eficazes. Esta informação extraída pode depois ser inserida em bases de dados para que seja facilmente acessível, pesquisável e para que seja possível criar ligações entre diferentes tipos de informação. O Processamento de Linguagem Natural (PLN) é uma área da informática que lida com linguagem humana. O seu objetivo é extrair significado de texto não-estruturado, de forma automática, utilizando um computador. Utiliza um conjunto de técnicas como tokenization, stemming, lemmatization e part-of-speech tagging para desconstruir o texto e torna-lo legível para máquinas. O PLN tem várias aplicações, entre as quais podemos encontrar: coreference resolution, tradução automática, Reconhecimento de Entidades Mencionadas (REM) e part-of-speech tagging. Os métodos de aprendizagem automática têm um papel muito importante na extração de informação, tendo sido desenvolvidos e melhorados ao longo dos anos, tornando-se cada vez mais poderosos. Estes métodos podem ser divididos em dois tipos: aprendizagem não-supervisionada e aprendizagem supervisionada. Os métodos de aprendizagem não-supervisionada como o Clustering, não necessitam de um conjunto de treino anotado, sendo isso vantajoso pois pode ser difícil de encontrar. Estes métodos podem ser usados para encontrar padrões nos dados, o que pode ser útil quando as características dos dados são desconhecidas. Por sua vez, os métodos de aprendizagem supervisionada utilizam um conjunto de treino anotado, que contém exemplos para os dados de input e de output, com o qual é possível criar um modelo capaz de classificar um conjunto de dados não anotado. Alguns dos métodos de aprendizagem supervisionada mais comuns são os Conditional Random Fields (CRFs), Support Vectors Machines (SVMs) e Decision Trees. Os CRFs são utilizados nesta tese e são modelos probabilísticos geralmente usados em sistemas de REM. Estes modelos apresentam vantagens em relação a outros modelos, permitindo relaxar as hipóteses de independência que são postas aos Hidden Markov Models (HMM) e evitar os problemas de bias (preconceito) existentes nos SVMs. O REM é um método que consiste na identificação de entidades em texto não-estruturado. Os sistemas REM podem ser divididos em três vertentes: métodos de aprendizagem automática, métodos baseados em dicionários e métodos baseados em regras escritas. Hoje em dia, a maioria dos sistemas de REM utilizam métodos de aprendizagem automática. As vertentes que utilizam apenas métodos de aprendizagem automática são flexíveis, mas precisam de grandes quantidades de dado, tendo a possibilidade de não produzir resultados precisos. Os métodos baseados em dicionários eliminam a necessidade de grandes quantidades de dados e conseguem obter bons resultados. No entanto, estes métodos são limitativos pois não conseguem identificar entidades que não estão dentro do dicionário. Finalmente, métodos que usam regras escritas podem produzir resultados de alta qualidade. Não tendo tantas limitações como os métodos baseados em dicionários, têm a desvantagem de ser necessário uma grande quantidade de tempo e trabalho manual para obter bons resultados. O objetivo desta tese é o desenvolvimento de um sistema REM, o IHP (Identifying Human Phenotypes) para a identificação automática de entidades representadas na Human Phenotype Ontology (HPO). A HPO é uma ontologia com o objetivo de fornecer um vocabulário standardizado para defeitos fenotípicos que podem ser encontrados em doenças humanas. O IHP utiliza métodos de aprendizagem automática para o processo de identificação de entidades e uma combinação de métodos baseados em dicionários e métodos baseados em regras escritas para o processo de validação das entidades identificadas. O IHP utiliza duas ferramentas de benchmarking específicas para esta ontologia, apresentadas num trabalho anterior (Groza T, 2015): O Gold Standard Corpora (GSC), que consiste num conjunto de abstracts com as respetivas anotações de termos do HPO, e os Test Suites (TS), que consistem num conjunto de testes específicos divididos em categorias diferentes. Estas ferramentas têm o propósito de testar diferentes propriedades dos anotadores. Enquanto que o GSC testa os anotadores de uma forma geral, avaliando a capacidade de identificar entidades em texto livre, os TS são compostos por um conjunto de testes que avaliam as possíveis variações linguísticas que as entidades do HPO podem ter. Groza et al. também apresenta os resultados do anotador BioLark-CR, o qual é utilizado como baseline para os resultados do IHP. O IHP utiliza o IBEnt (Identification of Biological Entities) como o sistema de REM base, tendo sido modificado para aceitar entidades do HPO. Este sistema usa o Stanford CoreNLP em conjunto com CRFs, sob a forma de StanfordNER e CRFSuite, de modo a criar um modelo a partir de um conjunto de treino. Este modelo pode depois ser avaliado por um conjunto de teste. Para a criação de um modelo é necessário selecionar um conjunto de características (features) que se ajuste ao conjunto de dados utilizados. O StanfordNER e o CRFSuite apresentam conjuntos de features diferentes. Para o StanfordNER, uma lista de features existente foi utilizada, aplicando um algoritmo para selecionar as features que trazem maiores benefícios. Para o CRFSuite, foi criado um conjunto de features (linguísticas, morfológicas, ortográficas, léxicas, de contexto e outra) com base em trabalhos prévios na área do REM biomédico. Este conjunto de features foi testado e selecionado manualmente de acordo com o desempenho. Além da utilização das features, um conjunto de regras de pós-processamento foi desenvolvido para pesquisar padrões linguísticos, utilizando também listas de palavras e stop words, com o propósito de remover entidades que tenham sido mal identificadas, identificar entidades que não tenham sido identificadas e combinar entidades adjacentes. Os resultados para o IHP foram obtidos utilizando os classificadores StanfordNER e o CRFSuite. Para o StanfordNER, o IHP atinge um F-measure de 0.63498 no GSC e de 0.86916 nos TS. Para o CRFSuite, atinge um F-measure de 0.64009 no GSC e 0.89556 nos TS. Em relação ao anotador comparativo Bio-LarK CR, estes resultados mostram um aumento de desempenho no GSC, sugerindo que o IHP tem uma maior capacidade do que o BioLarK CR em lidar com situações reais. Apresenta, no entanto, um decréscimo nos TS, tendo uma menor capacidade em lidar com estruturas linguísticas complexas que possam ocorrer. No entanto, apesar de haver um decréscimo nos TS, as estruturas linguísticas avaliadas por estes testes ocorrem naturalmente em texto livre (como os abstracts do GSC), sugerindo que os resultados do GSC sejam mais significativos do que os resultados dos TS. Durante o desenvolvimento da tese, alguns problemas foram identificados no GSC: anotação de entidades superclasse/subclasse, número de vezes que uma entidade é anotada erros comuns. Devido a estas inconsistências encontradas, o IHP tem o potencial de ter um desempenho melhor no GSC. Para testar esta possibilidade, foi efetuado um teste que consiste em remover Falsos Positivos que se encontram tanto nas anotações do GSC como também na base de dados do HPO. Estes Falsos Positivos, estando presentes no GSC e no HPO, provavelmente deveriam ser considerados como bem anotados, mas, no entanto, o GSC não identifica como uma entidade. Estes testes mostram que o IHP tem o potencial de atingir um desempenho de 0.816, que corresponde a um aumento considerável de cerca de 0.18 em relação aos resultados obtidos. Com a análise destas inconsistências encontradas no GSC, uma nova versão, o GSC+, foi criada. GSC+ permite uma anotação dos documentos mais consistente, tentando anotar o máximo número de entidades nos documentos. Em relação ao GSC, ao GSC+ foram adicionadas 881 entidades e foram modificadas 4 entidades. O desempenho do IHP no GSC+ é consideravelmente mais alta do que no GSC, tendo atingindo um valor de F-measure de 0.863. Esta diferença no desempenho é devido ao facto do GSC+ tentar identificar o máximo número de entidades possível. Muitas entidades que eram consideradas como erradas, agora são consideradas corretas.Named-Entity Recognition (NER) is an important Natural Language Processing task that can be used in Information Extraction systems to automatically identify and extract entities in unstructured text. NER is commonly used to identify biological entities such as proteins, genes and chemical compounds found in scientific articles. The Human Phenotype Ontology (HPO) is an ontology that provides a standardized vocabulary for phenotypic abnormalities found in human diseases. This article presents the Identifying Human Phenotypes (IHP) system, tuned to recognize HPO entities in unstructured text. IHP uses IBEnt (Identification of Biological Entities) as the base NER system. It uses Stanford CoreNLP for text processing and applies Conditional Random Fields (CRFs) for the identification of entities. IHP uses of a rich feature set containing linguistic, orthographic, morphologic, lexical and context features created for the machine learning-based classifier. However, the main novelty of IHP is its validation step based on a set of carefully crafted hand-written rules, such as the negative connotation analysis, that combined with a dictionary are able to filter incorrectly identified entities, find missing entities and combine adjacent entities. The performance of IHP was evaluated using the recently published HPO Gold Standardized Corpora (GSC) and Test Suites (TS), where the system Bio-LarK CR obtained the best F-measure of 0.56 and 0.95 in the GSC and TS, respectively. Using StanfordNER, IHP achieved an F-measure of 0.646 for the GSC and 0.869 for the TS. Using CRFSuite, it achieved an F-measure of 0.648 for the GSC and 0.895 for the TS. Due to inconsistencies found in the GSC, an extended version of the GSC, the GSC+, was created, adding 881 entities and modifying 4 entities. IHP achieved an F-measure of 0.863 on GSC+. Both the GSC+ and the IHP system are publicly available at: https://github.com/lasigeBioTM/IHP
    corecore