Identifying human phenotype terms in text using a machine learning approach

Abstract

Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017Todos os dias, uma grande quantidade de informação biomédica está a ser criada sob a forma de artigos científicos, livros e imagens. Como a linguagem humana tem uma natureza não-estruturada (texto com baixo nível de organização), torna-se necessário a criação de métodos de extração de informação automáticos para que seja possível converter esta informação de modo a ser legível por uma máquina e para que seja possível automatizar este processo. Os sistemas de extração de informação têm melhorado ao longo dos anos, tornando-se cada vez mais eficazes. Esta informação extraída pode depois ser inserida em bases de dados para que seja facilmente acessível, pesquisável e para que seja possível criar ligações entre diferentes tipos de informação. O Processamento de Linguagem Natural (PLN) é uma área da informática que lida com linguagem humana. O seu objetivo é extrair significado de texto não-estruturado, de forma automática, utilizando um computador. Utiliza um conjunto de técnicas como tokenization, stemming, lemmatization e part-of-speech tagging para desconstruir o texto e torna-lo legível para máquinas. O PLN tem várias aplicações, entre as quais podemos encontrar: coreference resolution, tradução automática, Reconhecimento de Entidades Mencionadas (REM) e part-of-speech tagging. Os métodos de aprendizagem automática têm um papel muito importante na extração de informação, tendo sido desenvolvidos e melhorados ao longo dos anos, tornando-se cada vez mais poderosos. Estes métodos podem ser divididos em dois tipos: aprendizagem não-supervisionada e aprendizagem supervisionada. Os métodos de aprendizagem não-supervisionada como o Clustering, não necessitam de um conjunto de treino anotado, sendo isso vantajoso pois pode ser difícil de encontrar. Estes métodos podem ser usados para encontrar padrões nos dados, o que pode ser útil quando as características dos dados são desconhecidas. Por sua vez, os métodos de aprendizagem supervisionada utilizam um conjunto de treino anotado, que contém exemplos para os dados de input e de output, com o qual é possível criar um modelo capaz de classificar um conjunto de dados não anotado. Alguns dos métodos de aprendizagem supervisionada mais comuns são os Conditional Random Fields (CRFs), Support Vectors Machines (SVMs) e Decision Trees. Os CRFs são utilizados nesta tese e são modelos probabilísticos geralmente usados em sistemas de REM. Estes modelos apresentam vantagens em relação a outros modelos, permitindo relaxar as hipóteses de independência que são postas aos Hidden Markov Models (HMM) e evitar os problemas de bias (preconceito) existentes nos SVMs. O REM é um método que consiste na identificação de entidades em texto não-estruturado. Os sistemas REM podem ser divididos em três vertentes: métodos de aprendizagem automática, métodos baseados em dicionários e métodos baseados em regras escritas. Hoje em dia, a maioria dos sistemas de REM utilizam métodos de aprendizagem automática. As vertentes que utilizam apenas métodos de aprendizagem automática são flexíveis, mas precisam de grandes quantidades de dado, tendo a possibilidade de não produzir resultados precisos. Os métodos baseados em dicionários eliminam a necessidade de grandes quantidades de dados e conseguem obter bons resultados. No entanto, estes métodos são limitativos pois não conseguem identificar entidades que não estão dentro do dicionário. Finalmente, métodos que usam regras escritas podem produzir resultados de alta qualidade. Não tendo tantas limitações como os métodos baseados em dicionários, têm a desvantagem de ser necessário uma grande quantidade de tempo e trabalho manual para obter bons resultados. O objetivo desta tese é o desenvolvimento de um sistema REM, o IHP (Identifying Human Phenotypes) para a identificação automática de entidades representadas na Human Phenotype Ontology (HPO). A HPO é uma ontologia com o objetivo de fornecer um vocabulário standardizado para defeitos fenotípicos que podem ser encontrados em doenças humanas. O IHP utiliza métodos de aprendizagem automática para o processo de identificação de entidades e uma combinação de métodos baseados em dicionários e métodos baseados em regras escritas para o processo de validação das entidades identificadas. O IHP utiliza duas ferramentas de benchmarking específicas para esta ontologia, apresentadas num trabalho anterior (Groza T, 2015): O Gold Standard Corpora (GSC), que consiste num conjunto de abstracts com as respetivas anotações de termos do HPO, e os Test Suites (TS), que consistem num conjunto de testes específicos divididos em categorias diferentes. Estas ferramentas têm o propósito de testar diferentes propriedades dos anotadores. Enquanto que o GSC testa os anotadores de uma forma geral, avaliando a capacidade de identificar entidades em texto livre, os TS são compostos por um conjunto de testes que avaliam as possíveis variações linguísticas que as entidades do HPO podem ter. Groza et al. também apresenta os resultados do anotador BioLark-CR, o qual é utilizado como baseline para os resultados do IHP. O IHP utiliza o IBEnt (Identification of Biological Entities) como o sistema de REM base, tendo sido modificado para aceitar entidades do HPO. Este sistema usa o Stanford CoreNLP em conjunto com CRFs, sob a forma de StanfordNER e CRFSuite, de modo a criar um modelo a partir de um conjunto de treino. Este modelo pode depois ser avaliado por um conjunto de teste. Para a criação de um modelo é necessário selecionar um conjunto de características (features) que se ajuste ao conjunto de dados utilizados. O StanfordNER e o CRFSuite apresentam conjuntos de features diferentes. Para o StanfordNER, uma lista de features existente foi utilizada, aplicando um algoritmo para selecionar as features que trazem maiores benefícios. Para o CRFSuite, foi criado um conjunto de features (linguísticas, morfológicas, ortográficas, léxicas, de contexto e outra) com base em trabalhos prévios na área do REM biomédico. Este conjunto de features foi testado e selecionado manualmente de acordo com o desempenho. Além da utilização das features, um conjunto de regras de pós-processamento foi desenvolvido para pesquisar padrões linguísticos, utilizando também listas de palavras e stop words, com o propósito de remover entidades que tenham sido mal identificadas, identificar entidades que não tenham sido identificadas e combinar entidades adjacentes. Os resultados para o IHP foram obtidos utilizando os classificadores StanfordNER e o CRFSuite. Para o StanfordNER, o IHP atinge um F-measure de 0.63498 no GSC e de 0.86916 nos TS. Para o CRFSuite, atinge um F-measure de 0.64009 no GSC e 0.89556 nos TS. Em relação ao anotador comparativo Bio-LarK CR, estes resultados mostram um aumento de desempenho no GSC, sugerindo que o IHP tem uma maior capacidade do que o BioLarK CR em lidar com situações reais. Apresenta, no entanto, um decréscimo nos TS, tendo uma menor capacidade em lidar com estruturas linguísticas complexas que possam ocorrer. No entanto, apesar de haver um decréscimo nos TS, as estruturas linguísticas avaliadas por estes testes ocorrem naturalmente em texto livre (como os abstracts do GSC), sugerindo que os resultados do GSC sejam mais significativos do que os resultados dos TS. Durante o desenvolvimento da tese, alguns problemas foram identificados no GSC: anotação de entidades superclasse/subclasse, número de vezes que uma entidade é anotada erros comuns. Devido a estas inconsistências encontradas, o IHP tem o potencial de ter um desempenho melhor no GSC. Para testar esta possibilidade, foi efetuado um teste que consiste em remover Falsos Positivos que se encontram tanto nas anotações do GSC como também na base de dados do HPO. Estes Falsos Positivos, estando presentes no GSC e no HPO, provavelmente deveriam ser considerados como bem anotados, mas, no entanto, o GSC não identifica como uma entidade. Estes testes mostram que o IHP tem o potencial de atingir um desempenho de 0.816, que corresponde a um aumento considerável de cerca de 0.18 em relação aos resultados obtidos. Com a análise destas inconsistências encontradas no GSC, uma nova versão, o GSC+, foi criada. GSC+ permite uma anotação dos documentos mais consistente, tentando anotar o máximo número de entidades nos documentos. Em relação ao GSC, ao GSC+ foram adicionadas 881 entidades e foram modificadas 4 entidades. O desempenho do IHP no GSC+ é consideravelmente mais alta do que no GSC, tendo atingindo um valor de F-measure de 0.863. Esta diferença no desempenho é devido ao facto do GSC+ tentar identificar o máximo número de entidades possível. Muitas entidades que eram consideradas como erradas, agora são consideradas corretas.Named-Entity Recognition (NER) is an important Natural Language Processing task that can be used in Information Extraction systems to automatically identify and extract entities in unstructured text. NER is commonly used to identify biological entities such as proteins, genes and chemical compounds found in scientific articles. The Human Phenotype Ontology (HPO) is an ontology that provides a standardized vocabulary for phenotypic abnormalities found in human diseases. This article presents the Identifying Human Phenotypes (IHP) system, tuned to recognize HPO entities in unstructured text. IHP uses IBEnt (Identification of Biological Entities) as the base NER system. It uses Stanford CoreNLP for text processing and applies Conditional Random Fields (CRFs) for the identification of entities. IHP uses of a rich feature set containing linguistic, orthographic, morphologic, lexical and context features created for the machine learning-based classifier. However, the main novelty of IHP is its validation step based on a set of carefully crafted hand-written rules, such as the negative connotation analysis, that combined with a dictionary are able to filter incorrectly identified entities, find missing entities and combine adjacent entities. The performance of IHP was evaluated using the recently published HPO Gold Standardized Corpora (GSC) and Test Suites (TS), where the system Bio-LarK CR obtained the best F-measure of 0.56 and 0.95 in the GSC and TS, respectively. Using StanfordNER, IHP achieved an F-measure of 0.646 for the GSC and 0.869 for the TS. Using CRFSuite, it achieved an F-measure of 0.648 for the GSC and 0.895 for the TS. Due to inconsistencies found in the GSC, an extended version of the GSC, the GSC+, was created, adding 881 entities and modifying 4 entities. IHP achieved an F-measure of 0.863 on GSC+. Both the GSC+ and the IHP system are publicly available at: https://github.com/lasigeBioTM/IHP

    Similar works