177 research outputs found

    Text mining processing pipeline for semi structured data D3.3

    Get PDF
    Unstructured and semi-structured cohort data contain relevant information about the health condition of a patient, e.g., free text describing disease diagnoses, drugs, medication reasons, which are often not available in structured formats. One of the challenges posed by medical free texts is that there can be several ways of mentioning a concept. Therefore, encoding free text into unambiguous descriptors allows us to leverage the value of the cohort data, in particular, by facilitating its findability and interoperability across cohorts in the project.Named entity recognition and normalization enable the automatic conversion of free text into standard medical concepts. Given the volume of available data shared in the CINECA project, the WP3 text mining working group has developed named entity normalization techniques to obtain standard concepts from unstructured and semi-structured fields available in the cohorts. In this deliverable, we present the methodology used to develop the different text mining tools created by the dedicated SFU, UMCG, EBI, and HES-SO/SIB groups for specific CINECA cohorts

    Ontology-Based Clinical Information Extraction Using SNOMED CT

    Get PDF
    Extracting and encoding clinical information captured in unstructured clinical documents with standard medical terminologies is vital to enable secondary use of clinical data from practice. SNOMED CT is the most comprehensive medical ontology with broad types of concepts and detailed relationships and it has been widely used for many clinical applications. However, few studies have investigated the use of SNOMED CT in clinical information extraction. In this dissertation research, we developed a fine-grained information model based on the SNOMED CT and built novel information extraction systems to recognize clinical entities and identify their relations, as well as to encode them to SNOMED CT concepts. Our evaluation shows that such ontology-based information extraction systems using SNOMED CT could achieve state-of-the-art performance, indicating its potential in clinical natural language processing

    Rewriting and suppressing UMLS terms for improved biomedical term identification

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>Identification of terms is essential for biomedical text mining.. We concentrate here on the use of vocabularies for term identification, specifically the Unified Medical Language System (UMLS). To make the UMLS more suitable for biomedical text mining we implemented and evaluated nine term rewrite and eight term suppression rules. The rules rely on UMLS properties that have been identified in previous work by others, together with an additional set of new properties discovered by our group during our work with the UMLS. Our work complements the earlier work in that we measure the impact on the number of terms identified by the different rules on a MEDLINE corpus. The number of uniquely identified terms and their frequency in MEDLINE were computed before and after applying the rules. The 50 most frequently found terms together with a sample of 100 randomly selected terms were evaluated for every rule.</p> <p>Results</p> <p>Five of the nine rewrite rules were found to generate additional synonyms and spelling variants that correctly corresponded to the meaning of the original terms and seven out of the eight suppression rules were found to suppress only undesired terms. Using the five rewrite rules that passed our evaluation, we were able to identify 1,117,772 new occurrences of 14,784 rewritten terms in MEDLINE. Without the rewriting, we recognized 651,268 terms belonging to 397,414 concepts; with rewriting, we recognized 666,053 terms belonging to 410,823 concepts, which is an increase of 2.8% in the number of terms and an increase of 3.4% in the number of concepts recognized. Using the seven suppression rules, a total of 257,118 undesired terms were suppressed in the UMLS, notably decreasing its size. 7,397 terms were suppressed in the corpus.</p> <p>Conclusions</p> <p>We recommend applying the five rewrite rules and seven suppression rules that passed our evaluation when the UMLS is to be used for biomedical term identification in MEDLINE. A software tool to apply these rules to the UMLS is freely available at <url>http://biosemantics.org/casper</url>.</p

    Semantic annotation of clinical questionnaires to support personalized medicine

    Get PDF
    Tese de Mestrado, Bioinformática e Biologia Computacional, 2022, Universidade de Lisboa, Faculdade de CiênciasAtualmente estamos numa era global de constante evolução tecnológica, e uma das áreas que têm beneficiado com isso é a medicina, uma vez que com integração da vertente tecnológica na medicina, tem vindo a ter um papel cada vez mais importante quer do ponto de vista dos médicos quer do ponto de vista dos pacientes. Como resultado de melhores ferramentas que permitam melhorar o exercício das funções dos médicos, estão se a criar condições para que os pacientes possam ter um melhor acompanhamento, entendimento e atualização em tempo real da sua condição clínica. O setor dos Cuidados de Saúde é responsável pelas novidades que surgem quase diariamente e que permitem melhorar a experiência do paciente e o modo como os médicos podem tirar proveito da informação que os dados contêm em prol de uma validação mais célere e eficaz. Este setor tem gerado um volume cada vez mais maciço de dados, entre os quais relatórios médicos, registos de sensores inerciais, gravações de consultas, imagens, vídeos e avaliações médicas nas quais se inserem os questionários e as escalas clínicas que prometem aos pacientes um melhor acompanhamento do seu estado de saúde, no entanto o seu enorme volume, distribuição e a grande heterogeneidade dificulta o processamento e análise. A integração deste tipo de dados é um desafio, uma vez que têm origens em diversas fontes e uma heterogeneidade semântica bastante significativa; a integração semântica de dados biomédicos resulta num desenvolvimento de uma rede semântica biomédica que relaciona conceitos entre diversas fontes o que facilita a tradução de descobertas científicas ajudando na elaboração de análises e conclusões mais complexas para isso é crucial que se atinja a interoperabilidade semântica dos dados. Este é um passo muito importante que permite a interação entre diferentes conjuntos de dados clínicos dentro do mesmo sistema de informação ou entre sistemas diferentes. Esta integração permite às ferramentas de análise e interface com os dados trabalhar sobre uma visão integrada e holística dos dados, o que em última análise permite aos clínicos um acompanhamento mais detalhado e personalizado dos seus pacientes. Esta dissertação foi desenvolvida no LASIGE e em colaboração com o Campus Neurológico Sénior e faz parte de um grande projeto que explora o fornecimento de mais e melhores dados tanto a clínicos como a pacientes. A base deste projeto assenta numa aplicação web, o DataPark que possui uma plataforma que permite ao utilizador navegar por áreas clinicas entre as quais a nutrição, fisioterapia, terapia ocupacional, terapia da fala e neuropsicologia, em que cada uma delas que alberga baterias de testes com diversos questionários e escalas clínicas de avaliação. Este tipo de avaliação clínica facilita imenso o trabalho do médico uma vez que permite que sejam implementadas à distância uma vez que o paciente pode responder remotamente, estas respostas ficam guardadas no DataPark permitindo ao médico fazer um rastreamento do status do paciente ao longo do tempo em relação a uma determinada escala. No entanto o modo como o DataPark foi desenvolvido limita uma visão do médico orientada ao questionário, ou seja o médico que acompanha o paciente quando quer ter a visão do mesmo como um todo tem esta informação espalhada e dividida por estes diferentes questionários e tem de os ir ver a todos um a um para ter a noção do status do paciente. Esta dissertação pretende fazer face a este desafio construindo um algoritmo que decomponha todas as perguntas dos diferentes questionários e permita a sua integração semântica. Isto com o objectivo de permitir ao médico ter um visão holística orientada por conceito clínico. Procedeu-se então à extração de toda a base de dados presente no DataPark, sendo esta a fonte de dados sobre a qual este trabalho se baseou, frisando que originalmente existem muitos dados em Português que terão de ser traduzidos automaticamente. Com uma análise de alto nível (numa fase inicial) sobre os questionários da base de dados, iniciou-se a construção de um modelo semântico que pudesse descrever os dados presentes nos questionários e escalas. Assim de uma forma manual foi feito um levantamento de todos os conceitos clínicos que se conseguiu identificar num sub conjunto de questionários, mais concretamente 15 com os 5 mais respondidos em relação à Doença de parkinson, os 5 mais respondidos em relação à doença de AVC e os 5 mais respondidos que não estejam associados a uma única patologia em específico. Este modelo foi melhorado e evoluiu em conjunto com uma equipa de 12 médicos e terapeutas do CNS ao longo de 7 reuniões durante as quais foi levado a cabo um workshop de validação que permitiu dotar o modelo construído de uma fiabilidade elevada. Em paralelo procedeu-se à elaboração de 2 estudo: (i) um estudo que consistia em avaliar com qual ou quais ontologias se obtém a maior cobertura dos dados do sub conjunto de 15 questionários. A conclusão a que se chegou foi que o conjunto de ontologias que nos conferia mais segurança é constituído pelas ontologias LOINC, NCIT, SNOMED e OCHV, conjunto esse foi utilizado daqui em diante; (ii) outro estudo procurou aferir qual a ferramenta de tradução automática(Google Translator ou Microsoft Translator) que confere uma segurança maior, para isso procedeu-se à tradução completa de 3 questionários que apesar de estar na base de dados no idioma português, tem a sua versão original em inglês. Isto permitiu-nos traduzir estes 3 questionários de português para inglês e avaliar em qual das duas ferramentas se obteve uma melhor performance. O Microsoft Translator apresentou com uma diferença pequena um desempenho superior, sendo portanto a ferramenta de tradução automática escolhida para integrar o nosso algoritmo. Concluídos estes 2 estudos temos assim o conjunto de dados uniformizado numa só linguagem, e o conjunto de ontologias escolhidas para a anotação semântica. Para entender esta fase do trabalho há que entender que ontologias são poderosas ferramentas computacionais que consistem num conjunto de conceitos ou termos, que nomeiam e definem as entidades presentes num certo domínio de interesse, no ramo da biomedicina são designadas por ontologias biomédicas. O uso de ontologias biomédicas confere uma grande utilidade na partilha, recuperação e na extração de informação na biomedicina tendo um papel crucial para a interoperabilidade semântica que é exatamente o nosso objectivo final. Assim sendo procedeu-se à anotação semântica das questões do sub-conjunto de 15 questionários, uma anotação semântica é um processo que associa formalmente o alvo textual a um conceito/termo, podendo estabelecer desta forma pontes entre documentos/texto-alvos diferentes que abordam o mesmo conceito. Ou seja, uma anotação semântica é associar um termo de uma determinada ontologia a um conceito presente no texto alvo. Imaginando que o texto alvo são diferentes perguntas de vários questionários, é natural encontrar diferentes questões de diferentes áreas de diagnóstico que estejam conectados por termos ontológicos em comum. Depois da anotação completada é feita a integração do modelo semântico, com o algoritmo desenvolvido com o conjunto de ontologias e ainda com os dados dos pacientes. Desta forma sabemos que um determinado paciente respondeu a várias perguntas que abordam um mesmo conceito, essas perguntas estão interligadas semanticamente uma vez que têm o mesmo conceito mapeado. A nível de performance geral tanto os processos tradução como de anotação tiveram um desempenho aceitável, onde a nivel de tradução se atingiu 78% accuracy, 76% recall e uma F-mesure de 0.77 e ao nível da performance de anotação obteve-se 87% de anotações bem conseguidas. Portanto num cômputo geral consegue-se atingir o principal objectivo que era a obtenção holística integrada com o modelo semântico e os dados do DataPark(Questionários e pacientes).Healthcare is a multi-domain area, with professionals from different areas often collaborating to provide patients with the best possible care. Neurological and neurodegenerative diseases are especially so, with multiple areas, including neurology, psychology, nursing, physical therapy, speech therapy and others coming together to support these patients. The DataPark application allows healthcare providers to store, manage and analyse information about patients with neurological disorders from different perspectives including evaluation scales and questionnaires. However, the application does not provide a holistic view of the patient status because it is split across different domains and clinical scales. This work proposes a methodology for the semantic integration of this data. It developed the data scaffolding to afford a holistic view of the patient status that is concept-oriented rather than scale or test battery oriented. A semantic model was developed in collaboration with healthcare providers from different areas, which was subsequently aligned with existing biomedical ontologies. The questionnaire and scale data was semantically annotated to this semantic model, with a translation step when the original data was in Portuguese. The process was applied to a subset of 15 scales with a manual evaluation of each process. The semantic model includes 204 concepts and 436 links to external ontologies. Translation achieved an accuracy of 78%, whereas the semantic annotation achieved 87%. The final integrated dataset covers 443 patients. Finally, applying the process of semantic annotation to the whole dataset, conditions are created for the process of semantic integration to occur, this process consists in crossing all questions from different questionnaires and establishing a connection between those that contain the same annotation. This work allows healthcare providers to assess patients in a more global fashion, integrating data collected from different scales and test batteries that evaluate the same or similar parameters

    Spanish named entity recognition in the biomedical domain

    Get PDF
    Named Entity Recognition in the clinical domain and in languages different from English has the difficulty of the absence of complete dictionaries, the informality of texts, the polysemy of terms, the lack of accordance in the boundaries of an entity, the scarcity of corpora and of other resources available. We present a Named Entity Recognition method for poorly resourced languages. The method was tested with Spanish radiology reports and compared with a conditional random fields system.Peer ReviewedPostprint (author's final draft

    Recognition and normalization of biomedical entities within clinical notes

    Get PDF
    Tese de mestrado, Engenharia Informática (Sistemas de Informação), Universidade de Lisboa, Faculdade de Ciências, 2015Os profissionais de saúde, como parte do seu trabalho, têm a obrigação de registar manualmente o seu conhecimento de forma não estruturada, sendo as notas clínicas um dos vários tipos de documentos gerados. As notas clínicas descrevem a situação clínica dos pacientes, contendo informação relativamente aos seus tratamentos, sintomas, doenças, diagnósticos, procedimentos, etc. A introdução desta informação em Electronic Health Records (EHRs) está a ser fortemente encorajada, originando um crescimento exponencial no volume de notas clínicas em formato digital. A disponibilização desta informação em formato digital oferece uma maior liberdade, permitindo uma fácil partilha das mesmas entre instituições médicas, acompanhando assim o percurso do paciente. Nas notas clínicas a informação é registada utilizando a língua natural desprovida de qualquer estruturação. O registo de informação de forma estruturada, apesar de ser recomendado, condiciona o trabalho dos profissionais de saúde. Tal imposição aumenta o tempo necessário para efetuar o registo do conhecimento assim como impõe limites na descrição de casos fora do comum. A aplicação de técnicas de prospeção de texto (text mining) aparece então como solução para o processamento automático da informação não estruturada permitindo a conversão num formato que permita os sistemas computacionais analisar. Dado que os profissionais médicos utilizam diferentes terminologias de acordo com o contexto e a respetiva especialização, o processamento de notas clínicas comporta vários desafios, dada a sua heterogeneidade, ambiguidade e necessidade contextual. São várias as técnicas de text mining utilizadas para resolver estes desafios, sendo neste trabalho exploradas técnicas de aprendizagem automática (Machine Learning), semelhança textual (Pattern Matching), conteúdo da informação (Information Content) e semelhança semântica (Semantic Similarity). O objetivo deste trabalho consiste no estudo e desenvolvimento de um sistema que permita reconhecer e normalizar entidades biomédicas em notas clínicas, assim como o desenvolvimento da respetiva interface. A tarefa de reconhecimento consiste em identificar entidades relevantes em notas clínicas, sendo que a normalização passa pela atribuição, a cada entidade reconhecida, de um identificador único pertencente a um vocabulário controlado. Para tal, o sistema desenvolvido utiliza técnicas de prospeção de texto e usa a ontologia SNOMED CT como vocabulário controlado. Utiliza ainda dois conjuntos de notas clínicas, um não anotado e outro anotado manualmente por profissionais de saúde. Este último conjunto é referido como conjunto de treino. O sistema foi desenvolvido usando uma arquitetura modular em pipeline, composta por dois módulos, recebendo como input um conjunto de notas clínicas não anotadas. A execução do sistema resulta na anotação automática, isto é, no reconhecimento e normalização das notas clínicas recebidas como input. O primeiro módulo é responsável pelo reconhecimento de entidades biomédicas. A estratégia usada consiste na aplicação de algoritmos de aprendizagem automática de forma a gerar um modelo de reconhecimento baseado em casos passados, isto é, notas clínicas manualmente anotadas. O software de aprendizagem automática Stanford NER foi utilizado para gerar modelos CRF (Conditional Random Field). Este módulo comporta dois processos: o de treino e o de execução. No processo de treino, cada palavra (ou token) existente nas notas clínicas é caracterizada com base num conjunto de propriedades entre as quais: Brown clusters, formato do token, vizinhança e léxicos pertencentes a vários domínios. A caracterização de cada token permite que estes sejam representados junto do algoritmo de aprendizagem automática. Este trabalho utilizou o inovador modelo de segmentação SBIEON, permitindo a identificação de entidades não contínuas. O algoritmo de aprendizagem automática vai gerar um modelo de reconhecimento baseado nas propriedades associadas a cada token. O modelo de reconhecimento gerado permite identificar entidades em novas notas clínicas Não anotadas, associando a cada token existente nas respectivas notas clínicas, uma classe pertencente ao modelo de segmentação escolhido. As entidades relevantes são compostas por tokens que tenham sido associados a uma classe relevante. O segundo módulo do sistema é responsável pela normalização das entidades identificadas pelo módulo de reconhecimento como sendo relevantes. Uma arquitetura modular em pipeline é utilizada, sendo cada componente responsável pela normalização de um conjunto restrito de entidades pertencentes a um determinado dicionário. Um total de cinco dicionários são gerados baseados nas notas clínicas de treino (abreviações não ambíguas, entidades não ambíguas e entidades ambíguas) e na ontologia SNOMED CT (entidades ambíguas e não ambíguas). Os primeiros três componentes normalizam as entidades não ambíguos utilizando uma pesquisa de dicionário. A entidade a normalizar é procurada nos dicionários não ambíguos, e caso seja encontrada uma correspondência, o respetivo identificador e associado. O primeiro componente utiliza o dicionário de abreviações, o segundo o dicionário de notas clinicas de treino não ambíguo e o terceiro o dicionário SNOMED CT não ambíguo. O quarto e quinto componente normalizam entidades ambíguas pertencentes às notas clínicas de treino e ao SNOMED CT respetivamente. Em ambos, uma pesquisa de dicionário é efetuada para recolher os identificadores candidatos. O quarto componente desambigua as entidades utilizando uma medida resultante da combinação linear do Information Content e da frequência do identificador nas notas clínicas em questão. O quinto componente baseia-se em entidades previamente normalizadas num mesmo documento, utilizando uma estratégia baseada na semelhança semântica. A entidade ambígua com maior semelhança semântica é a escolhida, assumindo desta forma que entidades pertencentes ao mesmo documento devem ser semelhantes entre si.O último componente normaliza entidades que não estejam representadas em nenhum dos dicionários referidos. Técnicas de Pattern Matching são aplicadas de forma a identificar a entidade candidata textualmente mais semelhante. Esta entidade é depois inserida no pipeline do sistema, sendo normalizada por um dos componentes anteriormente descritos. Para este componente, medidas como o NGram Similarity e Levenhstein foram utilizadas, tendo esta ultima medida sido estendida de forma a permitir medir a semelhança textual entre duas entidades sem ter em conta a ordem dos seus tokens (ExtendedLevenhstein). A interface desenvolvida permite aos utilizadores introduzirem documentos no formato de texto ou através da introdução de um identificador de um artigo no sistema PUBMED ou de um Tweet, sendo efetuada a recolha do texto associado. A interface permite ainda que os utilizadores corrijam ou adicionem novas anotações ao texto, sendo estas alterações registadas pelo sistema. São ainda apresentadas várias estatísticas em tempo real que permitem aos utilizadores navegar entre documentos. O sistema apresentado neste trabalho é resultante de duas primeiras iterações. A primeira foi utilizada para participar no SemEval 2014 e foi desenvolvida pela equipa ULisboa da qual fui autor principal. A segunda foi desenvolvida por mim no âmbito deste trabalho e foi utilizada para participar no SemEval 2015. Ambas as competições endereçavam a tarefa de Analysis of Clinical Text, sendo os sistemas submetidos avaliados oficialmente usando as medidas: precision, recall, F-score e accuracy. De forma a comparar o impacto do uso de machine learning no reconhecimento, desenvolvi adicionalmente um módulo de reconhecimento baseada em regras, permitindo assim comparar o desempenho de ambas as estratégias. Além das avaliações oficiais, o sistema foi igualmente avaliado localmente utilizando as mesmas medidas mas recorrendo a um conjunto de notas clinicas diferentes para avaliação. As avaliações permitiram entender o desempenho do sistema ao longo das várias iterações e do seu potencial atual. Foi possível observar que o sistema apresentado atingiu os objetivos esperados, conseguindo reconhecer e normalizar entidades biomédicas com um elevado desempenho. Olhando para cada módulo individualmente, observou-se que a utilização de algoritmos de machine learning permitiu atingir resultados bastante mais elevados no reconhecimento de entidades, do que aqueles obtidos utilizando uma abordagem baseada em regras. Observou-se ainda que a adição de Brown clusters como propriedades durante o treino melhorou o desempenho do sistema. A adição de léxicos produziu um efeito contrário, reduzindo o desempenho. Olhando apenas para o módulo de normalização, este conseguiu normalizar entidades com uma confiança de 91.3%. Este valor é bastante superior ao obtido pela primeira iteração do sistema que apenas atingiu uma confiança de 60.2%. O sistema como um todo foi avaliado oficialmente nas competições mencionadas. No SemEval 2014 o sistema submetido obteve o 14o lugar na tarefa de reconhecimento e o 25o na de normalização. Já no SemEval 2015, o sistema foi capaz de obter o 2o lugar com uma precision de 77.9%, um recall de 70.5% e um F-score de 74%. A avaliação desta última competição assumiu o reconhecimento e a normalização como uma tarefa única. Estes resultados mostram que o sistema evoluiu bastante, atingindo um excelente desemepenho. O sistema conseguiu ainda superar os resultados obtidos pelo sistema da equipa UTH CCB que na edição de 2014 foi a equipa que obteve a melhor classificação. Este trabalho apresenta um sistema que apesar de usar técnicas state of the art com algumas adaptações, conseguiu atingir um desempenho relevante face a outros sistemas a nível global, possuindo um enorme potencial para atingir melhores resultados. Como trabalho futuro, o módulo de reconhecimento poderá ser melhorado através da introdução de novas propriedades que melhorem a definição das entidades relevantes. Alguns componentes da pipeline de normalização podem ser amplamente melhorados, aplicando novas técnicas de desambiguação e pattern matching, ou mesmo recorrendo a algoritmos learningto rank semelhantes ao apresentado pelo sistema de DNorm é visto igualmente como uma mais valia.Clinical notes in textual form occur frequently in Electronic Health Records (EHRs).They are mainly used to describe treatment plans, symptoms, diagnostics, etc. Clinicalnotes are recorded in narrative language without any structured form and, since each medicalprofessional uses different types of terminologies according to context and to theirspecialization, the interpretation of these notes is very challenging for their complexity,heterogeneity, ambiguity and contextual sensitivity.Forcing medical professionals to introduce the information in a predefined structuresimplifies the interpretation. However, the imposition of such a rigid structure increasesnot only the time needed to record data, but it also introduces barriers at recording unusualcases. Thus, medical professionals are already encouraged to record the information in adigital form, but mostyl as narrative text. This will increase the amount of clinical notes toprocess, and doing it manually requires a huge human effort to accomplish it in a feasible time. This work presents a system for automatic recognition and normalization of biomedical concepts within clinical notes, by applying text mining techniques and using domain knowledge from the SNOMED CT ontology. The system is composed by two modules.The first one is responsible for the recognition and it is based on the Stanford NER Softwareto generate CRF models. The models were generated by using a rich set of features and employing a novel classification system, SBIEON. The second module is responsible for the normalization, where a pipeline framework was created. This modular framework leverages on a set of techniques such as (i) direct match dictionary lookup, (ii) pattern matching, (iii) information content and (iv) semantic similarity. The system was evaluated in the SemEval 2015 international competition, achieving the second best F-score (74%) and the second best precision (77.9%), among 38 submissions. After the competition, this system was improved, increasing the overall performance and reducing the running time by 60%

    Concept graphs: Applications to biomedical text categorization and concept extraction

    Get PDF
    As science advances, the underlying literature grows rapidly providing valuable knowledge mines for researchers and practitioners. The text content that makes up these knowledge collections is often unstructured and, thus, extracting relevant or novel information could be nontrivial and costly. In addition, human knowledge and expertise are being transformed into structured digital information in the form of vocabulary databases and ontologies. These knowledge bases hold substantial hierarchical and semantic relationships of common domain concepts. Consequently, automating learning tasks could be reinforced with those knowledge bases through constructing human-like representations of knowledge. This allows developing algorithms that simulate the human reasoning tasks of content perception, concept identification, and classification. This study explores the representation of text documents using concept graphs that are constructed with the help of a domain ontology. In particular, the target data sets are collections of biomedical text documents, and the domain ontology is a collection of predefined biomedical concepts and relationships among them. The proposed representation preserves those relationships and allows using the structural features of graphs in text mining and learning algorithms. Those features emphasize the significance of the underlying relationship information that exists in the text content behind the interrelated topics and concepts of a text document. The experiments presented in this study include text categorization and concept extraction applied on biomedical data sets. The experimental results demonstrate how the relationships extracted from text and captured in graph structures can be used to improve the performance of the aforementioned applications. The discussed techniques can be used in creating and maintaining digital libraries through enhancing indexing, retrieval, and management of documents as well as in a broad range of domain-specific applications such as drug discovery, hypothesis generation, and the analysis of molecular structures in chemoinformatics

    Biomedical Term Extraction: NLP Techniques in Computational Medicine

    Get PDF
    Artificial Intelligence (AI) and its branch Natural Language Processing (NLP) in particular are main contributors to recent advances in classifying documentation and extracting information from assorted fields, Medicine being one that has gathered a lot of attention due to the amount of information generated in public professional journals and other means of communication within the medical profession. The typical information extraction task from technical texts is performed via an automatic term recognition extractor. Automatic Term Recognition (ATR) from technical texts is applied for the identification of key concepts for information retrieval and, secondarily, for machine translation. Term recognition depends on the subject domain and the lexical patterns of a given language, in our case, Spanish, Arabic and Japanese. In this article, we present the methods and techniques for creating a biomedical corpus of validated terms, with several tools for optimal exploitation of the information therewith contained in said corpus. This paper also shows how these techniques and tools have been used in a prototype
    corecore