1,014 research outputs found

    Ontology of core data mining entities

    Get PDF
    In this article, we present OntoDM-core, an ontology of core data mining entities. OntoDM-core defines themost essential datamining entities in a three-layered ontological structure comprising of a specification, an implementation and an application layer. It provides a representational framework for the description of mining structured data, and in addition provides taxonomies of datasets, data mining tasks, generalizations, data mining algorithms and constraints, based on the type of data. OntoDM-core is designed to support a wide range of applications/use cases, such as semantic annotation of data mining algorithms, datasets and results; annotation of QSAR studies in the context of drug discovery investigations; and disambiguation of terms in text mining. The ontology has been thoroughly assessed following the practices in ontology engineering, is fully interoperable with many domain resources and is easy to extend

    Semantic annotation of clinical questionnaires to support personalized medicine

    Get PDF
    Tese de Mestrado, Bioinformática e Biologia Computacional, 2022, Universidade de Lisboa, Faculdade de CiênciasAtualmente estamos numa era global de constante evolução tecnológica, e uma das áreas que têm beneficiado com isso é a medicina, uma vez que com integração da vertente tecnológica na medicina, tem vindo a ter um papel cada vez mais importante quer do ponto de vista dos médicos quer do ponto de vista dos pacientes. Como resultado de melhores ferramentas que permitam melhorar o exercício das funções dos médicos, estão se a criar condições para que os pacientes possam ter um melhor acompanhamento, entendimento e atualização em tempo real da sua condição clínica. O setor dos Cuidados de Saúde é responsável pelas novidades que surgem quase diariamente e que permitem melhorar a experiência do paciente e o modo como os médicos podem tirar proveito da informação que os dados contêm em prol de uma validação mais célere e eficaz. Este setor tem gerado um volume cada vez mais maciço de dados, entre os quais relatórios médicos, registos de sensores inerciais, gravações de consultas, imagens, vídeos e avaliações médicas nas quais se inserem os questionários e as escalas clínicas que prometem aos pacientes um melhor acompanhamento do seu estado de saúde, no entanto o seu enorme volume, distribuição e a grande heterogeneidade dificulta o processamento e análise. A integração deste tipo de dados é um desafio, uma vez que têm origens em diversas fontes e uma heterogeneidade semântica bastante significativa; a integração semântica de dados biomédicos resulta num desenvolvimento de uma rede semântica biomédica que relaciona conceitos entre diversas fontes o que facilita a tradução de descobertas científicas ajudando na elaboração de análises e conclusões mais complexas para isso é crucial que se atinja a interoperabilidade semântica dos dados. Este é um passo muito importante que permite a interação entre diferentes conjuntos de dados clínicos dentro do mesmo sistema de informação ou entre sistemas diferentes. Esta integração permite às ferramentas de análise e interface com os dados trabalhar sobre uma visão integrada e holística dos dados, o que em última análise permite aos clínicos um acompanhamento mais detalhado e personalizado dos seus pacientes. Esta dissertação foi desenvolvida no LASIGE e em colaboração com o Campus Neurológico Sénior e faz parte de um grande projeto que explora o fornecimento de mais e melhores dados tanto a clínicos como a pacientes. A base deste projeto assenta numa aplicação web, o DataPark que possui uma plataforma que permite ao utilizador navegar por áreas clinicas entre as quais a nutrição, fisioterapia, terapia ocupacional, terapia da fala e neuropsicologia, em que cada uma delas que alberga baterias de testes com diversos questionários e escalas clínicas de avaliação. Este tipo de avaliação clínica facilita imenso o trabalho do médico uma vez que permite que sejam implementadas à distância uma vez que o paciente pode responder remotamente, estas respostas ficam guardadas no DataPark permitindo ao médico fazer um rastreamento do status do paciente ao longo do tempo em relação a uma determinada escala. No entanto o modo como o DataPark foi desenvolvido limita uma visão do médico orientada ao questionário, ou seja o médico que acompanha o paciente quando quer ter a visão do mesmo como um todo tem esta informação espalhada e dividida por estes diferentes questionários e tem de os ir ver a todos um a um para ter a noção do status do paciente. Esta dissertação pretende fazer face a este desafio construindo um algoritmo que decomponha todas as perguntas dos diferentes questionários e permita a sua integração semântica. Isto com o objectivo de permitir ao médico ter um visão holística orientada por conceito clínico. Procedeu-se então à extração de toda a base de dados presente no DataPark, sendo esta a fonte de dados sobre a qual este trabalho se baseou, frisando que originalmente existem muitos dados em Português que terão de ser traduzidos automaticamente. Com uma análise de alto nível (numa fase inicial) sobre os questionários da base de dados, iniciou-se a construção de um modelo semântico que pudesse descrever os dados presentes nos questionários e escalas. Assim de uma forma manual foi feito um levantamento de todos os conceitos clínicos que se conseguiu identificar num sub conjunto de questionários, mais concretamente 15 com os 5 mais respondidos em relação à Doença de parkinson, os 5 mais respondidos em relação à doença de AVC e os 5 mais respondidos que não estejam associados a uma única patologia em específico. Este modelo foi melhorado e evoluiu em conjunto com uma equipa de 12 médicos e terapeutas do CNS ao longo de 7 reuniões durante as quais foi levado a cabo um workshop de validação que permitiu dotar o modelo construído de uma fiabilidade elevada. Em paralelo procedeu-se à elaboração de 2 estudo: (i) um estudo que consistia em avaliar com qual ou quais ontologias se obtém a maior cobertura dos dados do sub conjunto de 15 questionários. A conclusão a que se chegou foi que o conjunto de ontologias que nos conferia mais segurança é constituído pelas ontologias LOINC, NCIT, SNOMED e OCHV, conjunto esse foi utilizado daqui em diante; (ii) outro estudo procurou aferir qual a ferramenta de tradução automática(Google Translator ou Microsoft Translator) que confere uma segurança maior, para isso procedeu-se à tradução completa de 3 questionários que apesar de estar na base de dados no idioma português, tem a sua versão original em inglês. Isto permitiu-nos traduzir estes 3 questionários de português para inglês e avaliar em qual das duas ferramentas se obteve uma melhor performance. O Microsoft Translator apresentou com uma diferença pequena um desempenho superior, sendo portanto a ferramenta de tradução automática escolhida para integrar o nosso algoritmo. Concluídos estes 2 estudos temos assim o conjunto de dados uniformizado numa só linguagem, e o conjunto de ontologias escolhidas para a anotação semântica. Para entender esta fase do trabalho há que entender que ontologias são poderosas ferramentas computacionais que consistem num conjunto de conceitos ou termos, que nomeiam e definem as entidades presentes num certo domínio de interesse, no ramo da biomedicina são designadas por ontologias biomédicas. O uso de ontologias biomédicas confere uma grande utilidade na partilha, recuperação e na extração de informação na biomedicina tendo um papel crucial para a interoperabilidade semântica que é exatamente o nosso objectivo final. Assim sendo procedeu-se à anotação semântica das questões do sub-conjunto de 15 questionários, uma anotação semântica é um processo que associa formalmente o alvo textual a um conceito/termo, podendo estabelecer desta forma pontes entre documentos/texto-alvos diferentes que abordam o mesmo conceito. Ou seja, uma anotação semântica é associar um termo de uma determinada ontologia a um conceito presente no texto alvo. Imaginando que o texto alvo são diferentes perguntas de vários questionários, é natural encontrar diferentes questões de diferentes áreas de diagnóstico que estejam conectados por termos ontológicos em comum. Depois da anotação completada é feita a integração do modelo semântico, com o algoritmo desenvolvido com o conjunto de ontologias e ainda com os dados dos pacientes. Desta forma sabemos que um determinado paciente respondeu a várias perguntas que abordam um mesmo conceito, essas perguntas estão interligadas semanticamente uma vez que têm o mesmo conceito mapeado. A nível de performance geral tanto os processos tradução como de anotação tiveram um desempenho aceitável, onde a nivel de tradução se atingiu 78% accuracy, 76% recall e uma F-mesure de 0.77 e ao nível da performance de anotação obteve-se 87% de anotações bem conseguidas. Portanto num cômputo geral consegue-se atingir o principal objectivo que era a obtenção holística integrada com o modelo semântico e os dados do DataPark(Questionários e pacientes).Healthcare is a multi-domain area, with professionals from different areas often collaborating to provide patients with the best possible care. Neurological and neurodegenerative diseases are especially so, with multiple areas, including neurology, psychology, nursing, physical therapy, speech therapy and others coming together to support these patients. The DataPark application allows healthcare providers to store, manage and analyse information about patients with neurological disorders from different perspectives including evaluation scales and questionnaires. However, the application does not provide a holistic view of the patient status because it is split across different domains and clinical scales. This work proposes a methodology for the semantic integration of this data. It developed the data scaffolding to afford a holistic view of the patient status that is concept-oriented rather than scale or test battery oriented. A semantic model was developed in collaboration with healthcare providers from different areas, which was subsequently aligned with existing biomedical ontologies. The questionnaire and scale data was semantically annotated to this semantic model, with a translation step when the original data was in Portuguese. The process was applied to a subset of 15 scales with a manual evaluation of each process. The semantic model includes 204 concepts and 436 links to external ontologies. Translation achieved an accuracy of 78%, whereas the semantic annotation achieved 87%. The final integrated dataset covers 443 patients. Finally, applying the process of semantic annotation to the whole dataset, conditions are created for the process of semantic integration to occur, this process consists in crossing all questions from different questionnaires and establishing a connection between those that contain the same annotation. This work allows healthcare providers to assess patients in a more global fashion, integrating data collected from different scales and test batteries that evaluate the same or similar parameters

    A Survey on Semantic Processing Techniques

    Full text link
    Semantic processing is a fundamental research domain in computational linguistics. In the era of powerful pre-trained language models and large language models, the advancement of research in this domain appears to be decelerating. However, the study of semantics is multi-dimensional in linguistics. The research depth and breadth of computational semantic processing can be largely improved with new technologies. In this survey, we analyzed five semantic processing tasks, e.g., word sense disambiguation, anaphora resolution, named entity recognition, concept extraction, and subjectivity detection. We study relevant theoretical research in these fields, advanced methods, and downstream applications. We connect the surveyed tasks with downstream applications because this may inspire future scholars to fuse these low-level semantic processing tasks with high-level natural language processing tasks. The review of theoretical research may also inspire new tasks and technologies in the semantic processing domain. Finally, we compare the different semantic processing techniques and summarize their technical trends, application trends, and future directions.Comment: Published at Information Fusion, Volume 101, 2024, 101988, ISSN 1566-2535. The equal contribution mark is missed in the published version due to the publication policies. Please contact Prof. Erik Cambria for detail

    Advances in monolingual and crosslingual automatic disability annotation in Spanish

    Get PDF
    Background Unlike diseases, automatic recognition of disabilities has not received the same attention in the area of medical NLP. Progress in this direction is hampered by obstacles like the lack of annotated corpus. Neural architectures learn to translate sequences from spontaneous representations into their corresponding standard representations given a set of samples. The aim of this paper is to present the last advances in monolingual (Spanish) and crosslingual (from English to Spanish and vice versa) automatic disability annotation. The task consists of identifying disability mentions in medical texts written in Spanish within a collection of abstracts from journal papers related to the biomedical domain. Results In order to carry out the task, we have combined deep learning models that use different embedding granularities for sequence to sequence tagging with a simple acronym and abbreviation detection module to boost the coverage. Conclusions Our monolingual experiments demonstrate that a good combination of different word embedding representations provide better results than single representations, significantly outperforming the state of the art in disability annotation in Spanish. Additionally, we have experimented crosslingual transfer (zero-shot) for disability annotation between English and Spanish with interesting results that might help overcoming the data scarcity bottleneck, specially significant for the disabilities.This work was partially funded by the Spanish Ministry of Science and Innovation (MCI/AEI/FEDER, UE, DOTT-HEALTH/PAT-MED PID2019-106942RB-C31), the Basque Government (IXA IT1570-22), MCIN/AEI/ 10.13039/501100011033 and European Union NextGeneration EU/PRTR (DeepR3, TED2021-130295B-C31) and the EU ERA-Net CHIST-ERA and the Spanish Research Agency (ANTIDOTE PCI2020-120717-2)

    Event Extraction: A Survey

    Full text link
    Extracting the reported events from text is one of the key research themes in natural language processing. This process includes several tasks such as event detection, argument extraction, role labeling. As one of the most important topics in natural language processing and natural language understanding, the applications of event extraction spans across a wide range of domains such as newswire, biomedical domain, history and humanity, and cyber security. This report presents a comprehensive survey for event detection from textual documents. In this report, we provide the task definition, the evaluation method, as well as the benchmark datasets and a taxonomy of methodologies for event extraction. We also present our vision of future research direction in event detection.Comment: 20 page
    corecore