2,416 research outputs found
Semantic annotation of clinical questionnaires to support personalized medicine
Tese de Mestrado, Bioinformática e Biologia Computacional, 2022, Universidade de Lisboa, Faculdade de CiênciasAtualmente estamos numa era global de constante evolução tecnológica, e uma das
áreas que têm beneficiado com isso é a medicina, uma vez que com integração da vertente
tecnológica na medicina, tem vindo a ter um papel cada vez mais importante quer do
ponto de vista dos médicos quer do ponto de vista dos pacientes.
Como resultado de melhores ferramentas que permitam melhorar o exercício das
funções dos médicos, estão se a criar condições para que os pacientes possam ter um
melhor acompanhamento, entendimento e atualização em tempo real da sua condição
clínica.
O setor dos Cuidados de Saúde é responsável pelas novidades que surgem quase
diariamente e que permitem melhorar a experiência do paciente e o modo como os
médicos podem tirar proveito da informação que os dados contêm em prol de uma
validação mais célere e eficaz. Este setor tem gerado um volume cada vez mais maciço
de dados, entre os quais relatórios médicos, registos de sensores inerciais, gravações de
consultas, imagens, vídeos e avaliações médicas nas quais se inserem os questionários e
as escalas clínicas que prometem aos pacientes um melhor acompanhamento do seu
estado de saúde, no entanto o seu enorme volume, distribuição e a grande
heterogeneidade dificulta o processamento e análise.
A integração deste tipo de dados é um desafio, uma vez que têm origens em diversas
fontes e uma heterogeneidade semântica bastante significativa; a integração semântica de
dados biomédicos resulta num desenvolvimento de uma rede semântica biomédica que
relaciona conceitos entre diversas fontes o que facilita a tradução de descobertas
científicas ajudando na elaboração de análises e conclusões mais complexas para isso é
crucial que se atinja a interoperabilidade semântica dos dados. Este é um passo muito
importante que permite a interação entre diferentes conjuntos de dados clínicos dentro do
mesmo sistema de informação ou entre sistemas diferentes. Esta integração permite às
ferramentas de análise e interface com os dados trabalhar sobre uma visão integrada e
holística dos dados, o que em última análise permite aos clínicos um acompanhamento
mais detalhado e personalizado dos seus pacientes.
Esta dissertação foi desenvolvida no LASIGE e em colaboração com o Campus
Neurológico Sénior e faz parte de um grande projeto que explora o fornecimento de mais e melhores dados tanto a clínicos como a pacientes. A base deste projeto assenta numa
aplicação web, o DataPark que possui uma plataforma que permite ao utilizador navegar
por áreas clinicas entre as quais a nutrição, fisioterapia, terapia ocupacional, terapia da
fala e neuropsicologia, em que cada uma delas que alberga baterias de testes com diversos
questionários e escalas clínicas de avaliação. Este tipo de avaliação clínica facilita imenso
o trabalho do médico uma vez que permite que sejam implementadas à distância uma vez
que o paciente pode responder remotamente, estas respostas ficam guardadas no
DataPark permitindo ao médico fazer um rastreamento do status do paciente ao longo do
tempo em relação a uma determinada escala.
No entanto o modo como o DataPark foi desenvolvido limita uma visão do médico
orientada ao questionário, ou seja o médico que acompanha o paciente quando quer ter a
visão do mesmo como um todo tem esta informação espalhada e dividida por estes
diferentes questionários e tem de os ir ver a todos um a um para ter a noção do status do
paciente. Esta dissertação pretende fazer face a este desafio construindo um algoritmo
que decomponha todas as perguntas dos diferentes questionários e permita a sua
integração semântica. Isto com o objectivo de permitir ao médico ter um visão holística
orientada por conceito clínico.
Procedeu-se então à extração de toda a base de dados presente no DataPark, sendo
esta a fonte de dados sobre a qual este trabalho se baseou, frisando que originalmente
existem muitos dados em Português que terão de ser traduzidos automaticamente.
Com uma análise de alto nível (numa fase inicial) sobre os questionários da base
de dados, iniciou-se a construção de um modelo semântico que pudesse descrever os
dados presentes nos questionários e escalas. Assim de uma forma manual foi feito um
levantamento de todos os conceitos clínicos que se conseguiu identificar num sub conjunto de questionários, mais concretamente 15 com os 5 mais respondidos em relação
à Doença de parkinson, os 5 mais respondidos em relação à doença de AVC e os 5 mais
respondidos que não estejam associados a uma única patologia em específico. Este
modelo foi melhorado e evoluiu em conjunto com uma equipa de 12 médicos e terapeutas
do CNS ao longo de 7 reuniões durante as quais foi levado a cabo um workshop de
validação que permitiu dotar o modelo construído de uma fiabilidade elevada.
Em paralelo procedeu-se à elaboração de 2 estudo: (i) um estudo que consistia em
avaliar com qual ou quais ontologias se obtém a maior cobertura dos dados do sub conjunto de 15 questionários. A conclusão a que se chegou foi que o conjunto de
ontologias que nos conferia mais segurança é constituído pelas ontologias LOINC, NCIT,
SNOMED e OCHV, conjunto esse foi utilizado daqui em diante; (ii) outro estudo
procurou aferir qual a ferramenta de tradução automática(Google Translator ou Microsoft
Translator) que confere uma segurança maior, para isso procedeu-se à tradução completa de 3 questionários que apesar de estar na base de dados no idioma português, tem a sua
versão original em inglês. Isto permitiu-nos traduzir estes 3 questionários de português
para inglês e avaliar em qual das duas ferramentas se obteve uma melhor performance.
O Microsoft Translator apresentou com uma diferença pequena um desempenho superior,
sendo portanto a ferramenta de tradução automática escolhida para integrar o nosso
algoritmo.
Concluídos estes 2 estudos temos assim o conjunto de dados uniformizado numa
só linguagem, e o conjunto de ontologias escolhidas para a anotação semântica. Para
entender esta fase do trabalho há que entender que ontologias são poderosas ferramentas
computacionais que consistem num conjunto de conceitos ou termos, que nomeiam e
definem as entidades presentes num certo domínio de interesse, no ramo da biomedicina
são designadas por ontologias biomédicas.
O uso de ontologias biomédicas confere uma grande utilidade na partilha,
recuperação e na extração de informação na biomedicina tendo um papel crucial para a
interoperabilidade semântica que é exatamente o nosso objectivo final.
Assim sendo procedeu-se à anotação semântica das questões do sub-conjunto de
15 questionários, uma anotação semântica é um processo que associa formalmente o alvo
textual a um conceito/termo, podendo estabelecer desta forma pontes entre
documentos/texto-alvos diferentes que abordam o mesmo conceito. Ou seja, uma
anotação semântica é associar um termo de uma determinada ontologia a um conceito
presente no texto alvo. Imaginando que o texto alvo são diferentes perguntas de vários
questionários, é natural encontrar diferentes questões de diferentes áreas de diagnóstico
que estejam conectados por termos ontológicos em comum.
Depois da anotação completada é feita a integração do modelo semântico, com o
algoritmo desenvolvido com o conjunto de ontologias e ainda com os dados dos
pacientes. Desta forma sabemos que um determinado paciente respondeu a várias
perguntas que abordam um mesmo conceito, essas perguntas estão interligadas
semanticamente uma vez que têm o mesmo conceito mapeado.
A nível de performance geral tanto os processos tradução como de anotação tiveram
um desempenho aceitável, onde a nivel de tradução se atingiu 78% accuracy, 76% recall
e uma F-mesure de 0.77 e ao nível da performance de anotação obteve-se 87% de
anotações bem conseguidas. Portanto num cômputo geral consegue-se atingir o principal
objectivo que era a obtenção holística integrada com o modelo semântico e os dados do
DataPark(Questionários e pacientes).Healthcare is a multi-domain area, with professionals from different areas often
collaborating to provide patients with the best possible care. Neurological and
neurodegenerative diseases are especially so, with multiple areas, including neurology,
psychology, nursing, physical therapy, speech therapy and others coming together to
support these patients.
The DataPark application allows healthcare providers to store, manage and analyse
information about patients with neurological disorders from different perspectives
including evaluation scales and questionnaires. However, the application does not
provide a holistic view of the patient status because it is split across different domains
and clinical scales.
This work proposes a methodology for the semantic integration of this data. It
developed the data scaffolding to afford a holistic view of the patient status that is
concept-oriented rather than scale or test battery oriented. A semantic model was
developed in collaboration with healthcare providers from different areas, which was
subsequently aligned with existing biomedical ontologies. The questionnaire and scale
data was semantically annotated to this semantic model, with a translation step when the
original data was in Portuguese. The process was applied to a subset of 15 scales with a
manual evaluation of each process. The semantic model includes 204 concepts and 436
links to external ontologies. Translation achieved an accuracy of 78%, whereas the
semantic annotation achieved 87%. The final integrated dataset covers 443 patients.
Finally, applying the process of semantic annotation to the whole dataset,
conditions are created for the process of semantic integration to occur, this process
consists in crossing all questions from different questionnaires and establishing a
connection between those that contain the same annotation.
This work allows healthcare providers to assess patients in a more global fashion,
integrating data collected from different scales and test batteries that evaluate the same
or similar parameters
An attentive neural architecture for joint segmentation and parsing and its application to real estate ads
In processing human produced text using natural language processing (NLP)
techniques, two fundamental subtasks that arise are (i) segmentation of the
plain text into meaningful subunits (e.g., entities), and (ii) dependency
parsing, to establish relations between subunits. In this paper, we develop a
relatively simple and effective neural joint model that performs both
segmentation and dependency parsing together, instead of one after the other as
in most state-of-the-art works. We will focus in particular on the real estate
ad setting, aiming to convert an ad to a structured description, which we name
property tree, comprising the tasks of (1) identifying important entities of a
property (e.g., rooms) from classifieds and (2) structuring them into a tree
format. In this work, we propose a new joint model that is able to tackle the
two tasks simultaneously and construct the property tree by (i) avoiding the
error propagation that would arise from the subtasks one after the other in a
pipelined fashion, and (ii) exploiting the interactions between the subtasks.
For this purpose, we perform an extensive comparative study of the pipeline
methods and the new proposed joint model, reporting an improvement of over
three percentage points in the overall edge F1 score of the property tree.
Also, we propose attention methods, to encourage our model to focus on salient
tokens during the construction of the property tree. Thus we experimentally
demonstrate the usefulness of attentive neural architectures for the proposed
joint model, showcasing a further improvement of two percentage points in edge
F1 score for our application.Comment: Preprint - Accepted for publication in Expert Systems with
Application
Evaluation of Transfer Learning and Domain Adaptation for Analyzing German-Speaking Job Advertisements
This paper presents text mining approaches on German-speaking job advertisements to enable social science research on the development of the labour market over the last 30 years. In order to build text mining applications providing information about profession and main task of a job, as well as experience and ICT skills needed, we experiment with transfer learning and domain adaptation. Our main contribution consists in building language models which are adapted to the domain of job advertisements, and their assessment on a broad range of machine learning problems. Our findings show the large value of domain adaptation in several respects. First, it boosts the performance of fine-tuned task-specific models consistently over all evaluation experiments. Second, it helps to mitigate rapid data shift over time in our special domain, and enhances the ability to learn from small updates with new, labeled task data. Third, domain-adaptation of language models is efficient: With continued in-domain pre-training we are able to outperform general-domain language models pre-trained on ten times more data. We share our domain-adapted language models and data with the research community
Searching COVID-19 clinical research using graphical abstracts
Objective. Graphical abstracts are small graphs of concepts that visually
summarize the main findings of scientific articles. While graphical abstracts
are customarily used in scientific publications to anticipate and summarize
their main results, we propose them as a means for expressing graph searches
over existing literature. Materials and methods. We consider the COVID-19 Open
Research Dataset (CORD-19), a corpus of more than one million abstracts; each
of them is described as a graph of co-occurring ontological terms, selected
from the Unified Medical Language System (UMLS) and the Ontology of Coronavirus
Infectious Disease (CIDO). Graphical abstracts are also expressed as graphs of
ontological terms, possibly augmented by utility terms describing their
interactions (e.g., "associated with", "increases", "induces"). We build a
co-occurrence network of concepts mentioned in the corpus; we then identify the
best matches of graphical abstracts on the network. We exploit graph database
technology and shortest-path queries. Results. We build a large co-occurrence
network, consisting of 128,249 entities and 47,198,965 relationships. A
well-designed interface allows users to explore the network by formulating or
adapting queries in the form of an abstract; it produces a bibliography of
publications, globally ranked; each publication is further associated with the
specific parts of the abstract that it explains, thereby allowing the user to
understand each aspect of the matching. Discussion and Conclusion. Our approach
supports the process of scientific hypothesis formulation and evidence search;
it can be reapplied to any scientific domain, although our mastering of UMLS
makes it most suited to clinical domains.Comment: 12 pages, 6 figure
BELB: a Biomedical Entity Linking Benchmark
Biomedical entity linking (BEL) is the task of grounding entity mentions to a
knowledge base. It plays a vital role in information extraction pipelines for
the life sciences literature. We review recent work in the field and find that,
as the task is absent from existing benchmarks for biomedical text mining,
different studies adopt different experimental setups making comparisons based
on published numbers problematic. Furthermore, neural systems are tested
primarily on instances linked to the broad coverage knowledge base UMLS,
leaving their performance to more specialized ones, e.g. genes or variants,
understudied. We therefore developed BELB, a Biomedical Entity Linking
Benchmark, providing access in a unified format to 11 corpora linked to 7
knowledge bases and spanning six entity types: gene, disease, chemical,
species, cell line and variant. BELB greatly reduces preprocessing overhead in
testing BEL systems on multiple corpora offering a standardized testbed for
reproducible experiments. Using BELB we perform an extensive evaluation of six
rule-based entity-specific systems and three recent neural approaches
leveraging pre-trained language models. Our results reveal a mixed picture
showing that neural approaches fail to perform consistently across entity
types, highlighting the need of further studies towards entity-agnostic models
An Entity-based Claim Extraction Pipeline for Real-world Biomedical Fact-checking
Existing fact-checking models for biomedical claims are typically trained on
synthetic or well-worded data and hardly transfer to social media content. This
mismatch can be mitigated by adapting the social media input to mimic the
focused nature of common training claims. To do so, Wuehrl & Klinger (2022)
propose to extract concise claims based on medical entities in the text.
However, their study has two limitations: First, it relies on gold-annotated
entities. Therefore, its feasibility for a real-world application cannot be
assessed since this requires detecting relevant entities automatically. Second,
they represent claim entities with the original tokens. This constitutes a
terminology mismatch which potentially limits the fact-checking performance. To
understand both challenges, we propose a claim extraction pipeline for medical
tweets that incorporates named entity recognition and terminology normalization
via entity linking. We show that automatic NER does lead to a performance drop
in comparison to using gold annotations but the fact-checking performance still
improves considerably over inputting the unchanged tweets. Normalizing entities
to their canonical forms does, however, not improve the performance.Comment: Accepted at The Sixth FEVER Worksho
- …