1 research outputs found
Semantic annotation of clinical questionnaires to support personalized medicine
Tese de Mestrado, Bioinformática e Biologia Computacional, 2022, Universidade de Lisboa, Faculdade de CiênciasAtualmente estamos numa era global de constante evolução tecnológica, e uma das
áreas que têm beneficiado com isso é a medicina, uma vez que com integração da vertente
tecnológica na medicina, tem vindo a ter um papel cada vez mais importante quer do
ponto de vista dos médicos quer do ponto de vista dos pacientes.
Como resultado de melhores ferramentas que permitam melhorar o exercício das
funções dos médicos, estão se a criar condições para que os pacientes possam ter um
melhor acompanhamento, entendimento e atualização em tempo real da sua condição
clínica.
O setor dos Cuidados de Saúde é responsável pelas novidades que surgem quase
diariamente e que permitem melhorar a experiência do paciente e o modo como os
médicos podem tirar proveito da informação que os dados contêm em prol de uma
validação mais célere e eficaz. Este setor tem gerado um volume cada vez mais maciço
de dados, entre os quais relatórios médicos, registos de sensores inerciais, gravações de
consultas, imagens, vídeos e avaliações médicas nas quais se inserem os questionários e
as escalas clínicas que prometem aos pacientes um melhor acompanhamento do seu
estado de saúde, no entanto o seu enorme volume, distribuição e a grande
heterogeneidade dificulta o processamento e análise.
A integração deste tipo de dados é um desafio, uma vez que têm origens em diversas
fontes e uma heterogeneidade semântica bastante significativa; a integração semântica de
dados biomédicos resulta num desenvolvimento de uma rede semântica biomédica que
relaciona conceitos entre diversas fontes o que facilita a tradução de descobertas
científicas ajudando na elaboração de análises e conclusões mais complexas para isso é
crucial que se atinja a interoperabilidade semântica dos dados. Este é um passo muito
importante que permite a interação entre diferentes conjuntos de dados clínicos dentro do
mesmo sistema de informação ou entre sistemas diferentes. Esta integração permite às
ferramentas de análise e interface com os dados trabalhar sobre uma visão integrada e
holística dos dados, o que em última análise permite aos clínicos um acompanhamento
mais detalhado e personalizado dos seus pacientes.
Esta dissertação foi desenvolvida no LASIGE e em colaboração com o Campus
Neurológico Sénior e faz parte de um grande projeto que explora o fornecimento de mais e melhores dados tanto a clínicos como a pacientes. A base deste projeto assenta numa
aplicação web, o DataPark que possui uma plataforma que permite ao utilizador navegar
por áreas clinicas entre as quais a nutrição, fisioterapia, terapia ocupacional, terapia da
fala e neuropsicologia, em que cada uma delas que alberga baterias de testes com diversos
questionários e escalas clínicas de avaliação. Este tipo de avaliação clínica facilita imenso
o trabalho do médico uma vez que permite que sejam implementadas à distância uma vez
que o paciente pode responder remotamente, estas respostas ficam guardadas no
DataPark permitindo ao médico fazer um rastreamento do status do paciente ao longo do
tempo em relação a uma determinada escala.
No entanto o modo como o DataPark foi desenvolvido limita uma visão do médico
orientada ao questionário, ou seja o médico que acompanha o paciente quando quer ter a
visão do mesmo como um todo tem esta informação espalhada e dividida por estes
diferentes questionários e tem de os ir ver a todos um a um para ter a noção do status do
paciente. Esta dissertação pretende fazer face a este desafio construindo um algoritmo
que decomponha todas as perguntas dos diferentes questionários e permita a sua
integração semântica. Isto com o objectivo de permitir ao médico ter um visão holística
orientada por conceito clínico.
Procedeu-se então à extração de toda a base de dados presente no DataPark, sendo
esta a fonte de dados sobre a qual este trabalho se baseou, frisando que originalmente
existem muitos dados em Português que terão de ser traduzidos automaticamente.
Com uma análise de alto nível (numa fase inicial) sobre os questionários da base
de dados, iniciou-se a construção de um modelo semântico que pudesse descrever os
dados presentes nos questionários e escalas. Assim de uma forma manual foi feito um
levantamento de todos os conceitos clínicos que se conseguiu identificar num sub conjunto de questionários, mais concretamente 15 com os 5 mais respondidos em relação
à Doença de parkinson, os 5 mais respondidos em relação à doença de AVC e os 5 mais
respondidos que não estejam associados a uma única patologia em específico. Este
modelo foi melhorado e evoluiu em conjunto com uma equipa de 12 médicos e terapeutas
do CNS ao longo de 7 reuniões durante as quais foi levado a cabo um workshop de
validação que permitiu dotar o modelo construído de uma fiabilidade elevada.
Em paralelo procedeu-se à elaboração de 2 estudo: (i) um estudo que consistia em
avaliar com qual ou quais ontologias se obtém a maior cobertura dos dados do sub conjunto de 15 questionários. A conclusão a que se chegou foi que o conjunto de
ontologias que nos conferia mais segurança é constituído pelas ontologias LOINC, NCIT,
SNOMED e OCHV, conjunto esse foi utilizado daqui em diante; (ii) outro estudo
procurou aferir qual a ferramenta de tradução automática(Google Translator ou Microsoft
Translator) que confere uma segurança maior, para isso procedeu-se à tradução completa de 3 questionários que apesar de estar na base de dados no idioma português, tem a sua
versão original em inglês. Isto permitiu-nos traduzir estes 3 questionários de português
para inglês e avaliar em qual das duas ferramentas se obteve uma melhor performance.
O Microsoft Translator apresentou com uma diferença pequena um desempenho superior,
sendo portanto a ferramenta de tradução automática escolhida para integrar o nosso
algoritmo.
Concluídos estes 2 estudos temos assim o conjunto de dados uniformizado numa
só linguagem, e o conjunto de ontologias escolhidas para a anotação semântica. Para
entender esta fase do trabalho há que entender que ontologias são poderosas ferramentas
computacionais que consistem num conjunto de conceitos ou termos, que nomeiam e
definem as entidades presentes num certo domínio de interesse, no ramo da biomedicina
são designadas por ontologias biomédicas.
O uso de ontologias biomédicas confere uma grande utilidade na partilha,
recuperação e na extração de informação na biomedicina tendo um papel crucial para a
interoperabilidade semântica que é exatamente o nosso objectivo final.
Assim sendo procedeu-se à anotação semântica das questões do sub-conjunto de
15 questionários, uma anotação semântica é um processo que associa formalmente o alvo
textual a um conceito/termo, podendo estabelecer desta forma pontes entre
documentos/texto-alvos diferentes que abordam o mesmo conceito. Ou seja, uma
anotação semântica é associar um termo de uma determinada ontologia a um conceito
presente no texto alvo. Imaginando que o texto alvo são diferentes perguntas de vários
questionários, é natural encontrar diferentes questões de diferentes áreas de diagnóstico
que estejam conectados por termos ontológicos em comum.
Depois da anotação completada é feita a integração do modelo semântico, com o
algoritmo desenvolvido com o conjunto de ontologias e ainda com os dados dos
pacientes. Desta forma sabemos que um determinado paciente respondeu a várias
perguntas que abordam um mesmo conceito, essas perguntas estão interligadas
semanticamente uma vez que têm o mesmo conceito mapeado.
A nível de performance geral tanto os processos tradução como de anotação tiveram
um desempenho aceitável, onde a nivel de tradução se atingiu 78% accuracy, 76% recall
e uma F-mesure de 0.77 e ao nível da performance de anotação obteve-se 87% de
anotações bem conseguidas. Portanto num cômputo geral consegue-se atingir o principal
objectivo que era a obtenção holística integrada com o modelo semântico e os dados do
DataPark(Questionários e pacientes).Healthcare is a multi-domain area, with professionals from different areas often
collaborating to provide patients with the best possible care. Neurological and
neurodegenerative diseases are especially so, with multiple areas, including neurology,
psychology, nursing, physical therapy, speech therapy and others coming together to
support these patients.
The DataPark application allows healthcare providers to store, manage and analyse
information about patients with neurological disorders from different perspectives
including evaluation scales and questionnaires. However, the application does not
provide a holistic view of the patient status because it is split across different domains
and clinical scales.
This work proposes a methodology for the semantic integration of this data. It
developed the data scaffolding to afford a holistic view of the patient status that is
concept-oriented rather than scale or test battery oriented. A semantic model was
developed in collaboration with healthcare providers from different areas, which was
subsequently aligned with existing biomedical ontologies. The questionnaire and scale
data was semantically annotated to this semantic model, with a translation step when the
original data was in Portuguese. The process was applied to a subset of 15 scales with a
manual evaluation of each process. The semantic model includes 204 concepts and 436
links to external ontologies. Translation achieved an accuracy of 78%, whereas the
semantic annotation achieved 87%. The final integrated dataset covers 443 patients.
Finally, applying the process of semantic annotation to the whole dataset,
conditions are created for the process of semantic integration to occur, this process
consists in crossing all questions from different questionnaires and establishing a
connection between those that contain the same annotation.
This work allows healthcare providers to assess patients in a more global fashion,
integrating data collected from different scales and test batteries that evaluate the same
or similar parameters