9 research outputs found

    Semantic annotation of electronic health records in a multilingual environment

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2017Os relatórios de Radiologia descrevem os resultados dos procedimentos de radiografia e têm o potencial de ser uma fonte de informação útil que pode trazer benefícios para os sistemas de saúde ao redor do mundo. No entanto, estes relatórios são geralmente escritos em texto livre e, portanto, é difícil extrair automaticamente informação a partir deles. Contudo, o fato de que a maioria dos relatórios estão agora digitalmente disponíveis torna-os passíveis de utilização de ferramentas de Prospeção de Texto (Text Mining). Outra vantagem dos relatórios de Radiologia, que os torna mais suscetíveis à utilização destas ferramentas, é que mesmo se escritos em texto livre, eles são geralmente bem estruturados. O problema é que estas ferramentas são principalmente desenvolvidas para Inglês e os relatórios são geralmente escritos na língua nativa do radiologista, que não é necessariamente o Inglês. Isso cria um obstáculo para a partilha de informação de Radiologia entre diferentes comunidades, partilha esta importante para compreender e tratar eficazmente problemas de saúde. Existem basicamente duas soluções possíveis para este problema. Uma solução é traduzir o próprio léxico que é utilizado pela ferramenta de Prospeção de Texto que se pretende utilizar. A outra é traduzir os próprios relatórios. Traduzir o léxico tem a vantagem de não necessitar de tradução contínua, ou seja, depois de traduzir um léxico para, por exemplo, Espanhol, podemos usá-lo para processar tantos relatórios Espanhóis não traduzidas conforme necessário. No entanto, quando uma nova versão do léxico é lançada as mudanças também precisam de ser traduzidas, caso contrário, o léxico traduzido ficaria desatualizado. Dada a crescente evolução de serviços de tradução hoje disponíveis, neste trabalho é avaliada a opção alternativa de traduzir os relatórios e verificar a sua viabilidade. Esta abordagem tem a vantagem de que os relatórios traduzidos seriam acessíveis a qualquer médico que entenda Inglês e as ferramentas estado da arte de Prospeção de Texto focadas em texto em Inglês podem ser aplicadas sem qualquer necessidade de adaptação. Se a tradução for feita por profissionais treinados em tradução de textos médicos, provavelmente pode-se assumir que informação não se perde no processo de tradução. Chamamos a este tipo de tradução Tradução Humana (Human Translation). Mas a utilização de tradutores especializados é cara e não escalável. Outra opção é usar Tradução Automática (Machine Translation). Não obstante a menor qualidade da tradução, é mais barata e mais viável em grande escala. Finalmente, uma opção que tenta obter o melhor dos dois mundos é usar Tradução Automática seguida de Pós-Edição (Post-Edition) por humanos. Nesta abordagem, o texto é automaticamente traduzido e, em seguida, a tradução é corrigida por um humano. Mais barata do que a opção de Tradução Humana e com melhor qualidade do que a de Tradução Automática. A escolha de abordagem de tradução é importante porque vai afetar a qualidade dos resultados das ferramentas de Prospeção de Texto. Atualmente não há nenhum estudo disponível publicamente que tenha fornecido evidência quantitativa que auxilie a fazer esta escolha. Isto pode ser explicado pela falta de um corpus paralelo que poderia ser usado para estudar este problema. Este trabalho explora a solução de traduzir os relatórios para Inglês antes de aplicar as ferramentas de Prospeção de Texto, analisando a questão de qual a abordagem de tradução que deve ser usada. Com este fim, criei MRRAD (Multilingual Radiology Research Articles Dataset), um corpus paralelo de 51 artigos portugueses de investiga ção relacionados com Radiologia, e uma série de traduções alternativas (humanas, automáticas e semi-automáticas) para Inglês. As versões originais dos artigos, em Português, e as traduções humanas foram extraídas automaticamente da biblioteca online SciELO. As traduções automáticas foram obtidas utilizando os serviços da Yandex e da Google e traduções semi-automáticas através dos serviços da Unbabel. Este é um corpus original que pode ser usado no avanço da investigação sobre este tema. Usando o MRRAD estudei que tipo de abordagem de tradução autom ática ou semi-automática é mais eficaz na tarefa de Reconhecimento de Entidades (Named-Entity Recognition ) relacionados com Radiologia mencionadas na versão em Inglês dos artigos. Estas entidades correspondem aos termos presentes no RadLex, que é uma ontologia que se foca em termos relacionados com Radiologia. A tarefa de Reconhecimento de Entidades é relevante uma vez que os seus resultados podem ser usadas em sistemas de Recuperação de Imagens (Image Retrieval ) e de Recuperação de Informação (Information Retrieval) e podem ser úteis para melhorar Sistemas de Respostas a Perguntas (Question Answering). Para realizar o Reconhecimento de termos do RadLex utilizei a API do Open Biomedical Annotator e duas diferentes configurações do software NOBLE Coder. Assim, ao todo utilizei três diferentes abordagens para identificar termos RadLex nos textos. A diferença entre as abordagens está em quão flexíveis ou estritas estas são em identificar os termos. Considerando os termos identificados nas traduções humanas como o padrão ouro (gold-standard ), calculei o quão semelhante a este padrão foram os termos identificados usando outras abordagens de tradução. Descobri que uma abordagem completamente automática de tradução utilizando o Google leva a micro F-Scores (entre 0,861 e 0,868, dependendo da abordagem de reconhecimento) semelhantes aos obtidos através de uma abordagem mais cara, tradução semi-automática usando Unbabel (entre 0,862 e 0,870). A abordagem de tradução utilizando os serviços da Yandex obteve micro F-Scores mais baixos (entre 0,829 e 0,831). Os resultados foram semelhantes mesmo no caso onde se consideraram apenas termos de RadLex pertences às sub-árvores correspondentes a entidades anatómicas e achados clínicos. Para entender melhor os resultados, também realizei uma análise qualitativa do tipo de erros encontrados nas traduções automáticas e semiautom áticas. A análise foi feita sobre os Falsos Positivos (FPs) e Falsos Negativos (FNs) cometidos pelas traduções utilizando Yandex, Google e Unbabel em 9 documentos aleatórios e cada erro foi classificado por tipo. A maioria dos FPs e FNs são explicados não por uma tradução errada mas por outras causas, por exemplo, uma tradução alternativa que leva a uma diferença nos termos identificados. Poderia ser esperado que as traduções Unbabel tivessem muitos menos erros, visto que têm o envolvimento de humanos, do que as da Google, mas isso nem sempre acontece. Há situações em que erros são até adicionados mesmo durante a etapa de Pós-Edição. Uma revisão dos erros faz-me propor que isso poderá ser devido à falta de conhecimento médico dos editores (utilizadores responsáveis por fazer a Pós-Edição) atuais da Unbabel. Por exemplo, um stroke (acidente vascular cerebral) é algo que ocorre no cérebro, mas num caso foi usado como algo que acontece no coração - alguém com algum conhecimento sobre a medicina não faria este erro. Mas a verdade é que a Unbabel atualmente não se foca em conteúdo médico. Prevejo que se eles o fizessem e investissem em crescer uma comunidade de utilizadores especialistas com melhor conhecimento da linguagem médica, isso levaria a melhores resultados. Dito isto, os resultados deste trabalho corroboram a conclusão de que se engenheiros de software tiverem recursos financeiros limitados para pagar por Tradução Humana, ficarão melhor servidos se usarem um serviço de tradução automática como a Google em vez de um serviço que implementa Pós-Edição, como a Unbabel. É claro que talvez haja melhores serviços de Tradução Automática do que a Google ou melhores serviços de Tradução Automática + Pós-Edição do que a Unbabel oferece atualmente para o campo médico, e isso é algo que poderia ser explorado em trabalhos futuros. O corpus MRRAD e as anotações utilizadas neste trabalho podem ser encontradas em https://github.com/lasigeBioTM/MRRAD.Radiology reports describe the results of radiography procedures and have the potential of being an useful source of information which can bring benefits to health care systems around the world. One way to automatically extract information from the reports is by using Text Mining tools. The problem is that these tools are mostly developed for English and reports are usually written in the native language of the radiologist, which is not necessarily English. This creates an obstacle to the sharing of Radiology information between different communities. This work explores the solution of translating the reports to English before applying the Text Mining tools, probing the question of what translation approach should be used. Having this goal, I created MRRAD (Multilingual Radiology Research Articles Dataset), a parallel corpus of Portuguese research articles related to Radiology and a number of alternative translations (human, automatic and semiautomatic) to English. This is a novel corpus which can be used to move forward the research on this topic. Using MRRAD, I studied which kind of automatic or semi-automatic translation approach is more effective on the Named-entity recognition task of finding RadLex terms in the English version of the articles. Considering the terms identified in human translations as the gold standard, I calculated how similar to this standard were the terms identified using other translation approaches (Yandex, Google and Unbabel). I found that a completely automatic translation approach using Google leads to micro F-Scores (between 0.861 and 0.868, depending on the identification approach) similar to the ones obtained through a more expensive semi-automatic translation approach using Unbabel (between 0.862 and 0.870). To better understand the results I also performed a qualitative analysis of the type of errors found in the automatic and semi-automatic translations. The MRRAD corpus and annotations used in this work can be found at https://github.com/lasigeBioTM/MRRAD

    Proceedings

    Get PDF
    Proceedings of the NODALIDA 2011 Workshop Constraint Grammar Applications. Editors: Eckhard Bick, Kristin Hagen, Kaili Müürisep, Trond Trosterud. NEALT Proceedings Series, Vol. 14 (2011), vi+69 pp. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/19231

    Improving Access and Mental Health for Youth Through Virtual Models of Care

    Get PDF
    The overall objective of this research is to evaluate the use of a mobile health smartphone application (app) to improve the mental health of youth between the ages of 14–25 years, with symptoms of anxiety/depression. This project includes 115 youth who are accessing outpatient mental health services at one of three hospitals and two community agencies. The youth and care providers are using eHealth technology to enhance care. The technology uses mobile questionnaires to help promote self-assessment and track changes to support the plan of care. The technology also allows secure virtual treatment visits that youth can participate in through mobile devices. This longitudinal study uses participatory action research with mixed methods. The majority of participants identified themselves as Caucasian (66.9%). Expectedly, the demographics revealed that Anxiety Disorders and Mood Disorders were highly prevalent within the sample (71.9% and 67.5% respectively). Findings from the qualitative summary established that both staff and youth found the software and platform beneficial

    The Impact of Digital Technologies on Public Health in Developed and Developing Countries

    Get PDF
    This open access book constitutes the refereed proceedings of the 18th International Conference on String Processing and Information Retrieval, ICOST 2020, held in Hammamet, Tunisia, in June 2020.* The 17 full papers and 23 short papers presented in this volume were carefully reviewed and selected from 49 submissions. They cover topics such as: IoT and AI solutions for e-health; biomedical and health informatics; behavior and activity monitoring; behavior and activity monitoring; and wellbeing technology. *This conference was held virtually due to the COVID-19 pandemic

    The Impact of Digital Technologies on Public Health in Developed and Developing Countries

    Get PDF
    This open access book constitutes the refereed proceedings of the 18th International Conference on String Processing and Information Retrieval, ICOST 2020, held in Hammamet, Tunisia, in June 2020.* The 17 full papers and 23 short papers presented in this volume were carefully reviewed and selected from 49 submissions. They cover topics such as: IoT and AI solutions for e-health; biomedical and health informatics; behavior and activity monitoring; behavior and activity monitoring; and wellbeing technology. *This conference was held virtually due to the COVID-19 pandemic

    A survey of the application of soft computing to investment and financial trading

    Get PDF
    corecore