2 research outputs found
Anotação automática de informação clínica
Dissertação de mestrado integrado em Engenharia InformáticaA proximidade entre a Informática e a Saúde é cada vez maior a cada dia que passa. Nos dias que
correm é comum os hospitais guardarem eletronicamente todo o historial e relatórios clínicos dos utentes.
O armazenamento digital destes dados traz vantagens aos sistemas de saúde como a acessibilidade,
a otimização de recursos e redução de custos, a diminuição do erro médico e o auxílio nas tomadas de
decisões. Grande parte desses dados está em formato de texto livre, ou seja, são dados não estruturados.
Para os sistemas computacionais, este tipo de dados representa um maior desafio quer na análise, quer
no seu processamento. Sendo que, para este tipo de informação ser processada automaticamente é necessário recorrer ao Processamento de Linguagem Natural, uma subárea da Inteligência Artificial. Tarefas
como classificação ou reconhecimento de entidades em textos requerem quase sempre textos anotados.
O processo de anotação dos textos é demorado e pouco atrativo para o ser humano levando a que
a quantidade disponível de dados anotados não seja em grande volume e consequentemente a que a
aplicação de modelos de Machine Learning não seja a mais eficiente, resultado em problemas de over fitting e não generalizando como seria de desejar. Devido a isto, a procura por uma solução de anotação
automática dos dados em massa é necessária e extremamente útil.
A principal contribuição desta dissertação é o desenvolvimento de uma aplicação para a anotação
automática de informação clínica. Esta aplicação permitirá a anotação de grandes quantidades de dados
de forma automática comparativamente a outras ferramentas e abordagens existentes.The proximity between Informatics and Health is growing day by day. Nowadays, it is common for
hospitals to store all the history and clinical data electronically.
The digital storage of these data brings advantages to health systems such as accessibility, optimization
of resources and cost reduction, reduction of medical errors and help in decision-making. However, most
of this data is in free-text format, that is, unstructured data. For computer systems, this type of data
represents an enormous challenge both in analysis and processing. For this type of information to be
processed automatically, it is necessary to resort to Natural Language Processing, a sub-area of Artificial
Intelligence. Tasks such as classification or name entity recognition almost always require annotated text.
The process of annotating texts is time-consuming and unattractive for human beings, leading to the
fact that the available amount of annotated data is not large. Consequently, the application of Machine
Learning models is not the most efficient, resulting in overfitting problems and not generalizing as we
would like. Due to this, the search for a solution of automatic annotation of clinical data is necessary and
extremely useful.
The main contribution of this dissertation is the development of an application for the automatic annota tion of clinical information. This application will allow the annotation of large amounts of data automatically
compared to other existing tools and approaches
Anotação automática e interativa de documentos PDF
Mestrado em Engenharia de Computadores e TelemáticaO aumento acelerado da literatura biomédica levou ao desenvolvimento de
vários esforços para extrair e armazenar, de forma estruturada, a informação
relativa aos conceitos e relações presentes nesses textos, oferecendo aos investigadores
e clínicos um acesso rápido e fácil à informação. No entanto,
este processo de "curadoria de conhecimento" é uma tarefa extremamente
exaustiva, sendo cada vez mais comum o uso de ferramentas de anotação
automática, fazendo uso de técnicas de mineração de texto. Apesar de já
existirem sistemas de anotação bastante completos e que apresentam um
alto desempenho, estes não são largamente usados pela comunidade biomédica,
principalmente por serem complexos e apresentarem limitações ao
nível de usabilidade. Por outro lado, o PDF tornou-se nos últimos anos num
dos formatos mais populares para publicar e partilhar documentos visto poder
ser apresentado exatamente da mesma maneira independentemente do
sistema ou plataforma em que é acedido. A maioria das ferramentas de anotação
foram principalmente desenhadas para extrair informação de texto livre,
contudo hoje em dia uma grande parte da literatura biomédica é publicada e
distribuída em PDF, e portanto a extração de informação de documentos PDF
deve ser um ponto de foco para a comunidade de mineração de texto biomédico.
O objetivo do trabalho descrito nesta dissertação foi a extensão da framework
Neji, permitindo o processamento de documentos em formato PDF, e a integração
dessas funcionalidades na plataforma Egas, permitindo que um utilizador
possa visualizar e anotar, simultaneamente, o artigo original no formato
PDF e o texto extraído deste.
Os sistemas desenvolvidos apresentam bons resultados de desempenho,
tanto em termos de velocidade de processamento como de representação da
informação, o que também contribui para uma melhor experiência de utilizador.
Além disso, apresentam várias vantagens para a comunidade de mineração
de texto e curadores, permitindo a anotação direta de artigos no formato
PDF e simplificando o uso e configuração destes sistemas de anotação por
parte de investigadores.The accelerated increase of the biomedical literature has led to various efforts
to extract and store, in a structured way, the information related with the
concepts and relations presented in those texts, providing to investigators and
researchers a fast and easy access to knowledge. However, this process of
“knowledge curation” is an extremely exhaustive task, being more and more
common demanding the application of automatic annotation tools, that make
use of text mining techniques. Even thought complete annotation systems already
exist and produce high performance results, they are not widely used by
the biomedical community, mainly because of their complexity and also due to
some limitations in usability. On the other hand, the PDF has become in the
last years one of the most popular formats for publishing and sharing documents
because of it can be displayed exactly in the same way independently
of the system or platform where it is accessed. The majority of annotation
tools were mainly designed to extract information from raw text, although a big
part of the biomedical literature is published and distributed in PDF, and thus
the information extraction from PDF documents should be a focus point for the
biomedical text mining community.
The objective of the work described in this document is the extension of Neji
framework, allowing the processing of documents in PDF format, and the integration
of these features in Egas platform, allowing a user to simultaneously
visualize the original article in PDF format and its extracted text.
The improved and developed systems present good performing results, both
in terms of processing speed and representation of the information, contributing
also for a better user experience. Besides that, they present several advantages
for the biomedical community, allowing the direct annotation of PDF
articles and simplifying the use and configuration of these annotation systems
by researchers