A integração do Arca - Repositório Institucional da Fiocruz com a Plataforma de Ciência de Dados aplicada à Saúde

Abstract

Apresenta o projeto desenvolvido entre o Laboratório de Ciência de Dados aplicada À Saúde, do Instituto de Informação Científica e Tecnológica em Saúde (ICICT) e o Arca – Repositório Institucional da Fiocruz. O projeto teve como objetivos: melhorar a curadoria dos dados inseridos no repositório institucional, visando a qualidade das informações, e a recuperação e a visualização de dados, oferecendo uma plataforma que permite a extração de informações com potencial de uso pela gestão e pela pesquisa. No processo de curadoria foi possível identificar inconsistências no preenchimento dos metadados, utilizando classificação automática e machine learning, e consequente correção, de forma a garantir a qualidade das informações e dos dados extraídos. Outro fator importante para a realização do projeto foi a utilização do software Kibana e do Elasticsearch para a visualização de dados de forma dinâmica, oferecendo uma plataforma de exploração interativa para extração e mineração de dados. O software permitiu a utilização de filtros e combinações de dados contidos no Arca, como produção por tipo de material, Unidades da Fiocruz, assunto, autor, ano e direito autoral de forma que possam ser manipulados pelas diferentes unidades/comunidades representadas no Repositório Institucional.Fundação Oswaldo Cru

    Similar works