2 research outputs found

    Quanto valem os metadados?

    Get PDF
    Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2016As atividades de investigação e desenvolvimento estão cada vez mais dependentes da partilha de informação. O volume de dados gerados ou consumidos assume valores cada vez maiores em muitas áreas científicas. No entanto, as metodologias desenvolvidas e implementadas, no sentido de aumentar a quantidade e qualidade dos dados partilhados, têm apresentado sérias dificuldades em cumprir o propósito de facilitar essa partilha. Até ao momento, o caminho seguido tem sido a utilização de meros repositórios públicos onde os dados gerados pelas investigações são depositados, mas que não implementam funcionalidades que facilitem a partilha e integração dos dados por outros investigadores, sendo portanto difícil extrair conhecimento de forma automática destes dados. É necessária assim uma nova abordagem à forma como esta partilha é feita. Uma abordagem que permita que a informação possa ser organizada, caracterizada e atualizada de modo contínuo. Esse trabalho poderá ser feito pelo investigador, que acima de tudo conhece o domínio dos dados, mas também por curadores, que conhecem tanto o domínio como as práticas de partilha. A maior barreira para a implementação desta metodologia é assim humana, sendo a motivação para organizar, caraterizar semanticamente e atualizar os dados um dos pontos-chave. Nesta tese é assumido que através da implementação de um mecanismo que recompense a partilha e a integração dos metadados que descrevem os conjuntos de dados, de acordo com os princípios da Web Semântica, estaremos a promover e a intensificar a confiança e qualidade na partilha e integração dos mesmos, como passo essencial no avanço científico. Para tal, é necessário que esta qualidade de integração possa ser avaliada, e assim averiguar a utilidade dos metadados e, consequentemente, do conhecimento proporcionado pelos metadados na descoberta dos conjuntos de dados. Esta tese teve como objetivo o desenvolvimento de uma ferramenta que permite a avaliação do nível de conhecimento proporcionado pelos metadados utilizados para a descrição de conjuntos de dados de um qualquer repositório científico, tendo em conta a qualidade da sua integração semântica com ontologias públicas, de acordo com a especificidade das anotações com referência a conceitos ontológicos, utilizados para descrição das suas propriedades, e da completude desta integração. Deste modo, foi apresentado um estudo onde estes dois critérios (especificidade e cobertura de anotações) foram propostos como medidas de qualidade de integração semântica de metadados, partindo da representação formal de ontologia como um grafo acíclico. Estas medidas foram implementadas e utilizadas pela ferramenta de modo a analisar a qualidade dos metadados utilizados por um repositório real de dados científicos, e assim efetuar uma avaliação quantitativa da implementação específica da ferramenta. Os resultados obtidos permitiram concluir que a ferramenta implementou corretamente as medidas estudadas, na avaliação da qualidade dos metadados, e que existe de facto uma fraca aposta, sobretudo quantitativa, na descrição semântica dos metadados por parte dos investigadores.Research and development activities are increasingly dependent on information sharing. The volume of generated or consumed data assumes increasing values in many scientific areas. However, the methodologies developed and implemented to increase the quantity and quality of shared data, have presented serious difficulties in fulfilling the purpose of facilitating such sharing. So far, the followed path has been to use public repositories, where data generated by the investigations is deposited, but which fail to impleme nt features that facilitate data sharing and integration by other researchers, making it difficult to extract actual knowledge in an automatic way from the deposited data. It is necessary to develop a new approach to how this data sharing is performed; an approach that allows the information to be organized, characterized and continuously updated. This work can be done by the investigator, who above all knows the field of data, but also by curators, who know both the domain and the data sharing practices. However the biggest barrier to the implementation of this methodology is human, and the motivation to organize, semantically characterize and update the datasets is one of the key points in the process. In this thesis it is assumed that through the implementation of a mechanism that rewards and recognizes sharing and integration of metadata describing the datasets, according to the principles of the Semantic Web, we will promote and intensify the confidence and quality of data sharing and integration as an essential step in scientific progress. To this end, it is necessary that the quality of integration can be assessed, and thus that we can determine the utility of the knowledge provided by metadata in dataset discovery. The main work carried out by this thesis, was the development of a tool that allows the assessment of the level of knowledge provided by metadata used to describe datasets of any scientific repository, taking into account the quality of its semantic integration with public available ontologies, according to the specificity of annotations with reference to the ontological concepts used to describe its properties, and completeness, of this integration. Thus, a study was made where these two criteria (specificity and annotations coverage) have been proposed as semantic metadata integration quality. These measures were implemented and used by the tool to examine the quality of the metadata used in a real repository of scientific data to describe its datasets, and thus make a quantitative assessment of the tool’s specific implementation. The results show that the tool correctly implements the measures studied in the evaluation of metadata quality and that there is indeed a lack of effort, especially with regards to the quantity, in semantic description of metadata by researchers
    corecore