9 research outputs found

    A descrição formal da qualidade de dados publicados na Web: análise do Data Quality Vocabulary (DQV)

    Get PDF
    The quality assessment process plays an important role in the reuse of data made available on the Web. To ensure the use and reuse of these data, it is necessary to formally describe them in a way that computational agents can understand. One of the possibilities to make this description viable is the Data Quality Vocabulary, elaborated by the World Wide Web Consortium. The objective was to verify the impact of the Data Quality Vocabulary in the process of formal description of the quality of data published on the Web, analyzing the objectives, characteristics, and structure of the vocabulary. The research has an exploratory and descriptive character, adopting as a method a study of the official documentation published by the consortium. As a result, an overview of the scenario that led to the development of the vocabulary was obtained, its structure was presented and its potential application was discussed. It is concluded that the Data Quality Vocabulary provides a general and customizable descriptive structure for providing the results of the data quality assessment process, which allows these results to be shared by its providers. It also allows the community to participate in the evaluation process and formally share the results obtained, thus reducing rework. It is also concluded that the vocabulary contributes to the reuse of data in the context of the Web by facilitating the use of automatic and semi-automatic tools in the evaluation and selection of data sources for the application. O processo de avaliação de qualidade desempenha um papel importante na reutilização dos dados disponibilizados na Web. Para garantir o uso e reuso desses dados faz-se necessária à sua descrição formal, de maneira compreensível à agentes computacionais. Uma das possibilidades para viabilizar essa descrição é o Data Quality Vocabulary, elaborado pelo Word Wide Web Consortium.  Objetivou-se verificar o impacto do Data Quality Vocabulary no processo de descrição formal da qualidade de dados publicados na Web, analisando os objetivos, características e a estrutura do vocabulário. A pesquisa possuí um caráter exploratório e descritivo, adotando como método um estudo da documentação oficial publicada pelo consórcio. Como resultados obteve-se um panorama do cenário que levou ao desenvolvimento do vocabulário, foi apresentada sua estrutura e discutido o seu potencial de aplicação. Conclui-se que o Data Quality Vocabulary disponibiliza uma estrutura descritiva geral e customizável para o fornecimento de resultados do processo de avaliação de qualidade de dados, o que permite que esses resultados sejam compartilhados pelos seus fornecedores. Permite ainda que a comunidade participe do processo de avaliação e compartilhe os resultados obtidos de maneira formal, diminuindo assim o retrabalho. Conclui-se ainda que o vocabulário contribui para o reuso de dados no contexto da Web ao facilitar o uso de ferramentas automáticas e semiautomáticas no processo de avaliação e seleção de fontes de dados para a aplicaçã

    Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”

    Get PDF
    Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra

    The use of the Design Science Research method in Information Science: a systematic review of the literature

    Get PDF
    Introdução: O Design Science Research (DSR) é um método voltado para a geração de conhecimento científico, por meio da elaboração de artefatos, tendo o potencial de contribuir para o desenvolvimento de pesquisas realizadas no âmbito da Ciência da Informação. O presente estudo parte do questionamento: como tem sido aplicado o método DSR no desenvolvimento de pesquisas na Ciência da Informação? Objetiva-se identificar em quais linhas de pesquisa da Ciência da Informação tem sido aplicado, e de que forma, o DSR. Método: realizou-se uma Revisão Sistemática da Literatura, analisando nos artigos aceitos: a) temática da pesquisa; b) em quais linhas e temas na área da Ciência da Informação o artigo se encaixa; e c) nível de aderência da pesquisa ao método. Resultados: em relação à temática de pesquisa, destacaram-se pesquisas aplicadas, com o objetivo de geração de artefatos. Quanto as linhas de pesquisa, destacaram-se pesquisas voltadas para Gestão da Informação e do Conhecimento e ainda pesquisas voltadas para o desenvolvimento de Tecnologias de Informação e Comunicação. Em relação ao nível de aderência, observou-se que a maior defasagem está no processo de avaliação adequada dos artefatos gerados. Conclusão: O DSR pode contribuir para a Ciência da Informação, resultando no desenvolvimento de artefatos com maior rigor científico simultaneamente a solução de problemas aplicados. O método ainda é recém explorado na área, tornando necessário aprofundamento sobre a sua condução, avaliação das etapas, fluxos, instrumentos e metodologias complementares aplicadas na utilização do DSR, visando a criação de um modelo que embase a execução de pesquisas futuras.Introduction: Design Science Research (DSR) is a method for generating scientific knowledge, through the elaboration of artifacts, with the potential to contribute to the development of research carried out in the field of Information Science. The present study starts from the question: how has the DSR method been applied in Information Science research? The objective is to identify in which lines of research in Information Science has DSR been applied and in what way. Method: A Systematic Literature Review was carried out, analyzing in the accepted articles: a) research topic; b) in which lines and themes of the Information Science area the article fits; and c) degree of adherence of the research to the method. Results: In relation to the research topic, applied research stood out, with the aim of generating artifacts. As for the lines of research, research focused on Information and Knowledge Management and those focused on the development of Information and Communication Technologies stood out. Regarding the level of adhesion, it was observed that the biggest lag is in the process of adequate evaluation of the generated artifacts. Conclusion: DSR can contribute to Information Science, resulting in the development of artifacts with greater scientific rigor and, at the same time, in solving practical problems. The method is still little explored in the area, being necessary to go deeper in its conduction, evaluation of the steps, flows, instruments and complementary methodologies used in the conduction of the DSR, aiming at the creation of a model that supports the execution of future researches

    O Linked Data e os dados de autoridades das bibliotecas de universidades públicas do Estado de São Paulo.

    No full text
    O Linked Data foi desenvolvido visando atender ao contexto tecnológico vigente e pode ser aplicado potencialmente ao domínio bibliográfico. Objetivou-se verificar nos catálogos de autoridade das bibliotecas universitárias públicas do estado de São Paulo se existe uma adequação dos dados de autoridade para o cenário Linked Data. A coleta de dados baseou-se em uma metodologia de caráter qualiquantitativo, pautado na realização de uma Revisão Sistemática da Literatura e no estudo dos catálogos de autoridade das bibliotecas. Definiu-se as seguintes categorias de análise: enfoque dos documentos, requisitos necessários para a adequação de dados bibliográficos ao Linked Data, vantagens e desafios relacionados a essa adequação. Como resultados, identificou-se o RDF e o URI como requisitos necessários para prover a adequação de dados bibliográficos ao Linked Data. As principais vantagens identificadas foram a interoperabilidade de dados, melhores resultados de busca, maior visibilidade dos dados das bibliotecas no ambiente Web e promoção de descoberta acidental de recursos. Os principais desafios identificados foram a heterogeneidade dos dados disponibilizados na Web e a conversão dos dados descritos em formato MARC21. Concluiuse que os dados de autoridade das bibliotecas públicas paulistas não estão adequados ao movimento Linked Data, pois não atendem nem aos requisitos mais fundamentais propostos por esse movimento

    Dados bibliográficos para o linked data: uma revisão sistemática de literatura

    Get PDF
    Linked Data is a set of best practices designed to deal with data and information retrieval problems in the Web environment and can be applied to the bibliographic domain as a way to ensure that libraries share their data effectively. The objective is to analyze how the relationship between bibliographic data and Linked Data has been approached by Information Science professionals, based on the Systematic Review of Literature (RS). RS has as main contribution to allow the analysis of the documentary corpus and the state of the art about the bibliographic data and the Linked Data context. RS is a bibliographic review plus rigorous criteria that allow the results to be audited and the research to be continued from the point where it was interrupted. As a result, it was analyzed 56 articles in which it was observed that the main concerns in discussing the subject are: to submit projects for the adaptation of bibliographic data to Linked Data; discuss the process of converting bibliographic data to Linked Data; and conduct conceptual discussions about adequacy. It is concluded that, although the articles present many challenges, it is unanimous among the documents analyzed that adequacy would be advantageous for libraries.O Linked Data é um conjunto de melhores práticas criado para lidar com os problemas de recuperação de dados e de informações no ambiente Web e pode ser aplicado ao domínio bibliográfico, como forma de garantir que as bibliotecas compartilhem seus dados efetivamente. Objetiva-se analisar como a relação entre dados bibliográficos e o Linked Data tem sido abordada pelos profissionais da Ciência da Informação, a partir da realização da Revisão Sistemáticada Literatu-ra(RS). A RS tem como principal contribuição permitir a análise do corpus documental e o estado da arte acerca dos dados bibliográficos e o contexto Linked Data. Como resultado analisou-se 56 artigos nos quaisse observou que as principais preocupações ao discutir a temática são: apresentar projetos de adequação de dados bibliográficos ao Linked Data; discutir o processo de conversão de dados bibliográficos ao Linked Data; e realizar discussões conceituais sobre a adequação. Conclui-se que, embora os artigos apontem muitos desafios é uma unanimidade entre os documentos analisados que a adequação seria vantajosa para as bibliotecas

    A descrição formal da qualidade de dados publicados na Web: análise do Data Quality Vocabulary (DQV)

    No full text
    The quality assessment process plays an important role in the reuse of data made available on the Web. To ensure the use and reuse of these data, it is necessary to formally describe them in a way that computational agents can understand. One of the possibilities to make this description viable is the Data Quality Vocabulary, elaborated by the World Wide Web Consortium. The objective was to verify the impact of the Data Quality Vocabulary in the process of formal description of the quality of data published on the Web, analyzing the objectives, characteristics, and structure of the vocabulary. The research has an exploratory and descriptive character, adopting as a method a study of the official documentation published by the consortium. As a result, an overview of the scenario that led to the development of the vocabulary was obtained, its structure was presented and its potential application was discussed. It is concluded that the Data Quality Vocabulary provides a general and customizable descriptive structure for providing the results of the data quality assessment process, which allows these results to be shared by its providers. It also allows the community to participate in the evaluation process and formally share the results obtained, thus reducing rework. It is also concluded that the vocabulary contributes to the reuse of data in the context of the Web by facilitating the use of automatic and semi-automatic tools in the evaluation and selection of data sources for the application. O processo de avaliação de qualidade desempenha um papel importante na reutilização dos dados disponibilizados na Web. Para garantir o uso e reuso desses dados faz-se necessária à sua descrição formal, de maneira compreensível à agentes computacionais. Uma das possibilidades para viabilizar essa descrição é o Data Quality Vocabulary, elaborado pelo Word Wide Web Consortium.  Objetivou-se verificar o impacto do Data Quality Vocabulary no processo de descrição formal da qualidade de dados publicados na Web, analisando os objetivos, características e a estrutura do vocabulário. A pesquisa possuí um caráter exploratório e descritivo, adotando como método um estudo da documentação oficial publicada pelo consórcio. Como resultados obteve-se um panorama do cenário que levou ao desenvolvimento do vocabulário, foi apresentada sua estrutura e discutido o seu potencial de aplicação. Conclui-se que o Data Quality Vocabulary disponibiliza uma estrutura descritiva geral e customizável para o fornecimento de resultados do processo de avaliação de qualidade de dados, o que permite que esses resultados sejam compartilhados pelos seus fornecedores. Permite ainda que a comunidade participe do processo de avaliação e compartilhe os resultados obtidos de maneira formal, diminuindo assim o retrabalho. Conclui-se ainda que o vocabulário contribui para o reuso de dados no contexto da Web ao facilitar o uso de ferramentas automáticas e semiautomáticas no processo de avaliação e seleção de fontes de dados para a aplicaçã

    O impacto do modelo IFLA Library Reference Model na prática catalográfica: casos de uso, vantagens e desvantagens

    No full text
    The IFLA Library Reference Model (IFLA LRM) is a high-level conceptual model that arises from the need to consolidate the three models of the FR Family, the demands of the current technological context and compatibility with the best practices of Linked Data. The IFLA LRM treats bibliographic data in a broad sense, explaining the general principles that govern the logical structure of bibliographic information, as the basis for formulating cataloging rules and implementations of bibliographic systems. Thus, this research aims to identify the state of the art of the IFLA LRM model, based on the available scientific literature. As a research method, the Systematic Literature Review (RSL) was adopted in order to build the theoretical framework. For the analysis of the documents, the following categories were established: (I) focus of the documents; (ii) IFLA LRM concept; (iii) relationship between IFLA LRM and Linked Data; (iv) advantages and disadvantages of the model; (v) IFLA LRM use cases. As a result, the state of the art on the IFLA LRM model is presented, as well as the research trends and the impact of the model on cataloging practice, as presented in the identification of use cases. It is concluded that the IFLA LRM model presents itself as an object of investigation of capital importance, since it reflects the changes in Descriptive Cataloging and the new directions of the area in the digital context, in the adequacy, sharing and reuse of bibliographic data in the scenery of Semantic Web and Linked Data.O IFLA Library Reference Model, IFLA LRM, é um modelo conceitual de alto nível que surge da necessidade de consolidação dos três modelos da Família FR, das demandas do contexto tecnológico vigente e da compatibilidade com as melhores práticas do Linked Data. O IFLA LRM trata os dados bibliográficos em sentido amplo, explicitando os princípios gerais que governam a estrutura lógica da informação bibliográfica, atuando como base para formulação de regras de catalogação e implementações de sistemas bibliográficos. Dessa maneira, essa pesquisa tem como objetivo identificar o estado da arte do modelo IFLA LRM, partindo da realização de uma Revisão Sistemática da Literatura, identificando casos de uso, vantagens e desvantagens apontadas pela literatura científica. Foram estabelecidas as seguintes categorias de análise: (i) enfoque dos documentos; (ii) conceito de IFLA LRM; (iii) vantagens e desvantagens do modelo; (iv) casos de uso do IFLA LRM. Como resultado é apresentado o estado da arte sobre o modelo IFLA LRM, bem como as tendências de pesquisa e o impacto do modelo na prática catalográfica. Conclui-se, que o modelo IFLA LRM se apresenta como objeto de investigação de importância capital, uma vez que reflete as mudanças na Catalogação Descritiva, os novos rumos da área no contexto digital, na adequação, no compartilhamento e no reuso dos dados bibliográficos no cenário da Web Semântica e Linked Data

    NEOTROPICAL CARNIVORES: a data set on carnivore distribution in the Neotropics

    No full text
    Mammalian carnivores are considered a key group in maintaining ecological health and can indicate potential ecological integrity in landscapes where they occur. Carnivores also hold high conservation value and their habitat requirements can guide management and conservation plans. The order Carnivora has 84 species from 8 families in the Neotropical region: Canidae; Felidae; Mephitidae; Mustelidae; Otariidae; Phocidae; Procyonidae; and Ursidae. Herein, we include published and unpublished data on native terrestrial Neotropical carnivores (Canidae; Felidae; Mephitidae; Mustelidae; Procyonidae; and Ursidae). NEOTROPICAL CARNIVORES is a publicly available data set that includes 99,605 data entries from 35,511 unique georeferenced coordinates. Detection/non-detection and quantitative data were obtained from 1818 to 2018 by researchers, governmental agencies, non-governmental organizations, and private consultants. Data were collected using several methods including camera trapping, museum collections, roadkill, line transect, and opportunistic records. Literature (peer-reviewed and grey literature) from Portuguese, Spanish and English were incorporated in this compilation. Most of the data set consists of detection data entries (n = 79,343; 79.7%) but also includes non-detection data (n = 20,262; 20.3%). Of those, 43.3% also include count data (n = 43,151). The information available in NEOTROPICAL CARNIVORES will contribute to macroecological, ecological, and conservation questions in multiple spatio-temporal perspectives. As carnivores play key roles in trophic interactions, a better understanding of their distribution and habitat requirements are essential to establish conservation management plans and safeguard the future ecological health of Neotropical ecosystems. Our data paper, combined with other large-scale data sets, has great potential to clarify species distribution and related ecological processes within the Neotropics. There are no copyright restrictions and no restriction for using data from this data paper, as long as the data paper is cited as the source of the information used. We also request that users inform us of how they intend to use the data

    Reproducibility of fluorescent expression from engineered biological constructs in E. coli

    No full text
    We present results of the first large-scale interlaboratory study carried out in synthetic biology, as part of the 2014 and 2015 International Genetically Engineered Machine (iGEM) competitions. Participants at 88 institutions around the world measured fluorescence from three engineered constitutive constructs in E. coli. Few participants were able to measure absolute fluorescence, so data was analyzed in terms of ratios. Precision was strongly related to fluorescent strength, ranging from 1.54-fold standard deviation for the ratio between strong promoters to 5.75-fold for the ratio between the strongest and weakest promoter, and while host strain did not affect expression ratios, choice of instrument did. This result shows that high quantitative precision and reproducibility of results is possible, while at the same time indicating areas needing improved laboratory practices.Peer reviewe
    corecore