12 research outputs found

    Four level provenance support to achieve portable reproducibility of scientific workflows

    Provenance and digital context: contributions from information science

    O objetivo deste artigo é discutir o conceito da proveniência e evidenciar sua importância no ambiente digital, focado na perspectiva da Ciência da Informação. Como procedimentos metodológicos, caracterizou-se por ser uma pesquisa qualitativa e exploratória, a partir de uma revisão de literatura sobre o contexto da proveniência em diferentes domínios. O artigo apresenta uma discussão do termo proveniência em diversos contextos, como na Arquivologia, Museologia, Preservação digital e Computação e destaca sua importância no âmbito digital. Conforme discutida a relevância da proveniência em diferentes contextos, destaca-se a necessidade de estudos mais aprofundados, se os instrumentos para representar a proveniência são adequados para garantir a veracidade e a inalterabilidade das informações. Dessa forma, as discussões expostas neste artigo revelam possibilidades em identificar metadados para cada característica que a proveniência possa apresentar, além da viabilidade de ampliação para outros contextos.The objective of this article is to discuss the concept of provenance and highlight its importance in the digital environment, focusing on the perspective of Information Science. As methodological procedures, it was characterized by being a qualitative and exploratory research, from a literature review on the context of provenance in different domains. The article presents a discussion of the term provenance in several contexts, such as in Achival Science, Museology, Digital Preservation and Computing, highlighting its importance in the digital sphere. As discussed the relevance of provenance in different contexts, the need for more in-depth studies is highlighted, analyzing whether the instruments to represent provenance are adequate to guarantee the veracity and inalterability of the information. Thus, the discussions exposed in this article reveal possibilities in identifying metadata for each characteristic that the provenance may present, in addition to the feasibility of expansion to other contexts.

    Behavioral analysis of scientific workflows with semantic information

    The recent development in scientific computing related areas has shown an increasing interest in scientific workflows because of their abilities to solve complex challenges. Problems and challenges that were too heavy or time-consuming can be solved now in a more efficient manner. Scientific workflows have been progressively improved by means of the introduction of new paradigms and technologies, being the semantic area one of the most promising ones. This paper focuses on the addition of semantic Web techniques to the scientific workflow area, which facilitates the integration of network-based solutions. On the other hand, a model checking technique to study the workflow behavior prior to its execution is also described. Using the Unary RDF annotated Petri net formalism (U-RDF-PN), scientific workflows can be improved by adding semantic annotations related to the task descriptions and workflow evolution. This technique can be applied using a complete environment for the model checking of this kind of workflows that is also depicted in this work. Finally, the proposed methodology is exemplified by its application to a couple of known scientific workflows: the First Provenance Challenge and the InterScan protein analysis workflow

    Workflow Provenance: from Modeling to Reporting

    Workflow provenance is a crucial part of a workflow system as it enables data lineage analysis, error tracking, workflow monitoring, usage pattern discovery, and so on. Integrating provenance into a workflow system or modifying a workflow system to capture or analyze different provenance information is burdensome, requiring extensive development because provenance mechanisms rely heavily on the modelling, architecture, and design of the workflow system. Various tools and technologies exist for logging events in a software system. Unfortunately, logging tools and technologies are not designed for capturing and analyzing provenance information. Workflow provenance is not only about logging, but also about retrieving workflow related information from logs. In this work, we propose a taxonomy of provenance questions and guided by these questions, we created a workflow programming model 'ProvMod' with a supporting run-time library to provide automated provenance and log analysis for any workflow system. The design and provenance mechanism of ProvMod is based on recommendations from prominent research and is easy to integrate into any workflow system. ProvMod offers Neo4j graph database support to manage semi-structured heterogeneous JSON logs. The log structure is adaptable to any NoSQL technology. For each provenance question in our taxonomy, ProvMod provides the answer with data visualization using Neo4j and the ELK Stack. Besides analyzing performance from various angles, we demonstrate the ease of integration by integrating ProvMod with Apache Taverna and evaluate ProvMod usability by engaging users. Finally, we present two Software Engineering research cases (clone detection and architecture extraction) where our proposed model ProvMod and provenance questions taxonomy can be applied to discover meaningful insights

    Investigando a Mobilidade Urbana Através de Dados Abertos Governamentais Enriquecidos com Proveniência

    Atualmente, os principais desafios para a consolidação das cidades inteligentes em países emergentes ainda são a limitada oferta de dados abertos de qualidade e a disponibilidade de ferramentas que aprofundem a colaboração entre o governo e a sociedade civil. Este artigo tem como objetivo contribuir com a oferta de estudos relacionados aos desafios da mobilidade urbana em cidades inteligentes. Apresentamos uma arquitetura distribuída e seu protótipo intitulado BusInRio. Diferentemente dos trabalhos relacionados, nossa proposta utiliza exclusivamente dados abertos governamentais enriquecidos por proveniência do tipo retrospectiva. Este artigo também avalia quantitativamente a proposta através de experimentos de campo baseados na análise de dados de proveniência oriundos das interações de usuários reais. As primeiras análises e resultados indicam os graus de correção e aceitação da proposta

    UnBGOLDProv : arquitetura de proveniência de dados para um workflow de publicação de dados abertos governamentais

    Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.O governo brasileiro aderiu à política de publicação de dados abertos governamentais que possibilita uma administração mais transparente e aberta, permitindo maior participação da sociedade, fortalecimento da democracia e combate à corrupção. No entanto, a forma como os dados abertos são publicados levanta questões como a origem e a autoria dos dados. A realização da proveniência sobre esse dados disponibiliza informações de como, quando e por que os dados foram criados e publicados. Diante desse cenário, considerou-se que a combinação de dados e sua proveniência enriquecem a rastreabilidade dos dados, expondo os métodos e os agentes envolvidos em sua criação, além de promover a possibili- dade de reprodutibilidade desses dados. Este trabalho apresenta uma solução tecnológica de proveniência de dados para aprimorar a publicação de dados públicos abertos governa- mentais, empregando uma arquitetura de informações que pode fornecer a proveniência de dados abertos governamentais públicos, usando o PROV-DM e um banco de dados de grafos. É apresentado como estudo de caso, a implementação de uma arquitetura de infor- mações proposta para coleta, gerenciamento, armazenamento e publicação da proveniência do workflow de publicação de dados abertos governamentais conectados. Essa publicação da proveniência, coletada da execução da publicação de um conjunto de dados coletados dos sistemas de informação da UnB, é realizada na plataforma CKAN em conjunto com os dados conectados publicados na plataforma.The Brazilian Government has adhered to the Linked Open Government Data publica- tion policy that allows for a more transparent and open administration, allowing greater participation of society, strengthening democracy and fighting corruption. However, the way open data is published raises questions such as the origin and authorship of the data. Making the provenance of this data provides information on how, when, and why the data was created and published. Given this scenario, we consider that the combination of data and its origin enriches the traceability of the data, exposing the methods and agents involved in its creation, and promoting the possibility of reproducibility of this data. This paper presents a data provenance technology solution to enhance public open gov- ernment data publishing by employing an information architecture that can provide the provenance of open government public data using PROV-DM and a graph database. The implementation of a proposed information architecture for collecting, managing, storing and publication of the provenance of the textit workflow for publication of linked open government data is presented as a case study. This provenance publication, collected from the execution of the publication of a set of data collected from UnB’s information systems, is carried out on the CKAN platform together with the linked data published on the platform

    Captura de proveniência assíncrona em simulações computacionais

    Large-scale computational simulations are computational experiments increasingly more processing intensive. Users and developers of this type of simulation generally analyze data during simulation execution. This is not a trivial task since largescale simulations are often performed in high-performance processing environments and can produce a large volume of data. Existing solutions, as DfAnalyzer, use provenance data to assist analysis with success. However, these systems use synchronous approaches to gather data that makes difficult to set up it and, mainly, interferes in the performance of the computational simulation. This dissertation proposes an approach to asynchronously collect provenance data making it available for analysis during the execution of the simulation with the least possible delay. In order to evaluate the proposed strategies, a tool, Asynchronous Dataflow Analyzer. This implementation extends DfAnalyzer to use the proposed asynchronous approach and to simplify the configuration process by making the prospective provenance definition process more flexible. The experimental results, with a soils sedimentation simulation, show that the tool is able to meet the needs of users of large-scale computational simulations with lower overloads than similar tools.Simulações computacionais em larga escala são experimentos computacionais cada vez com mais processamento de dados. Usuários e desenvolvedores deste tipo de simulação geralmente realizam análises sobre dados científicos durante a execução da simulação. Esta não é uma tarefa trivial, já que as simulações em larga escala costumam ser executadas em ambientes de processamento de alto desempenho e produzir grande volume de dados. Soluções existentes, como o DfAnalyzer, fazem uso de dados de proveniência para auxiliar esta análise com muito sucesso. No entanto, esses sistemas possuem abordagens síncronas de coleta de dados, o que dificulta a sua instalação e, principalmente, interfere no desempenho da simulação computacional. Esta dissertação propõe uma abordagem assíncrona de coleta de dados de proveniência com o objetivo de disponibilizar dados científicos para consulta durante a execução da simulação sem muito impacto no seu tempo de execução. Para validar as estratégias propostas, foi desenvolvida a ferramenta Asynchronous Dataflow Analyzer. A implementação realizada estende o DfAnalyzer para adotar o assincronismo proposto e simplifica a configuração do sistema por meio da flexibilização da gerência da proveniência prospectiva. Os resultados experimentais, com uma simulação de processos de sedimentação de solos, mostram que a ferramenta é capaz de atender as necessidades de análises de dados dos usuários de simulações computacionais com sobrecargas inferiores a ferramentas existentes

    Verteilte Nutzungskontrolle und Provenance Tracking am Beispiel von Cloud-Technologien

    In den letzten Jahrzehnten haben sich Daten zu einem der wertvollsten Rohstoffe entwickelt. Im Zuge dessen werden Forderungen nach einem transparenten und kontrollierbaren Umgang mit Daten immer lauter. Nutzungskontrolle und Provenance Tracking sind Konzepte, mit denen diese Forderungen umgesetzt werden können. Nutzungskontrolle ergänzt hierzu die Zugriffskontrolle um den Umstand, dass die Nutzung von Daten – auch nachdem sie verbreitet wurden – kontrolliert werden kann. Provenance Tracking dient hingegen zur Bestimmung der Herkunft eines Datums. Das für Nutzungskontrolle und Provenance Tracking notwendige Fundament – die Infrastruktur - könnte hierbei durch Cloud-Technologien, wie Kubernetes, bereitgestellt werden. Dahingehend bietet diese Arbeit einen Überblick über den aktuellen Forschungsstand zu Nutzungskontrolle und Provenance Tracking. Dies umfasst insbesondere mögliche Bezüge zum Themengebiet Cloud Computing und aktuelle Forschungsprojekte, wie International Data Spaces (IDS) und deren Referenzarchitektur. Des Weiteren wird ein grundlegendes Verständnis für den Begriff Cloud geschaffen. Im Besonderen wird auf die Aspekte Sicherheit und Recht im Kontext von Cloud Computing eingegangen. Schlussendlich werden die dadurch gewonnen Erkenntnisse zur Ausbringung einer prototypischen Nutzungskontroll- sowie Provenance sammelnden Infrastruktur genutzt. Die Cloud-Technologie Kubernetes sowie hierfür entwickelte Dummy-Komponenten der Referenzarchitektur bilden das Fundament dieser Infrastruktur. Die Modellierung und Implementierung ist daraufhin Gegenstand einer Evaluation und Diskussion mit Fokus auf operativen und sicherheitsrelevanten Aspekten