5 research outputs found

    Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvens federadas

    Get PDF
    Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.Workflows de Bioinformática prioritariamente visam tratar, processar e analisar dados oriundos de sequenciamento de DNA/RNA. A diversidade desses workflows é dependente da questão biológica que se pretende responder, e por isso podem ser bastante com- plexos. O uso de nuvem federada em workflows de Bioinformática, ao mesmo tempo que oferece flexibilidade para o usuário, pode aumentar o trabalho de configuração do ambiente quando comparado a um ambiente de nuvem computacional. Independentemente da questão biológica, e considerando o ambiente computacional como parte do experimento in silico, a documentação do workflow tem particularidades a serem preservadas com vistas à sua reprodutibilidade. Os modelos de proveniência de dados proveem uma estrutura de armazenamento e recuperação dos dados de proveniência, mantendo seus significados. A maneira com a qual os dados de proveniência são armazenados é outra característica, cujos aspectos tecnológicos influenciam o resultado final. Neste contexto, este trabalho propõe uma solução que permita o gerenciamento de dados de proveniência de workflows de Bioinformática em um ambiente de nuvem federada, armazenando os dados de proveniência de forma distribuída em esquemas de dados baseados no PROV- DM, utilizando sistemas de banco de dados NoSQL. Nos resultados, foram explorados aspectos relacionados à federação de nuvens, o que proporcionou menos dependência de um único provedor para os serviços hospedados. Em relação às bases de dados, este trabalho traz três opções de tecnologias de banco de dados para armazenar a proveniência de dados usando o modelo de dados PROV-DM, incluindo o esquema de dados específico de cada banco de dados, que pode ser usado de acordo com a preferência do pesquisador ou integrado aos sistemas de gerenciamento de workflows. Por fim, a solução proposta demonstrou ser adequada para o gerenciamento dos dados de proveniência para workflows de Bioinformática em nuvem federada.Bioinformatics workflows essentially aim to treat, process, and analyze data from DNA or RNA sequencing. The diversity of these workflows is dependent on the biological question to be answered, which therefore can be quite complex. The computational environment is part of the in silico experiment, and regardless of biological questions, the workflow’s documentation has particularities to be preserved to promote its reproducibility. Data provenance models address this problem providing a storage and query structure of data provenance while maintaining their meanings. Moreover, technological aspects can influence how data provenance is stored. Using federated cloud in Bioinformatics workflows can provide both flexibility for the user and increase the environment configuring work compared to a cloud computing environment. In this context, this work proposes a solution to data provenance management for Bioinformatics workflows using NoSQL database systems in a federated cloud environment, storing data provenance in distributed databases using data schemas based on PROV-DM. The results report aspects related to cloud federation providing less dependence on a single provider for the hosted services. Concerning the databases, this work draws three options of database technolo- gies to store data provenance using the PROV-DM data model. Specific database data schemas are provided and can be used according to the researcher’s preference and can be integrated into workflow management systems. Finally, it is proposed a suitable solution for the data provenance management for Bioinformatics workflows in a federated cloud

    UnBGOLDProv : arquitetura de proveniência de dados para um workflow de publicação de dados abertos governamentais

    Get PDF
    Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.O governo brasileiro aderiu à política de publicação de dados abertos governamentais que possibilita uma administração mais transparente e aberta, permitindo maior participação da sociedade, fortalecimento da democracia e combate à corrupção. No entanto, a forma como os dados abertos são publicados levanta questões como a origem e a autoria dos dados. A realização da proveniência sobre esse dados disponibiliza informações de como, quando e por que os dados foram criados e publicados. Diante desse cenário, considerou-se que a combinação de dados e sua proveniência enriquecem a rastreabilidade dos dados, expondo os métodos e os agentes envolvidos em sua criação, além de promover a possibili- dade de reprodutibilidade desses dados. Este trabalho apresenta uma solução tecnológica de proveniência de dados para aprimorar a publicação de dados públicos abertos governa- mentais, empregando uma arquitetura de informações que pode fornecer a proveniência de dados abertos governamentais públicos, usando o PROV-DM e um banco de dados de grafos. É apresentado como estudo de caso, a implementação de uma arquitetura de infor- mações proposta para coleta, gerenciamento, armazenamento e publicação da proveniência do workflow de publicação de dados abertos governamentais conectados. Essa publicação da proveniência, coletada da execução da publicação de um conjunto de dados coletados dos sistemas de informação da UnB, é realizada na plataforma CKAN em conjunto com os dados conectados publicados na plataforma.The Brazilian Government has adhered to the Linked Open Government Data publica- tion policy that allows for a more transparent and open administration, allowing greater participation of society, strengthening democracy and fighting corruption. However, the way open data is published raises questions such as the origin and authorship of the data. Making the provenance of this data provides information on how, when, and why the data was created and published. Given this scenario, we consider that the combination of data and its origin enriches the traceability of the data, exposing the methods and agents involved in its creation, and promoting the possibility of reproducibility of this data. This paper presents a data provenance technology solution to enhance public open gov- ernment data publishing by employing an information architecture that can provide the provenance of open government public data using PROV-DM and a graph database. The implementation of a proposed information architecture for collecting, managing, storing and publication of the provenance of the textit workflow for publication of linked open government data is presented as a case study. This provenance publication, collected from the execution of the publication of a set of data collected from UnB’s information systems, is carried out on the CKAN platform together with the linked data published on the platform

    Cloud.Jus : arquitetura de nuvem comunitária para provisionamento de infraestrutura como serviço no Poder Judiciário da União

    Get PDF
    Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.A composição de uma nuvem comunitária por meio da federação de nuvens privadas é uma das alternativas para hospedar aplicações que exigem uma implantação distribuída, atendendo requisitos como confiabilidade, alta disponibilidade, economia em escala e conformidade aos níveis de serviço exigidos. Entretanto, apesar dos benefícios em potencial, ainda se observa uma baixa adesão ao modelo de nuvem no setor governamental brasileiro, possivelmente decorrente da falta de padronização para realizar a integração de sistemas, a interoperabilidade e a portabilidade para utilização de múltiplas infraestruturas. Atualmente não há uma abordagem transparente para migrar do modelo de infraestrutura tradicional para o modelo de nuvem. Nesse cenário, este trabalho propõe uma arquitetura capaz de integrar recursos computacionais existentes em órgãos públicos em uma plataforma de nuvem comunitária, capaz de abstrair a complexidade da infraestrutura subjacente, de modo que os órgãos possam encontrar uma forma de hospedagem em nuvem que ofereça mais rapidamente seus benefícios potenciais. É apresentada uma solução de baixo custo para iniciar a transição ao modelo de nuvem nas organizações, por meio de uma arquitetura que conta com um middleware de baixo acoplamento para interagir com diferentes hipervisores, o qual realiza a federação entre os provedores associados para composição da nuvem comunitária, e também com uma interface de gerenciamento para os potenciais usuários finais (desenvolvedores de software e administradores de infraestrutura), que oferecem a funcionalidade de provisionamento de recursos computacionais distribuídos entre os datacenters de maneira automatizada. Para demonstrar a viabilidade da proposta, utilizou-se dois tipos de sistemas de virtualização corporativos, sendo executados em três datacenters de órgãos do Poder Judiciário da União (PJU).Building community clouds by federating private clouds is one of the lower-cost alternatives for hosting applications that require distributed deployment to meet scale- saving, high availability, reliability, and service level compliance. However, despite their potential benefits, there are many open issues related to a lack of standardization, system integration, interoperability and portability across multiple infrastructures, that contribute to the low adherence by organizations, particularly in the government sector, because they still struggle to adapt their legacy applications to a native cloud architecture in complex environments. Considering that currently there is no transparent approach to migrate from the traditional infrastructure model to a cloud computing model in some governmental agencies, this work proposes an architecture to integrate computational resources for building a community cloud platform that can abstract the complexity of underlying infrastructure. For this, we chose to develop a loosely coupled middleware to interface with different hypervisors, a GUI, and a CLI, that compose a cost-effective solution to start the transition to the cloud model in organizations. We evaluate the architecture on a set of infrastructures in the Courts of the Brazilian Judiciary to show our approach feasibility

    Graafitietokantojen sovelluksia: systemaattinen kirjallisuuskatsaus

    Get PDF
    Tässä työssä kartoitetaan akateemisessa tutkimuksessa esiintyviä graafitietokantoja, niiden sovellusaloja sekä niihin liitettyjä hyötyjä ja haittoja. Tutkimusmenetelmänä on systemaattinen kirjallisuuskatsaus, jossa tunnistettiin 111 kriteerit täyttävää artikkelia vuosilta 2017–2021. Artikkeleja analysoitiin sisällönanalyysin keinoin. Graafitietokantojen sovellusaloja tunnistettiin 25. Sovellusaloilla tieto on tyypillisesti mallinnettavissa kompleksisina verkkoina. Yleisimpiä aloja olivat bioinformatiikka, sosiaaliset verkostot, tietoverkot ja geografinen tieto. Yksittäisistä graafitietokannoista ylivoimaisesti käytetyin oli Neo4j: se oli käytössä valtaosassa artikkelien sovelluksista. Muut graafitietokannat olivat edustettuna vähäisessä määrin aineistossa. Graafitietokantojen käytölle tunnistettiin kymmenen hyötyä. Yleisimmin mainitut hyödyt olivat graafikyselyiden ja algoritmien hyödyntäminen sekä graafitietokantojen soveltuvuus verkottuneelle datalle. Näiden jälkeen yleisimpinä hyötyinä tulivat selitysvoima erilaisissa analyyseissa, suorituskyky, visualisointiominaisuudet, tietokantakaavion joustavuus ja graafitietomallin ymmärrettävyys. Eri haittoja puolestaan tunnistettiin yhdeksän: haittoja mainittiin kuitenkin ylipäänsä huomattavasti hyötyjä harvemmin. Yleisimmin mainitut haitat olivat suorituskyky ja graafitietokantojen opettelu: molemmat oli mainittu kohtalaisen usein myös hyötynä. Tätä voi selittää sillä, että graafitietokantojen suorituskyvyssä on eroja eri sovellusten välillä: graafitietokantojen ja -kyselykielten koettu vaikeustaso taas riippuu tutkijoiden näkemyksistä. Lisäksi harvemmin mainittuja haittoja olivat muun muassa graafitietokantojen soveltumattomuus tietynlaiselle datalle ja alempi kypsyysaste verrattuna relaatiotietokantoihin
    corecore