19 research outputs found

    Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvem computacional

    Get PDF
    Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.Os experimentos da biologia molecular são frequentemente apresentados sob a forma de workflows científicos. Um workflow científico é composto por um conjunto de atividades realizadas por diferentes entidades de processamento através de tarefas gerenciadas. O conhecimento sobre a trajetória dos dados ao longo de um determinado workflow permite a reprodutibilidade por meio da proveniência de dados. Para reproduzir um experimento de Bioinformática in silico, é preciso considerar outros aspectos, além das tarefas executadas em um workflow. De fato, as configurações computacionais nas quais os programas envolvidos são executados são um requisito para a reprodutibilidade. A tecnologia da computação em nuvem pode ocultar detalhes técnicos e facilitar ao usuário a configuração desse ambiente sob demanda. Os sistemas de banco de dados NoSQL também ganharam popularidade, particularmente na nuvem. Considerando este cenário, é proposta uma modelagem para a proveniência de dados de experimentos científicos, em ambiente de nuvem computacional, utilizando o PROV-DM e realizando o mapeamento para três diferentes tipos de famílias de sistemas de banco de dados NoSQL. Foram executados dois workflows de Bioinformática envolvendo diferentes fases, os quais foram utilizados para os testes nos bancos de dados NoSQL Cassandra, MongoDB e OrientDB, e em seguida é apresentada uma análise dessas execuções e testes. Os resultados obtidos mostraram que os tempos de armazenamento da proveniência são mínimos comparados aos tempos de execução dos workflows sem o uso da proveniência e, portanto, os modelos propostos para os bancos de dados NoSQL mostraram ser uma boa opção para armazenamento e gerenciamento de proveniência de dados biológicos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).Molecular biology experiments are often presented in the form of scientific workflows. There is a set of activities performed by different processing entities through managed tasks. Knowledge about the data trajectory throughout a given workflow enables reproducibility by data provenance. In order to reproduce an in silico bioinformatics experiment one must consider other aspects besides those steps followed by a workflow. Indeed, the computational settings in which the involved programs run is a requirement for reproducibility. Cloud computing technology may hide the technical details and make it easier for the user to set up such an on-demand environment. NoSQL database systems have also gained popularity, particularly in the cloud. Considering this scenario, a model for the provenance of data from scientific experiments in a computational cloud environment is proposed, using the PROV-DM and mapping to three different types of families of NoSQL database systems. Two Bioinformatics workflows involving different phases were performed, which were used for the tests in the NoSQL Cassandra, MongoDB and OrientDB databases, followed by an analysis of these executions and tests.The results obtained showed that the storage times of the provenance are minimal compared to the execution times of the workflows without the use of the provenance and therefore, the proposed models for the NoSQL databases proved to be a good option for storage and management of biological data

    Gerenciamento de proveniência de dados de workflows de bioinformática em ambiente de nuvens federadas

    Get PDF
    Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.Workflows de Bioinformática prioritariamente visam tratar, processar e analisar dados oriundos de sequenciamento de DNA/RNA. A diversidade desses workflows é dependente da questão biológica que se pretende responder, e por isso podem ser bastante com- plexos. O uso de nuvem federada em workflows de Bioinformática, ao mesmo tempo que oferece flexibilidade para o usuário, pode aumentar o trabalho de configuração do ambiente quando comparado a um ambiente de nuvem computacional. Independentemente da questão biológica, e considerando o ambiente computacional como parte do experimento in silico, a documentação do workflow tem particularidades a serem preservadas com vistas à sua reprodutibilidade. Os modelos de proveniência de dados proveem uma estrutura de armazenamento e recuperação dos dados de proveniência, mantendo seus significados. A maneira com a qual os dados de proveniência são armazenados é outra característica, cujos aspectos tecnológicos influenciam o resultado final. Neste contexto, este trabalho propõe uma solução que permita o gerenciamento de dados de proveniência de workflows de Bioinformática em um ambiente de nuvem federada, armazenando os dados de proveniência de forma distribuída em esquemas de dados baseados no PROV- DM, utilizando sistemas de banco de dados NoSQL. Nos resultados, foram explorados aspectos relacionados à federação de nuvens, o que proporcionou menos dependência de um único provedor para os serviços hospedados. Em relação às bases de dados, este trabalho traz três opções de tecnologias de banco de dados para armazenar a proveniência de dados usando o modelo de dados PROV-DM, incluindo o esquema de dados específico de cada banco de dados, que pode ser usado de acordo com a preferência do pesquisador ou integrado aos sistemas de gerenciamento de workflows. Por fim, a solução proposta demonstrou ser adequada para o gerenciamento dos dados de proveniência para workflows de Bioinformática em nuvem federada.Bioinformatics workflows essentially aim to treat, process, and analyze data from DNA or RNA sequencing. The diversity of these workflows is dependent on the biological question to be answered, which therefore can be quite complex. The computational environment is part of the in silico experiment, and regardless of biological questions, the workflow’s documentation has particularities to be preserved to promote its reproducibility. Data provenance models address this problem providing a storage and query structure of data provenance while maintaining their meanings. Moreover, technological aspects can influence how data provenance is stored. Using federated cloud in Bioinformatics workflows can provide both flexibility for the user and increase the environment configuring work compared to a cloud computing environment. In this context, this work proposes a solution to data provenance management for Bioinformatics workflows using NoSQL database systems in a federated cloud environment, storing data provenance in distributed databases using data schemas based on PROV-DM. The results report aspects related to cloud federation providing less dependence on a single provider for the hosted services. Concerning the databases, this work draws three options of database technolo- gies to store data provenance using the PROV-DM data model. Specific database data schemas are provided and can be used according to the researcher’s preference and can be integrated into workflow management systems. Finally, it is proposed a suitable solution for the data provenance management for Bioinformatics workflows in a federated cloud

    Um modelo de execução de fluxos de trabalho científico utilizando técnicas de planejamento automático

    Get PDF
    Resumo: Experimentos científicos produzem grande quantidade de informações que necessitam de processamento para uma posterior análise. Um cientista, que não é da área da computação, nem sempre possui as habilidades para desenvolver seu próprio ambiente de testes. Por isso a utilização de executores de fluxos de trabalhos científicos vêm sido largamente estudada. Uma das principais vantagens de se utilizar um processador de fluxo de trabalho científico é a transparência oferecida para o cientista em relação a maneira com que os experimentos serão organizados, distribuídos e processados. Este trabalho propõe um modelo para criação de um ambiente que seja capaz de processar esses fluxos de trabalho. A ênfase está em um escalonamento inteligente que utiliza técnicas para resolução de problemas de planejamento da área de inteligência artificial

    RFLOW: uma arquitetura para execução e coleta de proveniência de workflows estatísticos

    Get PDF
    Este trabalho apresenta a arquitetura Rflow, um conjunto de ferramentas integradas, como o intuito de gerenciar, compartilhar e reproduzir os experimentos científicos baseados em scripts R legados e, também, auxiliar a validar os resulstados estatísticos junto à comunidade científicaDissertação (Mestrado em Modelagem Matemática) - Universidade Federal Rural do Rio de Janeiro, Seropédica. Orientação de Sérgio Manuel Serra da Cruz. Coorientação de Marcos Baccis Cedia

    Execução de workflows científicos na plataforma BioNimbuZ

    Get PDF
    Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.A computação em nuvem surge com a proposta de virtualizar e provisionar recursos computacionais, tais como processamento e armazenamento, com cobrança pay-per-use e utilização sob demanda, proporcionando uma economia de recursos. Além disso, tem-se a federação de nuvens, que soluciona o desafio de fornecer uma grande quantidade de recursos, na qual uma única nuvem não seria capaz de oferecer, possibilitando realizar tarefas complexas, como execução de workflows científicos. Para isso, tem-se a plataforma de nuvens federadas híbridas BioNimbuZ, que é um sistema voltado para a execução de workflows científicos, utilizando os benefícios fornecidos pela federação de nuvens, mas que atualmente foi usada apenas para executar workflows de Bioinformática. Assim, este trabalho objetiva demonstrar que a plataforma BioNimbuZ possui estrutura para executar workflows científicos de várias áreas de pesquisa. Para isso, foram selecionados três workflows científicos, os quais são das áreas de Astronomia, Bioquímica, e Reconhecimento Facial. Verificou-se que a plataforma é capaz de implementar e realizar tarefas referentes a diferentes workflows científicos, atentando-se apenas para a instalação de bibliotecas necessárias na instância antes da execução das mesmas. Além disso, não é necessário realizar grandes adaptações ou mudança na regra de utilização da plataforma. Assim, a plataforma BioNimbuZ provou ser flexível e eficiente, podendo ser usado para a execução de workflows de diferentes áreas.Cloud computing have the proposal to virtualize and provision computing resources, such as processing and storage, with pay-per-use and on-demand methods, providing resource savings. In addition, it has the cloud federations, which solves the problem of providing a large amount of resources, which a cloud is not able to offer, making it possible to perform complex tasks such as the execution of scientific workflows. To execute it, there is the BioNimbuZ, a hybrid federated clouds platform, which is a system for the execution of scientific workflows, using the cloud federation windows, but which currently have only a Bioinformatics workflow. Thus, this work purposes that BioNimbuZ platform has the structure to execute scientific workflows of several areas of research. To do this, three scientific workflows, which are from the areas of Astronomy, Biochemistry and Facial Recognition. It was verified that the platform is able to execute and perform tasks referring to various scientific workflows, paying attention only to a library installation that are executed before the execution of the task. In addition, there is no need to make adaptations. Thus, the BioNimbuZ platform has proved to be flexible and efficient and can be used to execute workflows from different areas

    Investigando a Mobilidade Urbana Através de Dados Abertos Governamentais Enriquecidos com Proveniência

    Get PDF
    Atualmente, os principais desafios para a consolidação das cidades inteligentes em países emergentes ainda são a limitada oferta de dados abertos de qualidade e a disponibilidade de ferramentas que aprofundem a colaboração entre o governo e a sociedade civil. Este artigo tem como objetivo contribuir com a oferta de estudos relacionados aos desafios da mobilidade urbana em cidades inteligentes. Apresentamos uma arquitetura distribuída e seu protótipo intitulado BusInRio. Diferentemente dos trabalhos relacionados, nossa proposta utiliza exclusivamente dados abertos governamentais enriquecidos por proveniência do tipo retrospectiva. Este artigo também avalia quantitativamente a proposta através de experimentos de campo baseados na análise de dados de proveniência oriundos das interações de usuários reais. As primeiras análises e resultados indicam os graus de correção e aceitação da proposta

    Protcool: um gerador de protocolos para ancoragens e simulações de dinâmica molecular em complexos proteína-ligante

    Get PDF
    In recent years, a significant evolution in the simulations in molecular dynamics (DM) has been noticed either in the precision of results compared to the real world or in the capacity to represent complex biological systems with thousands or millions of atoms. Despite all the advances in theories, algorithms, and computational infrastructure that give support and confidence to the current simulations, a serious practical issue persists: the reproducibility of experiments. Other concerning aspects are the lack of more standardized protocols, the lack of comprehensive documentation of what has been accomplished. In order to try to contribute to the solution to these challenges, this thesis aimed to develop, configure, structure and verify a tool that seeks the automation of protocols and workflows (called ProtCool) that enables the control, analysis and reproduction of experiments in molecular dynamics of proteins and molecular docking with multiple ligands. To achieve this main objective, it was necessary to go through the following specific objectives: Model and implement the workflow for preparing the molecular dynamics simulation; Model and implement the workflow for performing multi-molecule dockings; Perform workflow management script implementation; Implement the data source tool, allowing the researcher to have all the files and data generated during the simulation preparation; Automate the preparation of molecular dynamics; Run only part of the workflow; Perform the reproducibility of experiments and research methodologies; Integrate all this into a tool called ProtCool; Check the tool with case studies involving docking of ligands with human acetylcholinesterase and major protease (Mpro) from SARS-Cov-2. Human acetylcholinesterase, implicated in diseases such as Alzheimer's disease, and the main protease (Mpro) of SARS-CoV-2, the virus responsible for the current pandemic of the disease COVID-19, were used as targets in case studies for validating and demonstrating the use of the tool. For acetylcholinesterase, the same 4 ligands (galantamine, lycoramine, sanguinine and a hybrid ligand) and target (4EY6) studied by Rocha (2017) were used as a way to validate the implementation of ProtCool, producing equivalent results. As a way of indicating the potential use of ProtCool in the virtual screening of ligands on a large scale, in a relevant and current problem, the molecular docking of multiple ligands (19637 from ZINC, 8752 form Drugbank, and 8520 from SistematX, totaling 36909 ligands) on multiple targets (6 different conformations sampled by Metadynamics) involving the Mpro of SARS-CoV-2 was carried out, resulting in the generation 4427839 poses (using Vina and Smina docking systems). It was possible to show a new in silico strategy to indicate new ligands as candidates for antivirals against COVID19.Nos últimos anos percebe-se uma grande evolução nas simulações em dinâmica molecular (DM), seja em precisão dos resultados quando comparado ao mundo real, seja na capacidade de representar sistemas biológicos complexos com milhares ou milhões de átomos. Apesar de todos os avanços nas teorias, algoritmos e infraestrutura computacional que dão suporte e confiança às simulações atuais, uma questão prática séria ainda persiste: a reprodutibilidade dos experimentos. Contribuem para isso tanto a falta de protocolos mais padronizados, bem como a falta de documentação abrangente do que foi realmente realizado. No sentido de tentar contribuir na solução a esses desafios, esta tese objetivou desenvolver, configurar, estruturar e verificar uma ferramenta que busca a automação de protocolos e workflows (chamada ProtCool) que possibilite o controle, a análise e a reprodução de experimentos em dinâmica molecular de proteínas e docking molecular com múltiplos ligantes. Para a realização desse objetivo principal, foi necessário percorrer pelos seguintes objetivos específicos: Modelar e implementar o workflow para preparação da simulação de dinâmica molecular; Modelar e implementar o workflow para realização de dockings com múltiplas moléculas; Realizar a implementação de script de gestão do workflow; Implementar a ferramenta de proveniência de dados, possibilitando que o pesquisador tenha todos os arquivos e dados gerados durante a preparação da simulação; Realizar a automatização de preparação de dinâmicas moleculares; Executar apenas parte do workflow; Realizar a reprodutibilidade de experimentos e de metodologias de pesquisa; Integrar tudo isso numa ferramenta chamada ProtCool; Verificar a ferramenta com estudos de casos envolvendo docking de ligantes com acetilcolinesterase humana e protease principal (Mpro) do SARS-Cov-2. Como estudo de casos para a validação e demonstração de uso da ferramenta, foram usados como alvos a acetilcolinesterase humana, implicada em doenças como mal Alzheimer, e a protease principal (Mpro) do SARS-CoV-2, o vírus responsável pela atual pandemia da COVID19. Para a acetilcolinesterase foram usados os mesmos 4 ligantes (galantamina, licoramina, sanguinina e um ligante híbrido) e alvo (4EY6) estudados por Rocha (2017) como forma de verificar a implementação do ProtCool, em que se produziu resultados equivalentes. Como forma de indicar o potencial uso do ProtCool na triagem virtual de ligantes em larga escala, num problema relevante e atual, foi realizado o docking molecular de múltiplos ligantes (19637 do ZINC, 8752 do Drugbank e 8520 do SistematX, totalizando 36909 ligantes) em múltiplos alvos (6 conformações diferentes amostradas por Metadinâmica) envolvendo a Mpro do SARS-CoV-2, tendo como resultado a geração de 4427839 poses (usando sistemas de docking Vina e Smina). Com isso, foi possível mostrar uma nova estratégia in silico de indicar ligantes inéditos como candidatos a antivirais contra COVID19

    Arquitectura para Processamento Integrado no Repositório de Dados e Metadados de Observação Terrestre

    Get PDF
    A observação remota tem-se mostrado como uma área de grande interesse e importância para vários domínios da sociedade, como por exemplo a agricultura, a meteorologia, o planeamento urbano ou a biologia. Esta surge como uma alternativa a métodos de pesquisa e monitorização tradicionais, que tendem a ser mais demorados e dispendiosos. Hoje em dia, programas de agências espaciais disponibilizam dados para que os mesmos possam ser usados nas mais diversas aplicações. Assim, a comunidade científica enfrenta um novo problema, que não se prende com a obtenção de dados de deteção remota, mas em conseguir fazer a gestão dos mesmos e executar computação sobre estes de forma eficiente. Para resolver a primeira parte do problema, um repositório de dados e metadados de Observação Terrestre começou a ser desenvolvido, numa dissertação anterior. Este repositório tem como finalidade responder aos seguintes problemas: heterogeneidade dos dados e metadados, extensibilidade dos metamodelos, expressividades das interrogações e incorporação de cadeias de processamento local. A segunda parte do problema, que se prende com a execução eficiente de computações sobre estes dados, não foi, no entanto, ainda tratada. A capacidade de realizar computação de forma eficiente é extremamente importante por vários motivos. Uma típica computação é na verdade uma sequência de tarefas que, devido ao volume de dados de detecção remota, podem implicar tempos de execução bastante longos, sendo muitas vezes necessário reexecutar estas pipelines pelo que ausência de mecanismos para agilizar e melhorar a eficiência destas computações pode resultar em períodos de desenvolvimento penosamente longos. Desta forma, neste trabalho pretende-se construir uma arquitetura para processamento integrado no repositório de dados e metadados de observação terrestre, que permita construir pipelines das típicas operações realizadas (como processamento ou classificação de imagem), que suporte vários tipos de utilizadores com diferentes necessidades de computação. De forma a assegurar a eficiência das computações é necessário que a infra-estrutura resultante seja capaz de fazer a gestão, de forma automática, do workload num ambiente distribuído, para além de, permitir a definição de dependências entre os vários produtos resultantes das computações. Este último elemento é um dos componentes diferenciadores neste trabalho, que tem como finalidades facilitar o desenvolvimento de produtos que trabalham com séries temporais e ainda servir de base para a tomada de decisões entre reprocessar um subproduto ou armazená-lo em disco.Remote Observation (RO) has emerged has high-interest research area with impacts in various societies domains, such as agriculture, meteorology, urban planning or biology. It has recently been used as a novel, cheaper and less time-consuming monitoring method when compared to traditional techniques. Nowadays, space agency programs provide the scientific community with remotely sensed data, which can be used in a variety of applications. Although getting access to remotely sensed data is a problem of the past, being able to effectively and efficiently manage and execute computations over that information is today’s problem. With that in mind, a repository of remote observation data and metadata started to be developed. This repository aims to solve the following problems: heterogeneity of data and metadata, extensibility of metamodels, expressiveness of interrogations and incorporation of local processing chains. At this moment, the second part of the problem - efficiently execution of computations on RO data - has not yet been tackled. When it comes to RO data processing, the ability to efficiently execute operations is a necessity. A typical computation in the RO environment is usually a sequence of operations, that due to the volume of data may take a significant amount of time to run. Furthermore, it is often required to reexecute some of these pipelines and the absence of mechanisms that improve the overall efficiency may result in painfully slow development times. In this work, we strive to develop an architecture for processing remote observa- tion data that is stored in the repository previously developed. This architecture allows building pipelines of the typical operations performed (such as image processing or clas- sification tasks), with support to various types of users, each with various necessities. To ensure the efficiency of the computations, the resulting infrastructure must be able to automatically manage the workload in a distributed environment, in addition to al- lowing the definition of dependencies between the various products resulting from the computations

    Gestão de dados científicos sob a ótica da ciência aberta : uma análise de planos de gestão de dados europeus

    Get PDF
    Monografia (graduação)—Universidade de Brasília, Faculdade de Ciência da Informação, Curso de Graduação em Biblioteconomia, 2019.A gestão de dados de pesquisa é uma temática que tem ganhado cada vez mais projeção na era do quarto paradigma da Ciência, caracterizado pelo grande uso de tecnologia da informação para o armazenamento, preservação e compartilhamento de dados científicos. Com base nisso, esta pesquisa teve como objetivo geral analisar planos de gestão de dados elaborados por pesquisadores europeus, buscando compreender como esses documentos são estruturados. Para isso, realizou-se uma revisão da literatura nacional e estrangeira referente à Comunicação Científica, Ciência Aberta, e-Science e dados de pesquisa nos seus mais diversos aspectos. Selecionaram-se cinco planos de gestão de dados de diferentes entidades financiadoras de pesquisas para análise e comparação, a partir da plataforma do DCC. A metodologia empregada foi qualitativa, descritiva e documental. Constatou-se que os planos de gestão de dados abordam aspectos relativos principalmente aos seguintes tópicos: coleta de dados, metadados, armazenamento, preservação, compartilhamento, ética e direitos de propriedade intelectual. Concluiu-se que a devida gestão de dados científicos proporciona benefícios como economia de tempo e recursos, transparência científica e reutilização de dados, cabendo aos profissionais da informação oferecer suporte aos pesquisadores nas práticas de gestão de dados, em âmbito institucional.Research data management is a theme that has increasingly gained prominence in the era of the fourth science paradigm, characterized by the great use of information technology for the storage, preservation and sharing of scientific data. Based on this, this research aimed to analyze data management plans prepared by European researchers, seeking to understand how these documents are structured. To this end, a review of the national and foreign literature on Scientific Communication, Open Science, e-Science and research data in its various aspects was performed. Five data management plans from different research funders were selected for analysis and comparison from the DCC platform. The methodology employed was qualitative, descriptive and documentary. It was found that data management plans address aspects relating mainly to the following topics: data collection, metadata, storage, preservation, sharing, ethics and intellectual property rights. Thus, it can be concluded that proper management of scientific data provides benefits such as time and resource saving, scientific transparency and data reuse

    Repositórios digitais: teoria e prática

    Get PDF
    Considering the relevance of gather, storage, dissemination and preservation of digital data and information in the context of open access scientific production, “Digital repositories: theory and practice”, as a product derived from the 1st National Forum of Digital Repositories, that happened in the year of 2016, in Natal, Rio Grande do Norte, Brazil, presents discussions that point to theoretical and practical trends in the research and implementation of digital repositories in the Ibero-American scenario. The chapters, signed by researchers and professionals who are dedicating their work to Open Access, reflect on the tools and technologies for information management, metadata, digital curation, policies and methodologies for the implementation of digital repositories, bringing significant contribution to the advances of studies and practices in digital repositories in the scientific, technological and social spheres.Considerando a relevância da reunião, do armazenamento, da disseminação e da preservação de dados e de informações digitais no contexto da produção científica de acesso aberto, Repositórios digitais: teoria e prática, enquanto produto derivado do I Fórum Nacional de Repositórios Digitais, realizado no ano de 2016, em Natal, Rio Grande do Norte, Brasil, apresenta discussões que apontam para as tendências teóricas e práticas na pesquisa e na implementação de repositórios digitais no cenário iberoamericano. Os capítulos, assinados por pesquisadores e profissionais que vêm dedicando seu trabalho ao Acesso Aberto, perpassam reflexões em relação às ferramentas e às tecnologias para gestão da informação, aos metadados, à curadoria digital, às políticas e às metodologias para implementação de repositórios digitais, trazendo contribuição significativa para os avanços dos estudos e práticas em repositórios digitais nos âmbitos científico, tecnológico e social
    corecore