7 research outputs found

    bdbms -- A Database Management System for Biological Data

    Full text link
    Biologists are increasingly using databases for storing and managing their data. Biological databases typically consist of a mixture of raw data, metadata, sequences, annotations, and related data obtained from various sources. Current database technology lacks several functionalities that are needed by biological databases. In this paper, we introduce bdbms, an extensible prototype database management system for supporting biological data. bdbms extends the functionalities of current DBMSs to include: (1) Annotation and provenance management including storage, indexing, manipulation, and querying of annotation and provenance as first class objects in bdbms, (2) Local dependency tracking to track the dependencies and derivations among data items, (3) Update authorization to support data curation via content-based authorization, in contrast to identity-based authorization, and (4) New access methods and their supporting operators that support pattern matching on various types of compressed biological data types. This paper presents the design of bdbms along with the techniques proposed to support these functionalities including an extension to SQL. We also outline some open issues in building bdbms.Comment: This article is published under a Creative Commons License Agreement (http://creativecommons.org/licenses/by/2.5/.) You may copy, distribute, display, and perform the work, make derivative works and make commercial use of the work, but, you must attribute the work to the author and CIDR 2007. 3rd Biennial Conference on Innovative Data Systems Research (CIDR) January 710, 2007, Asilomar, California, US

    Believe It or Not: Adding Belief Annotations to Databases

    Full text link
    We propose a database model that allows users to annotate data with belief statements. Our motivation comes from scientific database applications where a community of users is working together to assemble, revise, and curate a shared data repository. As the community accumulates knowledge and the database content evolves over time, it may contain conflicting information and members can disagree on the information it should store. For example, Alice may believe that a tuple should be in the database, whereas Bob disagrees. He may also insert the reason why he thinks Alice believes the tuple should be in the database, and explain what he thinks the correct tuple should be instead. We propose a formal model for Belief Databases that interprets users' annotations as belief statements. These annotations can refer both to the base data and to other annotations. We give a formal semantics based on a fragment of multi-agent epistemic logic and define a query language over belief databases. We then prove a key technical result, stating that every belief database can be encoded as a canonical Kripke structure. We use this structure to describe a relational representation of belief databases, and give an algorithm for translating queries over the belief database into standard relational queries. Finally, we report early experimental results with our prototype implementation on synthetic data.Comment: 17 pages, 10 figure

    Enhancing scientific information systems with semantic annotations

    Full text link

    LAPOGE Database - estrutura relacional de banco de dados biológicos para armazenamento e sistematização de informações genéticas e epidemiológicas

    Get PDF
    TCC(graduação) - Universidade Federal de Santa Catarina. Centro de Ciências Biológicas. Biologia.O Laboratório de Polimorfimos Genéticos – LAPOGE da UFSC foi implantado há 22 anos e é base para a formação de alunos de graduação e pós-graduação, além de estágios e vivências. O impressionante volume de dados gerados neste tempo fez crescer a necessidade de um sistema de organização dos dados coletados para todos os participantes das diversas pesquisas executadas neste tempo. Neste sentido, este trabalho propõe a implementação de um banco de dados relacional adequado ao LAPOGE, além do levantamento dos trabalhos realizados e questionários utilizados para levantamento de informações do participante doador da amostra. Durante o levantamento de dados, foi possível encontrar um total de 49 produções. Dentre estas, 34 trabalhos de conclusão de curso de graduação, 12 dissertações de mestrado e 3 teses de doutorado, que utilizaram um total de 158 marcadores. Além disso, notou-se uma grande quantidade de questionários diferentes gerados ao longo dos trabalhos; para garantir uma maior precisão na coleta de dados e diminuir a margem de erro, foram levantadas todas as perguntas comuns utilizadas durante a coleta dos dados biológicos e criado um novo questionário unificado e padronizado. O LAPOGEDb (LAPOGE Database) foi tabulado para armazenar dados em MySQL com interface PHP. Os dados são criptografados e o acesso é restrito a usuários com cadastro autorizado. Está depositado no servidor da Universidade Federal de Santa Catarina que executa três cópias diárias de segurança (backup). A estrutura relacional foi organizada em dez abas e a interface final é do tipo “amigável” onde não é exigido ao usuário nenhum conhecimento de programação. Foram implementadas as abas de Dados Pessoais, Dados Familiais, Dados Biológicos, Dados Epidemiológicos, Dados médicos, Marcadores genéticos, Amostra biológica e as abas específicas de Artrite, Psoríase, Lúpus e Câncer de Mama. O sistema de cadastro permite o acesso às informações, mas mantém sigilosas aquelas previstas pelo Comitê de Ética. A página de busca (que será implementada) permitirá coletar informações combinadas de todas as categorias e emitirá output em formato de uso para programas de análises. Dado o volume de informações, o LAPOGEDb inicia uma nova forma de organização e consulta de dados produzidos pelo LAPOGE UFSC

    Elaboração de um painel de marcadores de ancestralidade para estudos caso-controle e organização das informações em banco de dados local

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências Biológicas, Programa de Pós-Graduação em Biologia Celular e do Desenvolvimento, Florianópolis, 2013.A população brasileira é produto da miscigenação entre trêsprincipais grupos étnicos: Ameríndios (que já habitavam estas terras àépoca do descobrimento), Europeus (principalmente portugueses) eAfricanos (trazidos de forma forçada como mão de obra escrava).Estimar as diferentes proporções de ancestralidade em populaçõesmiscigenadas é de extrema importância para estudos genéticos quebuscam encontrar alelos de sucetibilidade a doenças, uma vez que a nãocorreção da estratificação populacional pode ocasionar desvios levandoa associações espúrias. Para o controle da estratificação populacional, autilização de marcadores informativos de ancestralidade tem sidoamplamente utilizada por apresentar um alto diferencial de frequênciaentre populações de regiões geograficamente distintas. O objetivo desteestudo foi genotipar quatro marcadores informativos de ancestralidadeadequados para amostras da população brasileira visando estender estaabordagem para entender a estruturação populacional em estudos decaso-controle, utilizando como modelo a doença psoríase. Adicional aoprincipal objetivo, um banco de dados biológico (BDB) foi diagramadoe implementado, para auxiliar na organização e armazenamento deinformações a respeito das amostras aqui utilizadas. As frequências dosquatro marcadores (AT3, Sb19.3, APO e PV92) foram estimadas emamostras de pacientes (PSR) diagnosticados com psoríase (n=100) econtroles saudáveis (PSC) sem histórico de doença (n=100, PSC)coletadas na cidade de Florianópolis - SC. Os perfis genéticos foramobtidos através de PCR convencional e eletroforese em gel de agarose.As análises estatísticas empregaram programas tais como GENEPOP,GDA e ADMIX 3. O BDB proposto foi desenvolvido e estruturado emsistema de gestão de bases de dados relacionais MySQL, e a interfacegráfica foi desenvolvida em linguagem PHP e HTML. Por meio deanálises moleculares e estatísticas, os resultados obtidos evidenciaramque os dois grupos de indivíduos aqui estudados (PSR e PSC)apresentaram semelhanças quanto a sua ancestralidade genética, nãosendo observado grandes diferenças populacionais. As estimativas demistura revelaram que as duas populações analisadas são tri-híbridas,com alta preponderância do componente europeu, seguido de africano eameríndio respectivamente. Apesar dos poucos marcadores utilizadosfoi possível discriminar a contribuição genética dos grupos ancestraisindicando que mesmo um número reduzido de marcadores pode sersuficiente, desde que apropriadamente selecionados, para responder umapergunta específica. O BDB construído e diagramado neste trabalhorecebeu o nome de LAPOGEdb (LAPOGE Database -www.lapoge.sites.ufsc) e, mostrou-se uma ferramenta eficaz para oarmazenamento estruturado de informações que variam entre dadosepidemiológicos e genéticos referentes a amostras utilizadas ao longo de19 anos de funcionamento do Laboratório de Polimorfismos Genéticosda Universidade Federal de Santa Catarina (LAPOGE-UFSC). Abstract : The Brazilian population is the product of interbreeding betweenthe three main ethnic groups: Amerindians (who inhabited these landsduring the discovery), Europeans (mainly Portuguese) and Africans(brought forcefully as slave labor). Estimating the different proportionsof ancestry in admixed populations is of utmost importance for geneticstudies that seek to find disease susceptibility alleles, since no correctionof population stratification, can cause deviations leading to spuriousassociations. To control the population stratification, the use of ancestryinformative markers have been widely used for its feature of presentinga high frequency differential between geographically distinctpopulations. The aim of this study was to genotype four ancestryinformative markers suitable for samples of the brazilian population inorder to extend this approach to understand the population structure incase-control studies, using as a model the psoriasis disease. Additionalto the main objective, a biological database (BD) was diagrammed andimplemented through programming languages, to assist in organizingand storing information about the samples used here. The frequencies ofthe four markers (AT3, Sb19.3, APO and PV92) were estimated insamples of patients (PSR) diagnosed with psoriasis (n = 100) andhealthy controls (PSC) with no history of disease (n = 100, PSC)collected in the city of Florianópolis - SC. The genetic profiles wereobtained by standard PCR and visualization with agarose gel andelectrophoresis. The statistical analysis employed programs such asGENEPOP, GDA and ADMIX 3. The proposed BD was developed andstructured in MySQL relational database management system, while thegeneral user interface (GUI) was developed in PHP and HTML. Theresults obtained from the molecular analysis and statistics, showed thatthe two groups studied here (PSR and PSC) had some similarities intheir genetic ancestry, not observing large population differences.Estimates of mixture revealed that the two populations are tri-hybrid,with high preponderance of European component, followed by Africanand Amerindian respectively. Despite the few markers used it was ableto discriminate the genetic contribution of ancestral groups indicating,that even a small number of markers may be sufficient, whenappropriately selected, to answer a specific question. The BD builtedanddiagrammed in this work was named LAPOGEdb (LAPOGE Database -www.lapoge.sites.ufsc) and proved to be an effective tool for storingstructured information, ranging from genetic and epidemiological data,related to the samples used throughout 19 years of operation of theLaboratory of Genetic Polymorphisms of the Federal University ofSanta Catarina (UFSC-LAPOGE)

    A framework for the management of changing biological experimentation

    Get PDF
    There is no point expending time and effort developing a model if it is based on data that is out of date. Many models require large amounts of data from a variety of heterogeneous sources. This data is subject to frequent and unannounced changes. It may only be possible to know that data has fallen out of date by reconstructing the model with the new data but this leads to further problems. How and when does the data change and when does the model need to be rebuilt? At best, the model will need to be continually rebuilt in a desperate attempt to remain current. At worst, the model will be producing erroneous results. The recent advent of automated and semi-automated data-processing and analysis tools in the biological sciences has brought about a rapid expansion of publicly available data. Many problems arise in the attempt to deal with this magnitude of data; some have received more attention than others. One significant problem is that data within these publicly available databases is subject to change in an unannounced and unpredictable manner. Large amounts of complex data from multiple, heterogeneous sources are obtained and integrated using a variety of tools. These data and tools are also subject to frequent change, much like the biological data. Reconciling these changes, coupled with the interdisciplinary nature of in silico biological experimentation, presents a significant problem. We present the ExperimentBuilder, an application that records both the current and previous states of an experimental environment. Both the data and metadata about an experiment are recorded. The current and previous versions of each of these experimental components are maintained within the ExperimentBuilder. When any one of these components change, the ExperimentBuilder estimates not only the impact within that specific experiment, but also traces the impact throughout the entire experimental environment. This is achieved with the use of keyword profiles, a heuristic tool for estimating the content of the experimental component. We can compare one experimental component to another regardless of their type and content and build a network of inter-component relationships for the entire environment. Ultimately, we can present the impact of an update as a complete cost to the entire environment in order to make an informed decision about whether to recalculate our results
    corecore