7 research outputs found
bdbms -- A Database Management System for Biological Data
Biologists are increasingly using databases for storing and managing their
data. Biological databases typically consist of a mixture of raw data,
metadata, sequences, annotations, and related data obtained from various
sources. Current database technology lacks several functionalities that are
needed by biological databases. In this paper, we introduce bdbms, an
extensible prototype database management system for supporting biological data.
bdbms extends the functionalities of current DBMSs to include: (1) Annotation
and provenance management including storage, indexing, manipulation, and
querying of annotation and provenance as first class objects in bdbms, (2)
Local dependency tracking to track the dependencies and derivations among data
items, (3) Update authorization to support data curation via content-based
authorization, in contrast to identity-based authorization, and (4) New access
methods and their supporting operators that support pattern matching on various
types of compressed biological data types. This paper presents the design of
bdbms along with the techniques proposed to support these functionalities
including an extension to SQL. We also outline some open issues in building
bdbms.Comment: This article is published under a Creative Commons License Agreement
(http://creativecommons.org/licenses/by/2.5/.) You may copy, distribute,
display, and perform the work, make derivative works and make commercial use
of the work, but, you must attribute the work to the author and CIDR 2007.
3rd Biennial Conference on Innovative Data Systems Research (CIDR) January
710, 2007, Asilomar, California, US
Believe It or Not: Adding Belief Annotations to Databases
We propose a database model that allows users to annotate data with belief
statements. Our motivation comes from scientific database applications where a
community of users is working together to assemble, revise, and curate a shared
data repository. As the community accumulates knowledge and the database
content evolves over time, it may contain conflicting information and members
can disagree on the information it should store. For example, Alice may believe
that a tuple should be in the database, whereas Bob disagrees. He may also
insert the reason why he thinks Alice believes the tuple should be in the
database, and explain what he thinks the correct tuple should be instead.
We propose a formal model for Belief Databases that interprets users'
annotations as belief statements. These annotations can refer both to the base
data and to other annotations. We give a formal semantics based on a fragment
of multi-agent epistemic logic and define a query language over belief
databases. We then prove a key technical result, stating that every belief
database can be encoded as a canonical Kripke structure. We use this structure
to describe a relational representation of belief databases, and give an
algorithm for translating queries over the belief database into standard
relational queries. Finally, we report early experimental results with our
prototype implementation on synthetic data.Comment: 17 pages, 10 figure
LAPOGE Database - estrutura relacional de banco de dados biológicos para armazenamento e sistematização de informações genéticas e epidemiológicas
TCC(graduação) - Universidade Federal de Santa Catarina. Centro de Ciências Biológicas. Biologia.O Laboratório de Polimorfimos Genéticos – LAPOGE da UFSC foi implantado há 22 anos e é base para a formação de alunos de graduação e pós-graduação, além de estágios e vivências. O impressionante volume de dados gerados neste tempo fez crescer a necessidade de um sistema de organização dos dados coletados para todos os participantes das diversas pesquisas executadas neste tempo. Neste sentido, este trabalho propõe a implementação de um banco de dados relacional adequado ao LAPOGE, além do levantamento dos trabalhos realizados e questionários utilizados para levantamento de informações do participante doador da amostra. Durante o levantamento de dados, foi possível encontrar um total de 49 produções. Dentre estas, 34 trabalhos de conclusão de curso de graduação, 12 dissertações de mestrado e 3 teses de doutorado, que utilizaram um total de 158 marcadores. Além disso, notou-se uma grande quantidade de questionários diferentes gerados ao longo dos trabalhos; para garantir uma maior precisão na coleta de dados e diminuir a margem de erro, foram levantadas todas as perguntas comuns utilizadas durante a coleta dos dados biológicos e criado um novo questionário unificado e padronizado. O LAPOGEDb (LAPOGE Database) foi tabulado para armazenar dados em MySQL com interface PHP. Os dados são criptografados e o acesso é restrito a usuários com cadastro autorizado. Está depositado no servidor da Universidade Federal de Santa Catarina que executa três cópias diárias de segurança (backup). A estrutura relacional foi organizada em dez abas e a interface final é do tipo “amigável” onde não é exigido ao usuário nenhum conhecimento de programação. Foram implementadas as abas de Dados Pessoais, Dados Familiais, Dados Biológicos, Dados Epidemiológicos, Dados médicos, Marcadores genéticos, Amostra biológica e as abas específicas de Artrite, Psoríase, Lúpus e Câncer de Mama. O sistema de cadastro permite o acesso às informações, mas mantém sigilosas aquelas previstas pelo Comitê de Ética. A página de busca (que será implementada) permitirá coletar informações combinadas de todas as categorias e emitirá output em formato de uso para programas de análises. Dado o volume de informações, o LAPOGEDb inicia uma nova forma de organização e consulta de dados produzidos pelo LAPOGE UFSC
Elaboração de um painel de marcadores de ancestralidade para estudos caso-controle e organização das informações em banco de dados local
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências Biológicas, Programa de Pós-Graduação em Biologia Celular e do Desenvolvimento, Florianópolis, 2013.A população brasileira é produto da miscigenação entre trêsprincipais grupos étnicos: Ameríndios (que já habitavam estas terras àépoca do descobrimento), Europeus (principalmente portugueses) eAfricanos (trazidos de forma forçada como mão de obra escrava).Estimar as diferentes proporções de ancestralidade em populaçõesmiscigenadas é de extrema importância para estudos genéticos quebuscam encontrar alelos de sucetibilidade a doenças, uma vez que a nãocorreção da estratificação populacional pode ocasionar desvios levandoa associações espúrias. Para o controle da estratificação populacional, autilização de marcadores informativos de ancestralidade tem sidoamplamente utilizada por apresentar um alto diferencial de frequênciaentre populações de regiões geograficamente distintas. O objetivo desteestudo foi genotipar quatro marcadores informativos de ancestralidadeadequados para amostras da população brasileira visando estender estaabordagem para entender a estruturação populacional em estudos decaso-controle, utilizando como modelo a doença psoríase. Adicional aoprincipal objetivo, um banco de dados biológico (BDB) foi diagramadoe implementado, para auxiliar na organização e armazenamento deinformações a respeito das amostras aqui utilizadas. As frequências dosquatro marcadores (AT3, Sb19.3, APO e PV92) foram estimadas emamostras de pacientes (PSR) diagnosticados com psoríase (n=100) econtroles saudáveis (PSC) sem histórico de doença (n=100, PSC)coletadas na cidade de Florianópolis - SC. Os perfis genéticos foramobtidos através de PCR convencional e eletroforese em gel de agarose.As análises estatísticas empregaram programas tais como GENEPOP,GDA e ADMIX 3. O BDB proposto foi desenvolvido e estruturado emsistema de gestão de bases de dados relacionais MySQL, e a interfacegráfica foi desenvolvida em linguagem PHP e HTML. Por meio deanálises moleculares e estatísticas, os resultados obtidos evidenciaramque os dois grupos de indivíduos aqui estudados (PSR e PSC)apresentaram semelhanças quanto a sua ancestralidade genética, nãosendo observado grandes diferenças populacionais. As estimativas demistura revelaram que as duas populações analisadas são tri-híbridas,com alta preponderância do componente europeu, seguido de africano eameríndio respectivamente. Apesar dos poucos marcadores utilizadosfoi possível discriminar a contribuição genética dos grupos ancestraisindicando que mesmo um número reduzido de marcadores pode sersuficiente, desde que apropriadamente selecionados, para responder umapergunta específica. O BDB construído e diagramado neste trabalhorecebeu o nome de LAPOGEdb (LAPOGE Database -www.lapoge.sites.ufsc) e, mostrou-se uma ferramenta eficaz para oarmazenamento estruturado de informações que variam entre dadosepidemiológicos e genéticos referentes a amostras utilizadas ao longo de19 anos de funcionamento do Laboratório de Polimorfismos Genéticosda Universidade Federal de Santa Catarina (LAPOGE-UFSC). Abstract : The Brazilian population is the product of interbreeding betweenthe three main ethnic groups: Amerindians (who inhabited these landsduring the discovery), Europeans (mainly Portuguese) and Africans(brought forcefully as slave labor). Estimating the different proportionsof ancestry in admixed populations is of utmost importance for geneticstudies that seek to find disease susceptibility alleles, since no correctionof population stratification, can cause deviations leading to spuriousassociations. To control the population stratification, the use of ancestryinformative markers have been widely used for its feature of presentinga high frequency differential between geographically distinctpopulations. The aim of this study was to genotype four ancestryinformative markers suitable for samples of the brazilian population inorder to extend this approach to understand the population structure incase-control studies, using as a model the psoriasis disease. Additionalto the main objective, a biological database (BD) was diagrammed andimplemented through programming languages, to assist in organizingand storing information about the samples used here. The frequencies ofthe four markers (AT3, Sb19.3, APO and PV92) were estimated insamples of patients (PSR) diagnosed with psoriasis (n = 100) andhealthy controls (PSC) with no history of disease (n = 100, PSC)collected in the city of Florianópolis - SC. The genetic profiles wereobtained by standard PCR and visualization with agarose gel andelectrophoresis. The statistical analysis employed programs such asGENEPOP, GDA and ADMIX 3. The proposed BD was developed andstructured in MySQL relational database management system, while thegeneral user interface (GUI) was developed in PHP and HTML. Theresults obtained from the molecular analysis and statistics, showed thatthe two groups studied here (PSR and PSC) had some similarities intheir genetic ancestry, not observing large population differences.Estimates of mixture revealed that the two populations are tri-hybrid,with high preponderance of European component, followed by Africanand Amerindian respectively. Despite the few markers used it was ableto discriminate the genetic contribution of ancestral groups indicating,that even a small number of markers may be sufficient, whenappropriately selected, to answer a specific question. The BD builtedanddiagrammed in this work was named LAPOGEdb (LAPOGE Database -www.lapoge.sites.ufsc) and proved to be an effective tool for storingstructured information, ranging from genetic and epidemiological data,related to the samples used throughout 19 years of operation of theLaboratory of Genetic Polymorphisms of the Federal University ofSanta Catarina (UFSC-LAPOGE)
A framework for the management of changing biological experimentation
There is no point expending time and effort developing a model if it is based on data that is out of date. Many models require large amounts of data from a variety of
heterogeneous sources. This data is subject to frequent and unannounced changes. It may only be possible to know that data has fallen out of date by reconstructing the
model with the new data but this leads to further problems. How and when does the data change and when does the model need to be rebuilt? At best, the model will need
to be continually rebuilt in a desperate attempt to remain current. At worst, the model will be producing erroneous results.
The recent advent of automated and semi-automated data-processing and analysis tools
in the biological sciences has brought about a rapid expansion of publicly available data.
Many problems arise in the attempt to deal with this magnitude of data; some have received more attention than others. One significant problem is that data within these
publicly available databases is subject to change in an unannounced and unpredictable
manner. Large amounts of complex data from multiple, heterogeneous sources are obtained and integrated using a variety of tools. These data and tools are also subject to
frequent change, much like the biological data. Reconciling these changes, coupled with
the interdisciplinary nature of in silico biological experimentation, presents a significant problem.
We present the ExperimentBuilder, an application that records both the current and previous states of an experimental environment. Both the data and metadata about
an experiment are recorded. The current and previous versions of each of these experimental components are maintained within the ExperimentBuilder. When any one
of these components change, the ExperimentBuilder estimates not only the impact within that specific experiment, but also traces the impact throughout the entire experimental environment. This is achieved with the use of keyword profiles, a heuristic tool for estimating the content of the experimental component. We can compare one
experimental component to another regardless of their type and content and build a network of inter-component relationships for the entire environment.
Ultimately, we can present the impact of an update as a complete cost to the entire
environment in order to make an informed decision about whether to recalculate our
results