850,883 research outputs found

    TOPYDE: A Tool for Physical Database Design

    Get PDF
    We describe a tool for physical database design based on a combination of theoretical and pragmatic approaches. The tool takes as input a relational schema, the workload defined on the schema, and some additional database characteristics and produces as output a physical schema. For the time being, the tool is tuned towards Ingres

    Modelling Uncertainty in Physical Database Design

    Get PDF
    Physical database design can be marked as a crucial step in the overall design process of databases. The outcome of physical database design is a physical schema which describes the storage and access structures of the stored database. The selection of an ecient physical schema is an NP-complete problem. A signi cant number of eorts has been reported to develop tools that assist in the selection of physical schemas. Most of the eorts implicitly apply a number of heuristics to avoid the evaluation of all schemas. In this paper, we present an approach, based on the Dempster-Shafer theory, that explicitly models a rich set of heuristics |used for the selection of an ecient physical schema | into knowledge rules. These rules may be loaded into a knowledge base, which, in turn, can be embedded in physical database design tools.

    LOGICAL AND PHYSICAL TEMPORAL-DATABASE DESIGN

    Get PDF
    This paper examines problems and approaches to logical and physical temporal-database design. The logical model is used to determine the functionality required of the physical design. Due to the special nature of temporal data, existing database structures are inadequate. The nature of physical design problems are examined and some solutions proposed. A multi-dimensional file partitioning algorithm is proposed; this algorithm is appropriate for certain temporal-database environments

    Physical Database Design: A DSS Approach*

    Get PDF
    This paper presents a working decision support system for use in the physical design of a database. Physical database design, although a structured decision problem, lends itself to a decision support approach because closed form algorithms are computationally infeasible. The paper describes the physical database design problem, presents an overview of a software system for use in solving this problem, and evaluates the use of the system in solving a sample problem

    Physical database design in document stores

    Get PDF
    Tesi en modalitat de cotutela, Universitat Politècnica de Catalunya i Université libre de BruxellesNoSQL is an umbrella term used to classify alternate storage systems to the traditional Relational Database Management Systems (RDBMSs). Among these, Document stores have gained popularity mainly due to the semi-structured data storage model and the rich query capabilities. They encourage users to use a data-first approach as opposed to a design-first one. Database design on document stores is mainly carried out in a trial-and-error or ad-hoc rule-based manner instead of a formal process such as normalization in an RDBMS. However, these approaches could easily lead to a non-optimal design resulting additional costs in the long run. This PhD thesis aims to provide a novel multi-criteria-based approach to database design in document stores. Most of such existing approaches are based on optimizing query performance. However, other factors include storage requirement and complexity of the stored documents specific to each use case. There is a large solution space of alternative designs due to the different combinations of referencing and nesting of data. Thus, we believe multi-criteria optimization is ideal to solve this problem. To achieve this, we need to address several issues that will enable us to apply multi-criteria optimization for the data design problem. First, we evaluate the impact of alternate storage representations of semi-structured data. There are multiple and equivalent ways to physically represent semi-structured data, but there is a lack of evidence about the potential impact on space and query performance. Thus, we embark on the task of quantifying that precisely for document stores. We empirically compare multiple ways of representing semi-structured data, allowing us to derive a set of guidelines for efficient physical database design considering both JSON and relational options in the same palette. Then, we need a formal canonical model that can represent alternative designs. We propose a hypergraph-based approach for representing heterogeneous datastore designs. We extend and formalize an existing common programming interface to NoSQL systems as hypergraphs. We define design constraints and query transformation rules for representative data store types. Next, we propose a simple query rewriting algorithm and provide a prototype implementation together with storage statistics estimator. Next, we require a formal query cost model to estimate and evaluate query performance on alternative document store designs. Document stores use primitive approaches to query processing, such as relying on the end-user to specify the usage of indexes instead of a formal cost model. But we require a reliable approach to compare alternative designs on how they perform on a specific query. For this, we define a generic storage and query cost model based on disk access and memory allocation. As all document stores carry out data operations in memory, we first estimate the memory usage by considering the characteristics of the stored documents, their access patterns, and memory management algorithms. Then, using this estimation and metadata storage size, we introduce a cost model for random access queries. We validate our work on two well-known document store implementations. The results show that the memory usage estimates have an average precision of 91% and predicted costs are highly correlated to the actual execution times. During this work, we also managed to suggest several improvements to document stores. Finally, we implement the automated database design solution using multi-criteria optimization. We introduce an algebra of transformations that can systematically modify a design of our canonical representation. Then, using them, we implement a local search algorithm driven by a loss function that can propose near-optimal designs with high probability. We compare our prototype against an existing document store data design solution. Our proposed designs have better performance and are more compact with less redundancy.NoSQL descriu sistemes d'emmagatzematge alternatius als tradicionals de gestió de bases de dades relacionals (RDBMS). Entre aquests, els magatzems de documents han guanyat popularitat principalment a causa del model de dades semiestructurat i les riques capacitats de consulta. Animen els usuaris a utilitzar un enfocament de dades primer, en lloc d'un enfocament de disseny primer. El disseny de dades en magatzems de documents es porta a terme principalment en forma d'assaig-error o basat en regles ad-hoc en lloc d'un procés formal i sistemàtic com ara la normalització en un RDBMS. Aquest enfocament condueix fàcilment a un disseny no òptim que generarà costos addicionals a llarg termini. La majoria dels enfocaments existents es basen en l'optimització del rendiment de les consultes. Aquesta tesi pretén, en canvi, proporcionar un nou enfocament basat en diversos criteris per al disseny de bases de dades en magatzems de documents, inclouen el requisit d'espai i la complexitat dels documents emmagatzemats específics per a cada cas d'ús. En general, hi ha un gran espai de solucions de dissenys alternatives. Per tant, creiem que l'optimització multicriteri és ideal per resoldre aquest problema. Per aconseguir-ho, hem d'abordar diversos problemes que ens permetran aplicar l'optimització multicriteri. En primer, avaluem l'impacte de les representacions alternatives de dades semiestructurades. Hi ha maneres múltiples i equivalents de representar dades semiestructurades, però hi ha una manca d'evidència sobre l'impacte potencial en l'espai i el rendiment de les consultes. Així, ens embarquem en la tasca de quantificar-ho. Comparem empíricament múltiples representacions de dades semiestructurades, cosa que ens permet derivar directrius per a un disseny eficient tenint en compte les opcions dels JSON i relacionals alhora. Aleshores, necessitem un model canònic que pugui representar dissenys alternatius i proposem un enfocament basat en hipergrafs. Estenem i formalitzem una interfície de programació comuna existent als sistemes NoSQL com a hipergrafs. Definim restriccions de disseny i regles de transformació de consultes per a tipus de magatzem de dades representatius. A continuació, proposem un algorisme de reescriptura de consultes senzill i proporcionem una implementació juntament amb un estimador d'estadístiques d'emmagatzematge. Els magatzems de documents utilitzen enfocaments primitius per al processament de consultes, com ara confiar en l'usuari final per especificar l'ús d'índexs en lloc d'un model de cost. Conseqüentment, necessitem un model de cost de consulta per estimar i avaluar el rendiment en dissenys alternatius. Per això, definim un model genèric propi basat en l'accés a disc i l'assignació de memòria. Com que tots els magatzems de documents duen a terme operacions de dades a memòria, primer estimem l'ús de la memòria tenint en compte les característiques dels documents emmagatzemats, els seus patrons d'accés i els algorismes de gestió de memòria. A continuació, utilitzant aquesta estimació i la mida d'emmagatzematge de metadades, introduïm un model de costos per a consultes d'accés aleatori. Validem el nostre treball en dues implementacions conegudes. Els resultats mostren que les estimacions d'ús de memòria tenen una precisió mitjana del 91% i els costos previstos estan altament correlacionats amb els temps d'execució reals. Finalment, implementem la solució de disseny automatitzat de bases de dades mitjançant l'optimització multicriteri. Introduïm una àlgebra de transformacions que pot modificar sistemàticament un disseny en la nostra representació canònica. A continuació, utilitzant-la, implementem un algorisme de cerca local impulsat per una funció de pèrdua que pot proposar dissenys gairebé òptims amb alta probabilitat. Comparem el nostre prototip amb una solució de disseny de dades de magatzem de documents existent. Els nostres dissenys proposats tenen un millor rendiment i són més compactes, amb menys redundànciaNoSQL est un terme générique utilisé pour classer les systèmes de stockage alternatifs aux systèmes de gestion de bases de données relationnelles (SGBDR) traditionnels. Au moment de la rédaction de cet article, il existe plus de 200 systèmes NoSQL disponibles qui peuvent être classés en quatre catégories principales sur le modèle de stockage de données : magasins de valeurs-clés, magasins de documents, magasins de familles de colonnes et magasins de graphiques. Les magasins de documents ont gagné en popularité principalement en raison du modèle de stockage de données semi-structuré et des capacités de requêtes riches par rapport aux autres systèmes NoSQL, ce qui en fait un candidat idéal pour le prototypage rapide. Les magasins de documents encouragent les utilisateurs à utiliser une approche axée sur les données plutôt que sur la conception. La conception de bases de données sur les magasins de documents est principalement effectuée par essais et erreurs ou selon des règles ad hoc plutôt que par un processus formel tel que la normalisation dans un SGBDR. Cependant, ces approches pourraient facilement conduire à une conception de base de données non optimale entraînant des coûts supplémentaires de traitement des requêtes, de stockage des données et de refonte. Cette thèse de doctorat vise à fournir une nouvelle approche multicritère de la conception de bases de données dans les magasins de documents. La plupart des approches existantes de conception de bases de données sont basées sur l’optimisation des performances des requêtes. Cependant, d’autres facteurs incluent les exigences de stockage et la complexité des documents stockés spécifique à chaque cas d’utilisation. De plus, il existe un grand espace de solution de conceptions alternatives en raison des différentes combinaisons de référencement et d’imbrication des données. Par conséquent, nous pensons que l’optimisation multicritères est idéale par l’intermédiaire d’une expérience éprouvée dans la résolution de tels problèmes dans divers domaines. Cependant, pour y parvenir, nous devons résoudre plusieurs problèmes qui nous permettront d’appliquer une optimisation multicritère pour le problème de conception de données. Premièrement, nous évaluons l’impact des représentations alternatives de stockage des données semi-structurées. Il existe plusieurs manières équivalentes de représenter physiquement des données semi-structurées, mais il y a un manque de preuves concernant l’impact potentiel sur l’espace et sur les performances des requêtes. Ainsi, nous nous lançons dans la tâche de quantifier cela précisément pour les magasins de documents. Nous comparons empiriquement plusieurs façons de représenter des données semi-structurées, ce qui nous permet de dériver un ensemble de directives pour une conception de base de données physique efficace en tenant compte à la fois des options JSON et relationnelles dans la même palette. Ensuite, nous avons besoin d’un modèle canonique formel capable de représenter des conceptions alternatives. Dans cette mesure, nous proposons une approche basée sur des hypergraphes pour représenter des conceptions de magasins de données hétérogènes. Prenant une interface de programmation commune existante aux systèmes NoSQL, nous l’étendons et la formalisons sous forme d’hypergraphes. Ensuite, nous définissons les contraintes de conception et les règles de transformation des requêtes pour trois types de magasins de données représentatifs. Ensuite, nous proposons un algorithme de réécriture de requête simple à partir d’un algorithme générique dans un magasin de données sous-jacent spécifique et fournissons une implémentation prototype. De plus, nous introduisons un estimateur de statistiques de stockage sur les magasins de données sous-jacents. Enfin, nous montrons la faisabilité de notre approche sur un cas d’utilisation d’un système polyglotte existant ainsi que son utilité dans les calculs de métadonnées et de chemins de requêtes physiques. Ensuite, nous avons besoin d’un modèle de coûts de requêtes formel pour estimer et évaluer les performances des requêtes sur des conceptions alternatives de magasin de documents. Les magasins de documents utilisent des approches primitives du traitement des requêtes, telles que l’évaluation de tous les plans de requête possibles pour trouver le plan gagnant et son utilisation dans les requêtes similaires ultérieures, ou l’appui sur l’usager final pour spécifier l’utilisation des index au lieu d’un modèle de coûts formel. Cependant, nous avons besoin d’une approche fiable pour comparer deux conceptions alternatives sur la façon dont elles fonctionnent sur une requête spécifique. Pour cela, nous définissons un modèle de coûts de stockage et de requête générique basé sur l’accès au disque et l’allocation de mémoire qui permet d’estimer l’impact des décisions de conception. Étant donné que tous les magasins de documents effectuent des opérations sur les données en mémoire, nous estimons d’abord l’utilisation de la mémoire en considérant les caractéristiques des documents stockés, leurs modèles d’accès et les algorithmes de gestion de la mémoire. Ensuite, en utilisant cette estimation et la taille de stockage des métadonnées, nous introduisons un modèle de coûts pour les requêtes à accès aléatoire. Il s’agit de la première tenta ive d’une telle approche au meilleur de notre connaissance. Enfin, nous validons notre travail sur deux implémentations de magasin de documents bien connues : MongoDB et Couchbase. Les résultats démontrent que les estimations d’utilisation de la mémoire ont une précision moyenne de 91% et que les coûts prévus sont fortement corrélés aux temps d’exécution réels. Au cours de ce travail, nous avons réussi à proposer plusieurs améliorations aux systèmes de stockage de documents. Ainsi, ce modèle de coûts contribue également à identifier les discordances entre les implémentations de stockage de documents et leurs attentes théoriques. Enfin, nous implémentons la solution de conception automatisée de bases de données en utilisant l’optimisation multicritères. Tout d’abord, nous introduisons une algèbre de transformations qui peut systématiquement modifier une conception de notre représentation canonique. Ensuite, en utilisant ces transformations, nous implémentons un algorithme de recherche locale piloté par une fonction de perte qui peut proposer des conceptions quasi optimales avec une probabilité élevée. Enfin, nous comparons notre prototype à une solution de conception de données de magasin de documents existante uniquement basée sur le coût des requêtes. Nos conceptions proposées ont de meilleures performances et sont plus compactes avec moins de redondancePostprint (published version

    Physical database design

    Get PDF
    Cilj ovog rada je bio prikazati fizički dizajn baze podataka, tj. kako napraviti fizičku shemu baze sa njihovim atributima i tipovima podataka. Baza podataka predstavlja skup organiziranih podataka zapisani na računalu bez nepotrebne redundancije. Sustav za upravljanje bazom podataka je precizniji izraz, jer je riječ o softveru koji omogućava izvođenje naredbi koje je korisnik upisao. Glavni cilj sustava za upravljanje podacima je olakšati korisnicima rad i poboljšati efikasnost u izvršenju poslova. Glavne zadaće sustava za upravljanje bazama podataka je također zaštititi bazu podataka od neovlaštenog korištenja, spriječiti narušavanje referencijalnog integriteta baze, osigurati obnovu podataka u slučaju uništenja, omogućiti višekorisnički rad te optimizirati sve funkcije i obavljati ih efikasno. Kreiranje tablica u bazi podataka započinje naredbom CREATE TABLE. Ujedno predstavlja i jezik za definiranje podataka, DDL. Punjenje podataka u tablice započinje se naredbom INSERT INTO ime tablice ('id','ime') VALUES ('1','nekoime'). To je ujedno i naredba za manipuliranje podacima ili DML. Od DML-a, još postoje i UPDATE, DELETE, SELECT. Select naredba je upit koji služi za ispis podataka uz neka ograničenja ako postoje ili za ispis svih podataka. Dakle, u ovom radu, postupak kreiranja baze podataka opisan je na dva primjera,na primjeru knjižnice i baze podataka fakulteta.The aim of this work was to display the physical design of the database, IE. How to make a physical database schema with their attributes and data types. A database is a collection of organized data stored on your computer without unnecessary redundancy. Database management system is a more accurate term, because it is a software that allows you to perform commands that the user typed. The main objective of data management is to facilitate users to work and improve efficiency in the execution of jobs. The main tasks of database management systems is also to protect the database from unauthorized use, to prevent the violation of referential integrity base, ensuring the restoration of data in the event of destruction, enable multi-user operation and optimize all the functions and perform them efficiently. Create tables in a database begins with a CREATE TABLE statement. It also represents a language for defining data, DDL. Filling the data in the table begins with the command INSERT INTO the name of the ('id','name') VALUES ('1','somename'). It is also the command to manipulate data or DML. From DML-and, still exist and UPDATE, DELETE, SELECT. Select the command is a query that is used to print the data with some limitations if there are, or to print all the data. So, in this paper, the process of creating a database is described in the two examples, on the example of libraries and databases of the faculty

    Physical database design

    Get PDF
    Cilj ovog rada je bio prikazati fizički dizajn baze podataka, tj. kako napraviti fizičku shemu baze sa njihovim atributima i tipovima podataka. Baza podataka predstavlja skup organiziranih podataka zapisani na računalu bez nepotrebne redundancije. Sustav za upravljanje bazom podataka je precizniji izraz, jer je riječ o softveru koji omogućava izvođenje naredbi koje je korisnik upisao. Glavni cilj sustava za upravljanje podacima je olakšati korisnicima rad i poboljšati efikasnost u izvršenju poslova. Glavne zadaće sustava za upravljanje bazama podataka je također zaštititi bazu podataka od neovlaštenog korištenja, spriječiti narušavanje referencijalnog integriteta baze, osigurati obnovu podataka u slučaju uništenja, omogućiti višekorisnički rad te optimizirati sve funkcije i obavljati ih efikasno. Kreiranje tablica u bazi podataka započinje naredbom CREATE TABLE. Ujedno predstavlja i jezik za definiranje podataka, DDL. Punjenje podataka u tablice započinje se naredbom INSERT INTO ime tablice ('id','ime') VALUES ('1','nekoime'). To je ujedno i naredba za manipuliranje podacima ili DML. Od DML-a, još postoje i UPDATE, DELETE, SELECT. Select naredba je upit koji služi za ispis podataka uz neka ograničenja ako postoje ili za ispis svih podataka. Dakle, u ovom radu, postupak kreiranja baze podataka opisan je na dva primjera,na primjeru knjižnice i baze podataka fakulteta.The aim of this work was to display the physical design of the database, IE. How to make a physical database schema with their attributes and data types. A database is a collection of organized data stored on your computer without unnecessary redundancy. Database management system is a more accurate term, because it is a software that allows you to perform commands that the user typed. The main objective of data management is to facilitate users to work and improve efficiency in the execution of jobs. The main tasks of database management systems is also to protect the database from unauthorized use, to prevent the violation of referential integrity base, ensuring the restoration of data in the event of destruction, enable multi-user operation and optimize all the functions and perform them efficiently. Create tables in a database begins with a CREATE TABLE statement. It also represents a language for defining data, DDL. Filling the data in the table begins with the command INSERT INTO the name of the ('id','name') VALUES ('1','somename'). It is also the command to manipulate data or DML. From DML-and, still exist and UPDATE, DELETE, SELECT. Select the command is a query that is used to print the data with some limitations if there are, or to print all the data. So, in this paper, the process of creating a database is described in the two examples, on the example of libraries and databases of the faculty

    Automatic physical database design : recommending materialized views

    Get PDF
    This work discusses physical database design while focusing on the problem of selecting materialized views for improving the performance of a database system. We first address the satisfiability and implication problems for mixed arithmetic constraints. The results are used to support the construction of a search space for view selection problems. We proposed an approach for constructing a search space based on identifying maximum commonalities among queries and on rewriting queries using views. These commonalities are used to define candidate views for materialization from which an optimal or near-optimal set can be chosen as a solution to the view selection problem. Using a search space constructed this way, we address a specific instance of the view selection problem that aims at minimizing the view maintenance cost of multiple materialized views using multi-query optimization techniques. Further, we study this same problem in the context of a commercial database management system in the presence of memory and time restrictions. We also suggest a heuristic approach for maintaining the views while guaranteeing that the restrictions are satisfied. Finally, we consider a dynamic version of the view selection problem where the workload is a sequence of query and update statements. In this case, the views can be created (materialized) and dropped during the execution of the workload. We have implemented our approaches to the dynamic view selection problem and performed extensive experimental testing. Our experiments show that our approaches perform in most cases better than previous ones in terms of effectiveness and efficiency

    Poster session: Constrained dynamic physical database design

    Get PDF
    Physical design has always been an important part of database administration. Today's commercial database management systems offer physical design tools, which recommend a physical design for a given workload. However, these tools work only with static workloads and ignore the fact that workloads, and physical designs, may change over time. Research has now begun to focus on dynamic physical design, which can account for time-varying workloads. In this paper, we consider a dynamic but constrained approach to physical design. The goal is to recommend dynamic physical designs that reflect major workload trends but that are not tailored too closely to the details of the input workloads. To achieve this, we constrain the number of changes that are permitted in the recommended design. In this paper we present our definition of the constrained dynamic physical design problem and discuss several techniques for solving it
    • …
    corecore