Article thumbnail

Join index implementation in a distributed partitioned columnar relational database management system

By Joseph D'silva

Abstract

Join indices have been proposed as an efficient way of addressing the high resource costs associated with join computation, ever since the inception of relational database management systems (RDBMS). Although there are plenty of implementations of join indices in row-based RDBMS that have demonstrated significant performance benefits, not much research has been done in terms of their performance benefits in column-based and/or distributed DBMS. In this thesis, we propose a join index implementation for a commercial distributed columnar database, Informatica IDV, and show that it provides significant performance benefits compared to the current join processing in Informatica. We present a join index architecture that is scalable and easy to integrate with the partitioned and columnar architecture of Informatica IDV. We then measure the performance for queries of the TPC-H benchmark considering many different parameters such as database size, number of partitions, query selectivity, and number of joining tables. The performance results from our tests show that our join index implementation offers significant performance improvements compared to standard join processing in terms of query execution times, as well as resource consumption.Avec l'émergence des systèmes de gestion de bases de données relationnelles (SGBDR), les index de jointure ont été proposés en tant que techniques efficaces permettant de réduire les coûts élevés en ressources lors des calculs de jointures. Bien qu'il y ait déjà plusieurs implémentations d'index de jointure dans les systèmes SGBDR orientés-rangées qui ont fait preuve de gains de performance significatifs, peu de recherche a été effectuée en ce qui a trait à la performance des index de jointure au sein de systèmes SGBDR orientés-colonnes et/ou distribués. Dans cette thèse, nous proposons une implémentation d'index de jointure pour une base de données distribuée orientée-colonnes, Informatica IDV, et nous démontrons qu'elle mène à des gains de performance significatifs en comparaison au mécanisme actuel de traitement des jointures dans Informatica. Nous présentons ici une architecture d'index de jointure qui est extensible et facilement intégrable au sein de l'architecture partitionnée, orientée-colonne, du système Informatica IDV. Nous mesurons ensuite la performance de requêtes provenant du banc d'essai TPCH, en prenant en compte différents paramètres tels que la taille de la base de données, le nombre de partitions, la sélectivité des requêtes et le nombre de tables de jointure. Les résultats obtenus de nos tests démontrent que notre implémentation du mécanisme d'index de jointure amène à des gains significatifs de performance par rapport à l'approche standard de traitement des jointures et ce, autant en termes de temps d'exécution des requêtes qu'en termes de consommation des ressources

Topics: Computer Science
Publisher: McGill University
Year: 2015
OAI identifier: oai:digitool.library.mcgill.ca:143927
Provided by: eScholarship@McGill
Download PDF:
Sorry, we are unable to provide the full text but you may find it at the following location(s):
  • http://digitool.Library.McGill... (external link)

  • To submit an update or takedown request for this paper, please submit an Update/Correction/Removal Request.

    Suggested articles