5 research outputs found

    Tri de la table de faits et compression des index bitmaps avec alignement sur les mots

    Get PDF
    Bitmap indexes are frequently used to index multidimensional data. They rely mostly on sequential input/output. Bitmaps can be compressed to reduce input/output costs and minimize CPU usage. The most efficient compression techniques are based on run-length encoding (RLE), such as Word-Aligned Hybrid (WAH) compression. This type of compression accelerates logical operations (AND, OR) over the bitmaps. However, run-length encoding is sensitive to the order of the facts. Thus, we propose to sort the fact tables. We review lexicographic, Gray-code, and block-wise sorting. We found that a lexicographic sort improves compression--sometimes generating indexes twice as small--and make indexes several times faster. While sorting takes time, this is partially offset by the fact that it is faster to index a sorted table. Column order is significant: it is generally preferable to put the columns having more distinct values at the beginning. A block-wise sort is much less efficient than a full sort. Moreover, we found that Gray-code sorting is not better than lexicographic sorting when using word-aligned compression.Comment: to appear at BDA'0

    Les index bitmap compressés

    Get PDF
    Les index bitmap sont trĂšs utilisĂ©s dans les moteurs de recherche et les bases de donnĂ©es pour accĂ©lĂ©rer les opĂ©rations de recherche. Leurs principaux avantages sont leur forme compacte et leur capacitĂ© Ă  tirer profit du traitement parallĂšle de bits dans les CPU (bit-level parallelism). Lorsque employĂ©s sur des attributs de faibles cardinalitĂ©s, l'efficacitĂ© des index bitmaps en matiĂšre d'occupation d'espace mĂ©moire et de temps de traitements comparĂ© aux autres types d'index classiques, tels que l'arbre-B, est largement reconnue dans la littĂ©rature. Cependant, plus la cardinalitĂ© d'un attribut s'Ă©lĂšve plus la taille et les temps de traitements de son index bitmap augmentent jusqu'Ă  consommer plus d'espaces mĂ©moires que les donnĂ©es indexĂ©es et d'importants temps de calculs. Afin de maintenir l'efficacitĂ© de ces solutions d'indexation dans ces conditions- lĂ , plusieurs chercheurs ont proposĂ© des travaux dans le but de rĂ©duire la taille et amĂ©liorer les temps de traitement de bitmaps indexant des attributs de larges cardinalitĂ©s. Les solutions proposĂ©es dans la littĂ©rature adressant cette problĂ©matique se divisent en trois catĂ©gories : le paquetage des bitmaps, l'encodage des bitmaps et la compression des bitmaps. Les contributions proposĂ©es dans cette thĂšse se classent parmi la troisiĂšme catĂ©gorie. AprĂšs avoir constatĂ© que la plupart des techniques de compression de bitmaps introduites ces 15 derniĂšres annĂ©es se basent sur le modĂšle de la solution WAH, qui combine une compression par plages de valeurs avec une reprĂ©sentation bitmap sous forme de chaĂźnes de bits alignĂ©es par mots CPU, cette thĂšse propose la technique Roaring bitmap, qui adopte un nouveau modĂšle pour compresser les bitmaps. Cette mĂ©thode discrĂ©tise l'espace des entiers reprĂ©sentĂ©s par un bitmap en des partitions de taille fixe, puis applique sur chacune une forme de compression appropriĂ©e selon la densitĂ© du groupe d'entiers. Des expĂ©riences ont Ă©tĂ© conduites pour comparer les performances temps-espace du nouveau modĂšle avec ceux de deux autres solutions de compression bitmap parmi les plus connues dans la littĂ©rature : WAH et Concise. Les rĂ©sultats ont montrĂ© que, sur des faibles densitĂ©s, la nouvelle mĂ©thode ne consomme que ≈ 50% de l'espace mĂ©moire occupĂ© par Concise et ≈ 25% de celui de WAH. Aussi, Roaring bitmap a pu accĂ©lĂ©rer les temps de calcul d'opĂ©rations logiques par rapport aux deux autres techniques sur tous les tests effectuĂ©s, en Ă©tant de 4 Ă  5 fois plus performant sur des donnĂ©es synthĂ©tiques, et jusqu'Ă  1100 fois plus rapide sur des donnĂ©es rĂ©elles. La librairie de Roaring bitmap et celles des autres solutions adoptant le modĂšle WAH qui sont disponibles au grand public ne supportent que des bitmaps d'au plus 232 (≈ 4 milliards) entrĂ©es. Avec l'avĂšnement du Big Data, le besoin d'indexer de trĂšs larges collections de donnĂ©es sur lesquelles de telles librairies se rĂ©vĂšlent impraticables est souvent rencontrĂ©. Les ingĂ©nieurs du moteur de recherche Apache Lucene ont rencontrĂ© ce problĂšme, et ont introduit la solution OpenBitSet, qui peut allouer des bitmaps avec jusqu'Ă  64 x 232 – 1 entrĂ©es. Cependant, cette solution reste simple et n'applique aucune forme de compression sur les bitmaps. La prĂ©sente thĂšse propose trois nouveaux modĂšles de compression bitmap basĂ©s sur le format de Roaring bitmap et qui peuvent indexer jusqu'Ă  264 entrĂ©es. Des expĂ©riences sur des donnĂ©es synthĂ©tiques comparant les performances des trois nouveaux modĂšles avec la solution d'Apache Lucene, OpenBitSet, et d'autres collections Java du paquetage Java.Util : ArrayList, LinkedList, HashSet et TreeSet, ont montrĂ© qu'OpenBitSet et les collections Java consomment, respectivement, jusqu'Ă  ≈ 300 millions de fois et ≈ 1800 fois plus d'espaces mĂ©moire comparĂ©s aux trois nouveaux modĂšles. Ces derniers ont Ă©galement calculĂ© des intersections entre deux ensembles d'entiers, ≈ 6 millions de fois, ≈ 63 milles fois et ≈ 6 fois plus rapidement par rapport Ă  OpenBitSet, aux deux collections ArrayList et LinkedList, et aux deux structures HashSet et TreeSet, respectivement. En Ă©valuant les temps pour calculer l'union de deux ensembles d'entiers, les nouvelles mĂ©thodes ont Ă©tĂ© jusqu'Ă  ≈ 3 millions de fois plus performantes qu'OpenBitSet. Aussi, cette derniĂšre structure de donnĂ©es a Ă©tĂ© jusqu'Ă  ≈ 14 millions de fois plus lente pour insĂ©rer un entier gĂ©nĂ©rĂ© alĂ©atoirement que les trois solutions proposĂ©es. Afin de valider le format de la solution Roaring bitmap dans un SGBD rĂ©el, cette technique d'indexation a Ă©tĂ© intĂ©grĂ©e au moteur OLAP Druid. Ce systĂšme se base essentiellement sur des index bitmap compressĂ©s avec la technique Concise pour accĂ©lĂ©rer les temps de rĂ©ponse de requĂȘtes OLAP effectuant des analyses dĂ©taillĂ©es sur les donnĂ©es (drill-down). Des expĂ©riences sur des donnĂ©es rĂ©elles ont Ă©tĂ© rĂ©alisĂ©es pour Ă©valuer les performances de Roaring bitmap et de Concise au sein du SGBD Druid. Les rĂ©sultats ont montrĂ© que Roaring bitmap a amĂ©liorĂ© de ≈ 2 fois les temps de rĂ©ponse de requĂȘtes d'agrĂ©gations et prĂšs de 5 fois le temps de traitements de requĂȘtes de recherche comparĂ© Ă  la solution Concise.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : index bitmap, compression, performances, opĂ©rations logiques, structures de donnĂ©es

    Histogram-Aware Sorting for Enhanced Word-Aligned Compression in Bitmap Indexes

    Get PDF
    Bitmap indexes must be compressed to reduce input/output costs and minimize CPU usage. To accelerate logical operations (AND, OR, XOR) over bitmaps, we use techniques based on run-length encoding (RLE), such as Word-Aligned Hybrid (WAH) compression. These techniques are sensitive to the order of the rows: a simple lexicographical sort can divide the index size by 9 and make indexes several times faster. We investigate reordering heuristics based on computed attribute-value histograms. Simply permuting the columns of the table based on these histograms can increase the sorting efficiency by 40%.Comment: To appear in proceedings of DOLAP 200

    La Caméra imaginaire

    Get PDF
    La notion de « camĂ©ra », empruntĂ©e au lexique cinĂ©matographique, est frĂ©quemment utilisĂ©e par les joueurs, les dĂ©veloppeurs ou encore les journalistes pour qualifier les dĂ©placements du point de vue dans les jeux vidĂ©o. En effet, le terme de « camĂ©ra » s’est gĂ©nĂ©ralisĂ© dans les discours portant sur le jeu vidĂ©o dĂšs les annĂ©es 1990 et constitue un exemple clĂ© des Ă©changes et des contaminations qui ont marquĂ© l’histoire du jeu vidĂ©o, autant que l’histoire rĂ©cente du cinĂ©ma hollywoodien. Si plusieurs travaux du jeune champ d’études des game studies (ou Ă©tudes du jeu vidĂ©o) se sont dĂ©jĂ  penchĂ©s sur la « cinĂ©matographicitĂ© » des images vidĂ©oludiques, sur l’ensemble des dynamiques d’emprunt et d’hybridation qui affectent les images du jeu vidĂ©o, l’histoire du terme de « camĂ©ra » n’a jamais fait l’objet d’une Ă©tude dĂ©taillĂ©e. Or, sa gĂ©nĂ©ralisation dans le domaine du jeu vidĂ©o fait de la « camĂ©ra » un facteur crucial des contaminations rĂ©ciproques qui ont marquĂ© ces deux industries culturelles dĂšs la fin du XXĂš siĂšcle. Son usage dans le contexte des game studies repose sur une connaissance partagĂ©e du terme qui est rarement interrogĂ© par les chercheurs. Cet ouvrage propose de retracer l’émergence, la naturalisation et la gĂ©nĂ©ralisation de la notion de « camĂ©ra » dans le contexte des jeux vidĂ©o. Pour ce faire, l’auteur propose de recomposer les variations conceptuelles du terme en reconstituant, par l’analyse qualitative, les diffĂ©rents cadrages sĂ©mantiques de cette notion tout en prĂȘtant une attention particuliĂšre Ă  son contexte d’utilisation et aux relations multiples qui lient les diffĂ©rents agents du champ culturel du jeu vidĂ©o qui en ont fait usage (joueurs, crĂ©ateurs, critiques, Ă©diteurs, etc.). Faire l’histoire de la notion de « camĂ©ra » nĂ©cessite en amont de questionner la relation qu’entretiennent cinĂ©ma et jeu vidĂ©o, et permet, en aval, d’envisager Ă  nouveau frais les termes employĂ©s pour analyser les rĂ©gimes de visibilitĂ© du jeu vidĂ©o, mais aussi de porter un regard neuf sur les productions hollywoodiennes des derniĂšres dĂ©cennies qui mobilisent la grammaire vidĂ©oludique, Ă  l’image de Tron et de son remake ou du rĂ©cent Ready Player One

    La Caméra imaginaire : Jeux vidéo et modes de visualisation

    Get PDF
    Cet ouvrage propose, dans un premier temps, de cartographier l’émergence, la naturalisation et la gĂ©nĂ©ralisation de cette notion dans le contexte des jeux vidĂ©o. Pour ce faire, Selim Krichane (Section d’histoire et esthĂ©tique du cinĂ©ma, l’un des fondateurs de l’UNIL Gamelab, groupe d’étude sur le jeu vidĂ©o de l’UniversitĂ© de Lausanne) retrace les variations conceptuelles du terme en reconstituant ses diffĂ©rents cadrages sĂ©mantiques. Dans un deuxiĂšme temps, l’auteur Ă©labore une grille d’analyse des modes de visualisation vidĂ©oludiques fondĂ©e sur l’analyse historique des termes employĂ©s pour dĂ©signer les images du jeu vidĂ©o (« camĂ©ra », « vue », « tableau », etc.). Finalement, c’est Ă  travers ses diverses retombĂ©es sur l’activitĂ© ludique que la notion est envisagĂ©e, dans la mesure oĂč la « camĂ©ra » fait de la vision de l’espace une mĂ©canique de jeu en soi, bouleversant l’expĂ©rience du joueur autant que la teneur des univers fictionnels et des rĂ©cits vidĂ©oludiques
    corecore