5 research outputs found
Tri de la table de faits et compression des index bitmaps avec alignement sur les mots
Bitmap indexes are frequently used to index multidimensional data. They rely
mostly on sequential input/output. Bitmaps can be compressed to reduce
input/output costs and minimize CPU usage. The most efficient compression
techniques are based on run-length encoding (RLE), such as Word-Aligned Hybrid
(WAH) compression. This type of compression accelerates logical operations
(AND, OR) over the bitmaps. However, run-length encoding is sensitive to the
order of the facts. Thus, we propose to sort the fact tables. We review
lexicographic, Gray-code, and block-wise sorting. We found that a lexicographic
sort improves compression--sometimes generating indexes twice as small--and
make indexes several times faster. While sorting takes time, this is partially
offset by the fact that it is faster to index a sorted table. Column order is
significant: it is generally preferable to put the columns having more distinct
values at the beginning. A block-wise sort is much less efficient than a full
sort. Moreover, we found that Gray-code sorting is not better than
lexicographic sorting when using word-aligned compression.Comment: to appear at BDA'0
Les index bitmap compressés
Les index bitmap sont trĂšs utilisĂ©s dans les moteurs de recherche et les bases de donnĂ©es pour accĂ©lĂ©rer les opĂ©rations de recherche. Leurs principaux avantages sont leur forme compacte et leur capacitĂ© Ă tirer profit du traitement parallĂšle de bits dans les CPU (bit-level parallelism). Lorsque employĂ©s sur des attributs de faibles cardinalitĂ©s, l'efficacitĂ© des index bitmaps en matiĂšre d'occupation d'espace mĂ©moire et de temps de traitements comparĂ© aux autres types d'index classiques, tels que l'arbre-B, est largement reconnue dans la littĂ©rature. Cependant, plus la cardinalitĂ© d'un attribut s'Ă©lĂšve plus la taille et les temps de traitements de son index bitmap augmentent jusqu'Ă consommer plus d'espaces mĂ©moires que les donnĂ©es indexĂ©es et d'importants temps de calculs. Afin de maintenir l'efficacitĂ© de ces solutions d'indexation dans ces conditions- lĂ , plusieurs chercheurs ont proposĂ© des travaux dans le but de rĂ©duire la taille et amĂ©liorer les temps de traitement de bitmaps indexant des attributs de larges cardinalitĂ©s. Les solutions proposĂ©es dans la littĂ©rature adressant cette problĂ©matique se divisent en trois catĂ©gories : le paquetage des bitmaps, l'encodage des bitmaps et la compression des bitmaps. Les contributions proposĂ©es dans cette thĂšse se classent parmi la troisiĂšme catĂ©gorie. AprĂšs avoir constatĂ© que la plupart des techniques de compression de bitmaps introduites ces 15 derniĂšres annĂ©es se basent sur le modĂšle de la solution WAH, qui combine une compression par plages de valeurs avec une reprĂ©sentation bitmap sous forme de chaĂźnes de bits alignĂ©es par mots CPU, cette thĂšse propose la technique Roaring bitmap, qui adopte un nouveau modĂšle pour compresser les bitmaps. Cette mĂ©thode discrĂ©tise l'espace des entiers reprĂ©sentĂ©s par un bitmap en des partitions de taille fixe, puis applique sur chacune une forme de compression appropriĂ©e selon la densitĂ© du groupe d'entiers. Des expĂ©riences ont Ă©tĂ© conduites pour comparer les performances temps-espace du nouveau modĂšle avec ceux de deux autres solutions de compression bitmap parmi les plus connues dans la littĂ©rature : WAH et Concise. Les rĂ©sultats ont montrĂ© que, sur des faibles densitĂ©s, la nouvelle mĂ©thode ne consomme que â 50% de l'espace mĂ©moire occupĂ© par Concise et â 25% de celui de WAH. Aussi, Roaring bitmap a pu accĂ©lĂ©rer les temps de calcul d'opĂ©rations logiques par rapport aux deux autres techniques sur tous les tests effectuĂ©s, en Ă©tant de 4 Ă 5 fois plus performant sur des donnĂ©es synthĂ©tiques, et jusqu'Ă 1100 fois plus rapide sur des donnĂ©es rĂ©elles. La librairie de Roaring bitmap et celles des autres solutions adoptant le modĂšle WAH qui sont disponibles au grand public ne supportent que des bitmaps d'au plus 232 (â 4 milliards) entrĂ©es. Avec l'avĂšnement du Big Data, le besoin d'indexer de trĂšs larges collections de donnĂ©es sur lesquelles de telles librairies se rĂ©vĂšlent impraticables est souvent rencontrĂ©. Les ingĂ©nieurs du moteur de recherche Apache Lucene ont rencontrĂ© ce problĂšme, et ont introduit la solution OpenBitSet, qui peut allouer des bitmaps avec jusqu'Ă 64 x 232 â 1 entrĂ©es. Cependant, cette solution reste simple et n'applique aucune forme de compression sur les bitmaps. La prĂ©sente thĂšse propose trois nouveaux modĂšles de compression bitmap basĂ©s sur le format de Roaring bitmap et qui peuvent indexer jusqu'Ă 264 entrĂ©es. Des expĂ©riences sur des donnĂ©es synthĂ©tiques comparant les performances des trois nouveaux modĂšles avec la solution d'Apache Lucene, OpenBitSet, et d'autres collections Java du paquetage Java.Util : ArrayList, LinkedList, HashSet et TreeSet, ont montrĂ© qu'OpenBitSet et les collections Java consomment, respectivement, jusqu'Ă â 300 millions de fois et â 1800 fois plus d'espaces mĂ©moire comparĂ©s aux trois nouveaux modĂšles. Ces derniers ont Ă©galement calculĂ© des intersections entre deux ensembles d'entiers, â 6 millions de fois, â 63 milles fois et â 6 fois plus rapidement par rapport Ă OpenBitSet, aux deux collections ArrayList et LinkedList, et aux deux structures HashSet et TreeSet, respectivement. En Ă©valuant les temps pour calculer l'union de deux ensembles d'entiers, les nouvelles mĂ©thodes ont Ă©tĂ© jusqu'Ă â 3 millions de fois plus performantes qu'OpenBitSet. Aussi, cette derniĂšre structure de donnĂ©es a Ă©tĂ© jusqu'Ă â 14 millions de fois plus lente pour insĂ©rer un entier gĂ©nĂ©rĂ© alĂ©atoirement que les trois solutions proposĂ©es. Afin de valider le format de la solution Roaring bitmap dans un SGBD rĂ©el, cette technique d'indexation a Ă©tĂ© intĂ©grĂ©e au moteur OLAP Druid. Ce systĂšme se base essentiellement sur des index bitmap compressĂ©s avec la technique Concise pour accĂ©lĂ©rer les temps de rĂ©ponse de requĂȘtes OLAP effectuant des analyses dĂ©taillĂ©es sur les donnĂ©es (drill-down). Des expĂ©riences sur des donnĂ©es rĂ©elles ont Ă©tĂ© rĂ©alisĂ©es pour Ă©valuer les performances de Roaring bitmap et de Concise au sein du SGBD Druid. Les rĂ©sultats ont montrĂ© que Roaring bitmap a amĂ©liorĂ© de â 2 fois les temps de rĂ©ponse de requĂȘtes d'agrĂ©gations et prĂšs de 5 fois le temps de traitements de requĂȘtes de recherche comparĂ© Ă la solution Concise.\ud
______________________________________________________________________________ \ud
MOTS-CLĂS DE LâAUTEUR : index bitmap, compression, performances, opĂ©rations logiques, structures de donnĂ©es
Histogram-Aware Sorting for Enhanced Word-Aligned Compression in Bitmap Indexes
Bitmap indexes must be compressed to reduce input/output costs and minimize
CPU usage. To accelerate logical operations (AND, OR, XOR) over bitmaps, we use
techniques based on run-length encoding (RLE), such as Word-Aligned Hybrid
(WAH) compression. These techniques are sensitive to the order of the rows: a
simple lexicographical sort can divide the index size by 9 and make indexes
several times faster. We investigate reordering heuristics based on computed
attribute-value histograms. Simply permuting the columns of the table based on
these histograms can increase the sorting efficiency by 40%.Comment: To appear in proceedings of DOLAP 200
La Caméra imaginaire
La notion de « camĂ©ra », empruntĂ©e au lexique cinĂ©matographique, est frĂ©quemment utilisĂ©e par les joueurs, les dĂ©veloppeurs ou encore les journalistes pour qualifier les dĂ©placements du point de vue dans les jeux vidĂ©o. En effet, le terme de « camĂ©ra » sâest gĂ©nĂ©ralisĂ© dans les discours portant sur le jeu vidĂ©o dĂšs les annĂ©es 1990 et constitue un exemple clĂ© des Ă©changes et des contaminations qui ont marquĂ© lâhistoire du jeu vidĂ©o, autant que lâhistoire rĂ©cente du cinĂ©ma hollywoodien. Si plusieurs travaux du jeune champ dâĂ©tudes des game studies (ou Ă©tudes du jeu vidĂ©o) se sont dĂ©jĂ penchĂ©s sur la « cinĂ©matographicitĂ© » des images vidĂ©oludiques, sur lâensemble des dynamiques dâemprunt et dâhybridation qui affectent les images du jeu vidĂ©o, lâhistoire du terme de « camĂ©ra » nâa jamais fait lâobjet dâune Ă©tude dĂ©taillĂ©e. Or, sa gĂ©nĂ©ralisation dans le domaine du jeu vidĂ©o fait de la « camĂ©ra » un facteur crucial des contaminations rĂ©ciproques qui ont marquĂ© ces deux industries culturelles dĂšs la fin du XXĂš siĂšcle. Son usage dans le contexte des game studies repose sur une connaissance partagĂ©e du terme qui est rarement interrogĂ© par les chercheurs. Cet ouvrage propose de retracer lâĂ©mergence, la naturalisation et la gĂ©nĂ©ralisation de la notion de « camĂ©ra » dans le contexte des jeux vidĂ©o. Pour ce faire, lâauteur propose de recomposer les variations conceptuelles du terme en reconstituant, par lâanalyse qualitative, les diffĂ©rents cadrages sĂ©mantiques de cette notion tout en prĂȘtant une attention particuliĂšre Ă son contexte dâutilisation et aux relations multiples qui lient les diffĂ©rents agents du champ culturel du jeu vidĂ©o qui en ont fait usage (joueurs, crĂ©ateurs, critiques, Ă©diteurs, etc.). Faire lâhistoire de la notion de « camĂ©ra » nĂ©cessite en amont de questionner la relation quâentretiennent cinĂ©ma et jeu vidĂ©o, et permet, en aval, dâenvisager Ă nouveau frais les termes employĂ©s pour analyser les rĂ©gimes de visibilitĂ© du jeu vidĂ©o, mais aussi de porter un regard neuf sur les productions hollywoodiennes des derniĂšres dĂ©cennies qui mobilisent la grammaire vidĂ©oludique, Ă lâimage de Tron et de son remake ou du rĂ©cent Ready Player One
La Caméra imaginaire : Jeux vidéo et modes de visualisation
Cet ouvrage propose, dans un premier temps, de cartographier lâĂ©mergence, la naturalisation et la gĂ©nĂ©ralisation de cette notion dans le contexte des jeux vidĂ©o. Pour ce faire, Selim Krichane (Section dâhistoire et esthĂ©tique du cinĂ©ma, lâun des fondateurs de lâUNIL Gamelab, groupe dâĂ©tude sur le jeu vidĂ©o de lâUniversitĂ© de Lausanne) retrace les variations conceptuelles du terme en reconstituant ses diffĂ©rents cadrages sĂ©mantiques. Dans un deuxiĂšme temps, lâauteur Ă©labore une grille dâanalyse des modes de visualisation vidĂ©oludiques fondĂ©e sur lâanalyse historique des termes employĂ©s pour dĂ©signer les images du jeu vidĂ©o (« camĂ©ra », « vue », « tableau », etc.).
Finalement, câest Ă travers ses diverses retombĂ©es sur lâactivitĂ© ludique que la notion est envisagĂ©e, dans la mesure oĂč la « camĂ©ra » fait de la vision de lâespace une mĂ©canique de jeu en soi, bouleversant lâexpĂ©rience du joueur autant que la teneur des univers fictionnels et des rĂ©cits vidĂ©oludiques