152 research outputs found

    OPTASSIST: A RELATIONAL DATA WAREHOUSE OPTIMIZATION ADVISOR

    Get PDF
    Data warehouses store large amounts of data usually accessed by complex decision making queries with many selection, join and aggregation operations. To optimize the performance of the data warehouse, the administrator has to make a physical design. During physical designphase, the Data Warehouse Administrator has to select some optimization techniques to speed up queries. He must make many choices as optimization techniques to perform,their selection algorithms, parametersof these algorithms and the attributes and tables used by some of these techniques. We describe in this paper the nature of the difficulties encountered by the administrator during physical design. We subsequently present a tool which helps the administrator to make the right choicesfor optimization. We demonstrate the interactive use of this tool using a relational data warehouse created and populated from the APB-1 Benchmark

    Impact of credibility on opinion analysis in social media

    Get PDF
    © 2018 IOS Press. All rights reserved. In conjunction with the rapid growth and adoption of social media, people are more and more willing to share their personal experiences and opinions about products and/or services with the community. Opinions could be the basis of developing systems that would advise future users on how to proceed with any purchase without risking any disappointment. Unfortunately, opinions are not always genuine due to for instance, biased users as well as mixed feedback coming from the same users (i.e., multi-identity). This paper presents an approach for opinion analysis using credibility as a decisive criterion for supporting future users make sound decisions. The effectiveness of this approach has been tested using opinions posted on Twitter

    Databases and Information Systems in the AI Era: Contributions from ADBIS, TPDL and EDA 2020 Workshops and Doctoral Consortium

    Get PDF
    Research on database and information technologies has been rapidly evolving over the last couple of years. This evolution was lead by three major forces: Big Data, AI and Connected World that open the door to innovative research directions and challenges, yet exploiting four main areas: (i) computational and storage resource modeling and organization; (ii) new programming models, (iii) processing power and (iv) new applications that emerge related to health, environment, education, Cultural Heritage, Banking, etc. The 24th East-European Conference on Advances in Databases and Information Systems (ADBIS 2020), the 24th International Conference on Theory and Practice of Digital Libraries (TPDL 2020) and the 16th Workshop on Business Intelligence and Big Data (EDA 2020), held during August 25–27, 2020, at Lyon, France, and associated satellite events aimed at covering some emerging issues related to database and information system research in these areas. The aim of this paper is to present such events, their motivations, and topics of interest, as well as briefly outline the papers selected for presentations. The selected papers will then be included in the remainder of this volume

    Data Warehousing Design and Advanced Engineering Applications: Methods for Complex Construction

    No full text
    International audienc

    Contributions à la conception et l’exploitation de systèmes d’intégration de données

    No full text
    With the development of the Internet and Intranets, it has become crucial to exchange and share an enormous quantity of information from various data sources scattered across the Web or within different organizations. To meet these needs, integration solutions have been proposed along three dimensions: data integration, application integration, and platform integration. The work presented in this thesis aims to propose innovative solutions for building a data integration system. A comprehensive approach to the development of an integration system is presented. It is structured around three main phases: building an integration system, operating it, and customizing it.For the construction phase, we have proposed an automatic semantic integration approach, while leaving each of the sources likely to be integrated with significant autonomy in terms of both its structure and its evolution. It assumes that each source contains both its own ontology and the semantic relations that link it a priori with one or more shared ontologies. Such a source is called an ontology-based data source (OBDS). To implement our integration approach, we first proposed a model and architecture for managing ontology-based data sources. This architecture is made up of four parts: the first two correspond to the usual database structure: data based on a logical data schema, and a meta-base describing the entire table structure. The other two, original parts, respectively represent ontologies and the ontology meta-model within a reflexive meta-model. Abstraction and naming mechanisms enable each piece of data to be associated with the ontological concept that defines its meaning, and data to be accessed from concepts, without having to worry about data representation.For the data exploitation phase, we presented solutions to provide administrators with query optimization structures. Since we have been working on this phase since 1996, we have proposed optimization solutions that can be applied to integration systems following an architecture materialized in the form of a traditional database or a relational data warehouse. We have identified two types of optimization structure selection: isolated selection and multiple selection. For isolated selection, we presented algorithms for horizontal fragmentation and join indexes. For multiple selection, we studied the problem of selecting binary join indexes and derived fragmentation by exploiting the similarities between them. Other problems are also presented, such as parallel processing and resource allocation between redundant structures (materialized views and indexes). To facilitate administration tasks, we have developed a tool to assist administrators in their tasks, which can be used before or after the creation of an integration system. Personalization is a recent phase in our work. We first studied its effect on the selection of optimization structures. Recently, we have proposed solutions for the representation of user profiles within a database.Personalization is a recent phase in our work. We first studied its effect on the selection of optimization structures. More recently, we have proposed solutions for representing user profiles within a BDBO to facilitate their sharing and exchange.Avec le développement d’Internet et des Intranets, l’échange et le partage de l’énorme quantité d’in- formations provenant de diverses sources de données éparpillées sur la Toile ou au sein de différentes organisations sont devenus cruciaux. Pour répondre à ces besoins, des solutions d’intégration ont été proposées selon trois dimensions : l’intégration des données, l’intégration des applications et l’intégration des plateformes. Le travail présenté dans ce mémoire vise à proposer des solutions innovantes au niveau de la construction d’un système d’intégration de données. Une démarche compréhensive de développement d’un système d’intégration est présentée. Elle s’articule autour de trois principales phases : la construction d’un système d’intégration, son exploitation et sa personnalisation.Pour la phase de construction, nous avons proposé une approche d’intégration sémantique automatique, tout en laissant à chacune des sources susceptibles d’être intégrer une autonomie significative tant au niveau de sa structure qu’au niveau de son évolution. Elle suppose que chaque source contienne à la fois sa propre ontologie et les relations sémantiques qui l’articulent a priori avec une ou plusieurs ontologie(s) partagé(s). Une telle source est appelée source de données à base ontologique (BDBO). Pour mettre en œuvre notre approche d’intégration, nous avons d’abord proposé un modèle et une architecture gérant les sources de données à base ontologique. Cette architecture est constituée de quatre parties : les deux premières parties correspondent à la structure usuelle des bases de données : données reposant sur un schéma logique de données, et méta-base décrivant l’ensemble de la structure de tables. Les deux autres parties, originales, représentent respectivement les ontologies et le méta-modèle d’ontologie au sein d’un méta-modèle réflexif. Des mécanismes d’abstraction et de nomination permettent respective- ment d’associer à chaque donnée le concept ontologique qui en définit le sens, et d’accéder aux données à partir des concepts, sans se préoccuper de la représentation des données.Pour la phase d’exploitation de données, nous avons présenté des solutions pour offrir aux administrateurs des structures d’optimisation de requêtes. Étant donné que nous menons des travaux sur cette phase depuis 1996, nous avons proposé des solutions d’optimisation qui peuvent être appliquées aux systèmes d’intégration suivant une architecture matérialisée sous forme d’une base de données traditionnelle ou d’un entrepôt de données relationnels. Nous avons identifié deux types de sélection des structures d’optimisation : une sélection isolée et une sélection multiple. Dans la sélection isolée, nous avons présenté des algorithmes pour la fragmentation horizontale et les index de jointure. Pour la sélection multiple, nous avons étudié le problème de sélection des index de jointure binaire et la fragmentation dérivée en exploitant les similarités entre elles. D’autres problèmes sont également présentés comme le traitement parallèle et la répartition des ressources entre les structures redondantes (les vues matérialisées et les index). Pour faciliter les tâches d’administration, nous avons développé un outil assistant les administrateurs dans leurs tâches pouvant être utilisé avant ou après la création de système d’intégration.La personnalisation est une phase récente de nos travaux. Nous avons d’abord étudié son effet sur la sélection des structures d’optimisation. Récemment, nous avons proposé des solutions permettant la représentation des profils utilisateurs au sein d’une BDBO afin de faciliter leur partage et leur échange

    Utilisation des vues matérialisées, des index et de la fragmentation dans la conception logique et physique d'un entrepôt de données

    No full text
    A data warehouse is a collection of subject-oriented, integrated, non-volatile, and historical data, organized to support a decision-support process. Typically, this process is carried out via OLAP (online analytical processing) queries. These queries are generally complex, containing numerous join and grouping operations and inducing very high response times. In this context, our work focuses on various techniques for improving the performance of data warehouses to best support queries. They address two levels of warehouse design: the logical and the physical. At the logical level, we suggest a methodology for fragmenting warehouse data structures. At the physical level, we are interested in (1) the definition and selection of join indexes in the presence of materialized views and (2) the distribution of disk space between materialized views and indexes. As far as indexing is concerned, we propose a new joint indexing technique called joint graph index. This type of index is specific to Relational OLAP (ROLAP) warehouses. They can be used on views, dimension tables, and fact tables. They considerably reduce query execution costs. A strategy for query execution in the presence of join graph indexes.We then formulate the problem of joint index selection in the presence of a disk space constraint and propose three optimal or near-optimal resolution algorithms (one exhaustive algorithm and two gluttonous algorithms). The problem of distributing disk space between materialized views and indexes has been posed fairly recently and few works have addressed it. In this dissertation, we formulate this problem in the static case (where all warehouse parameters are known a priori) and in the dynamic case (some warehouse parameters must be re-evaluated after update operations) and we propose a solution algorithm based on the interaction between two agents, one operating on behalf of views and the other on behalf of indexes. The benefits of fragmentation are well-known in relational databases. For warehouses, we justify that horizontal fragmentation appears more particularly appropriate and propose a horizontal fragmentation methodology for decomposing a star-shaped warehouse schema. We then show that fragmentation algorithms based solely on query access frequencies are not the most interesting. We suggest two new types of algorithms. The first type is driven by affinities between predicates and the second is driven by a cost model. For the latter category, we compare an exhaustive algorithm listing all fragmentation patterns with an approximate algorithm.Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour supporter un processus d'aide à la décision. Typiquement ce processus est mené par l'intermédiaire de requêtes de type OLAP (on-line analytical processing). Ces requêtes sont généralement complexes car elles contiennent de nombreuses opérations de jointure et de regroupement et induisent des temps de réponse très élevés. Dans ce contexte, nos travaux s'intéressent à diverses techniques d'amélioration des performances des entrepôts de données pour favoriser au mieux les requêtes. Ils interpellent deux niveaux de la conception des entrepôts : le niveau logique et le niveau physique. Au niveau logique, nous suggérons une méthodologie de fragmentation des structures de données de l'entrepôt. Au niveau physique, nous nous intéressons (1) a la définition et a la sélection d'index de jointure en présence des vues matérialisées et (2) a la distribution de l'espace disque entre les vues matérialisées et les index. En ce qui concerne l'indexation, nous proposons une nouvelle technique d'indexation de jointure appelée index de graphe de jointure. Ce type d'index est spécifique aux entrepôts de type ROLAP (Relational OLAP). Ils peuvent être utilises sur les vues, les tables de dimensions et la table des faits. Ils permettent de réduire considérablement le cout d'exécution des requêtes. Une stratégie d'exécution des requêtes en présence des index de graphe de jointure est décrite, et un modèle de cout évaluant le cout d'exécution d'un ensemble de requêtes est développé. Nous formulons ensuite le problème de sélection d'index de jointure en présence d'une contrainte d'espace disque et nous proposons trois algorithmes de résolution optimaux ou quasi-optimaux (un algorithme exhaustif et deux algorithmes gloutons). Le problème de la distribution de l'espace disque entre les vues matérialisées et les index a été pose assez récemment et peu de travaux l'ont interpellé. Dans ce mémoire, nous formulons ce problème dans le cas statique (ou tous les paramétrés de l'entrepôt sont connus a priori) et dans le cas dynamique (certains des paramétrés de l'entrepôt doivent être réévalués après les opérations de mises à jour) et nous proposons un algorithme approche de résolution base sur l'interaction entre deux agents, l'un opérant pour le compte des vues et l'autre pour le compte des index. L'intérêt de la fragmentation est bien connu dans les bases de données relationnelles. Pour les entrepôts, nous justifions que la fragmentation horizontale apparait plus spécialement appropriée et nous proposons une méthodologie de fragmentation horizontale pour décomposer un schéma d'entrepôt en étoile. Nous montrons ensuite que les algorithmes de fragmentation bases uniquement sur les fréquences d'accès des requêtes ne sont pas les plus intéressants. Nous suggérons deux nouveaux types d'algorithmes. Le premier type est dirigé par les affinités entre prédicats et le deuxième est dirigé par un modèle de coût. Pour cette dernière catégorie nous comparons un algorithme exhaustif recensant tous les schémas de fragmentation et un algorithme approximatif

    Utilisation des vues matérialisées, des index et de la fragmentation dans la conception logique et physique d'un entrepôt de données

    No full text
    A data warehouse is a collection of subject-oriented, integrated, non-volatile, and historical data, organized to support a decision-support process. Typically, this process is carried out via OLAP (online analytical processing) queries. These queries are generally complex, containing numerous join and grouping operations and inducing very high response times. In this context, our work focuses on various techniques for improving the performance of data warehouses to best support queries. They address two levels of warehouse design: the logical and the physical. At the logical level, we suggest a methodology for fragmenting warehouse data structures. At the physical level, we are interested in (1) the definition and selection of join indexes in the presence of materialized views and (2) the distribution of disk space between materialized views and indexes. As far as indexing is concerned, we propose a new joint indexing technique called joint graph index. This type of index is specific to Relational OLAP (ROLAP) warehouses. They can be used on views, dimension tables, and fact tables. They considerably reduce query execution costs. A strategy for query execution in the presence of join graph indexes.We then formulate the problem of joint index selection in the presence of a disk space constraint and propose three optimal or near-optimal resolution algorithms (one exhaustive algorithm and two gluttonous algorithms). The problem of distributing disk space between materialized views and indexes has been posed fairly recently and few works have addressed it. In this dissertation, we formulate this problem in the static case (where all warehouse parameters are known a priori) and in the dynamic case (some warehouse parameters must be re-evaluated after update operations) and we propose a solution algorithm based on the interaction between two agents, one operating on behalf of views and the other on behalf of indexes. The benefits of fragmentation are well-known in relational databases. For warehouses, we justify that horizontal fragmentation appears more particularly appropriate and propose a horizontal fragmentation methodology for decomposing a star-shaped warehouse schema. We then show that fragmentation algorithms based solely on query access frequencies are not the most interesting. We suggest two new types of algorithms. The first type is driven by affinities between predicates and the second is driven by a cost model. For the latter category, we compare an exhaustive algorithm listing all fragmentation patterns with an approximate algorithm.Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour supporter un processus d'aide à la décision. Typiquement ce processus est mené par l'intermédiaire de requêtes de type OLAP (on-line analytical processing). Ces requêtes sont généralement complexes car elles contiennent de nombreuses opérations de jointure et de regroupement et induisent des temps de réponse très élevés. Dans ce contexte, nos travaux s'intéressent à diverses techniques d'amélioration des performances des entrepôts de données pour favoriser au mieux les requêtes. Ils interpellent deux niveaux de la conception des entrepôts : le niveau logique et le niveau physique. Au niveau logique, nous suggérons une méthodologie de fragmentation des structures de données de l'entrepôt. Au niveau physique, nous nous intéressons (1) a la définition et a la sélection d'index de jointure en présence des vues matérialisées et (2) a la distribution de l'espace disque entre les vues matérialisées et les index. En ce qui concerne l'indexation, nous proposons une nouvelle technique d'indexation de jointure appelée index de graphe de jointure. Ce type d'index est spécifique aux entrepôts de type ROLAP (Relational OLAP). Ils peuvent être utilises sur les vues, les tables de dimensions et la table des faits. Ils permettent de réduire considérablement le cout d'exécution des requêtes. Une stratégie d'exécution des requêtes en présence des index de graphe de jointure est décrite, et un modèle de cout évaluant le cout d'exécution d'un ensemble de requêtes est développé. Nous formulons ensuite le problème de sélection d'index de jointure en présence d'une contrainte d'espace disque et nous proposons trois algorithmes de résolution optimaux ou quasi-optimaux (un algorithme exhaustif et deux algorithmes gloutons). Le problème de la distribution de l'espace disque entre les vues matérialisées et les index a été pose assez récemment et peu de travaux l'ont interpellé. Dans ce mémoire, nous formulons ce problème dans le cas statique (ou tous les paramétrés de l'entrepôt sont connus a priori) et dans le cas dynamique (certains des paramétrés de l'entrepôt doivent être réévalués après les opérations de mises à jour) et nous proposons un algorithme approche de résolution base sur l'interaction entre deux agents, l'un opérant pour le compte des vues et l'autre pour le compte des index. L'intérêt de la fragmentation est bien connu dans les bases de données relationnelles. Pour les entrepôts, nous justifions que la fragmentation horizontale apparait plus spécialement appropriée et nous proposons une méthodologie de fragmentation horizontale pour décomposer un schéma d'entrepôt en étoile. Nous montrons ensuite que les algorithmes de fragmentation bases uniquement sur les fréquences d'accès des requêtes ne sont pas les plus intéressants. Nous suggérons deux nouveaux types d'algorithmes. Le premier type est dirigé par les affinités entre prédicats et le deuxième est dirigé par un modèle de coût. Pour cette dernière catégorie nous comparons un algorithme exhaustif recensant tous les schémas de fragmentation et un algorithme approximatif

    LOD for Data Warehouses: Managing the Ecosystem Co-Evolution

    No full text
    For more than 30 years, data warehouses (DWs) have attracted particular interest both in practice and in research. This success is explained by their ability to adapt to their evolving environment. One of the last challenges for DWs is their ability to open their frontiers to external data sources in addition to internal sources. The development of linked open data (LOD) as external sources is an excellent opportunity to create added value and enrich the analytical capabilities of DWs. However, the incorporation of LOD in the DW must be accompanied by careful management. In this paper, we are interested in managing the evolution of DW systems integrating internal and external LOD datasets. The particularity of LOD is that they contribute to evolving the DW at several levels: (i) source level, (ii) DW schema level, and (iii) DW design-cycle constructs. In this context, we have to ensure this co-evolution, as conventional evolution approaches are adapted neither to this new kind of source nor to semantic constructs underlying LOD sources. One way of tackling this co-evolution issue is to ensure the traceability of DW constructs for the whole design cycle. Our approach is tested using: the LUBM (Lehigh University BenchMark), different LOD datasets (DBepedia, YAGO, etc.), and Oracle 12c database management system (DBMS) used for the DW deployment
    • …
    corecore