19 research outputs found

    Implantation Not Only SQL des bases de données multidimensionnelles

    Get PDF
    International audienceLes systèmes NoSQL (Not Only SQL) se développent notamment grâce à leur capacité à gérer facilement de grands volumes de données, et leur flexibilité en terme de type de données. Dans cet article, nous étudions l'implantation d'un entrepôt de données multidimensionnelles avec un système NoSQL orienté documents. Nous proposons des règles de transformation qui permettent de passer d'un modèle conceptuel multidimensionnel vers un modèle logique NoSQL orienté documents. Nous proposons trois types de transformation pour implanter les entrepôts de données multidimensionnelles. Nous expérimentons ces trois approches avec le système MongoDB, et étudions le chargement des données, les processus de transformation d'un type d'implantation à un autre ainsi que le pré-calcul d'agrégats inhérents aux entrepôts de données multidimensionnelles

    Entrepôts de données multidimensionnelles NoSQL

    Get PDF
    International audienceLes données des systèmes d'analyse en ligne (OLAP, On-Line Analytical Processing) sont traditionnellement gérées par des bases de données relationnelles. Malheureusement, il devient difficile de gérer des mégadonnées (de gros volumes de données, « Big Data »). Dans un tel contexte, comme alternative, les environnements « Not-Only SQL » (NoSQL) peuvent fournir un passage à l'échelle tout en gardant une certaine flexibilité pour un système OLAP. Nous définissons ainsi des règles pour convertir un schéma en étoile, ainsi que son optimisation, le treillis d'agrégats pré-calculés, en deux modèles logiques NoSQL : orienté-colonnes ou orienté-documents. En utilisant ces règles, nous implémentons et analysons deux systèmes décisionnels, un par modèle, avec MongoDB et HBase. Nous comparons ces derniers sur les phases de chargement des données (générées avec le benchmark TPC-DS), de calcul d'un treillis et d'interrogation

    SQL, NoSQL, NewSQL: stratégie de choix

    Get PDF
    Depuis les années 1980, les systèmes de gestion de bases de données relationnelles n'ont cessé de prendre de l'importance en regard des autres systèmes de gestion de données. Aujourd'hui, encore utilisés par la majorité des entreprises ils sont toujours appréciés pour leurs capacités à assurer une forte cohérence des données et garantir une fiabilité lors des transactions. Cependant, l'émergence des systèmes décisionnels et l'explosion des volumes de données à traiter ont conduit beaucoup de sociétés à dénormaliser leur modèle de données. Cette technique visant à regrouper l'information dans des agrégats a pour but d'optimiser les temps de réponses en rompant avec les trois formes normales si chères au SGBDR. Le Big data a conduit les grands acteurs de l'internet (Google, Facebook, et Amazon etc..) à développer puis adopter des technologies alternatives nommées NoSQL. Celles-ci leurs permettent de supporter une montée en charge horizontale tout en assurant une flexibilité du modèle de données. Dès lors, le NoSQL apparaît comme une solution à l'entreprise désirant gérer des montées en charges et des volumes importants. Cependant, cette technologie sacrifie à dessin la cohérence au bénéfice de la disponibilité. Dans ce modèle, les propriétés ACID sont souvent mises de côté pour la performance. En outre, la flexibilité offerte par le sans-schéma et l'abandon du SQL en font une technologie flexible et particulièrement appréciée des développeurs. Ils découvrent un SGBD où l'application devient maîtresse du schéma de la base de données. Plus d'interminables disputes avec un DBA qui impose un schéma non flexible de la base de données. La difficulté à gérer la faible cohérence des données pour les développeurs a conduit les grands ténors du web à développer le NewSQL. Ce nouveau SGBDR permet une scalabilité horizontale, une souplesse du schéma et une forte cohérence des données grâce à des transactions ACID. Le NewSQL est aussi jeune qu'il est plein de promesses. Il n'a pas le retour d'expérience des SGBDR et du NoSQL. Dans le document qui va suivre, sera cité les critères d'adoptions de chaque technologie. Ils seront mis ensemble à la fin dans un tableau de synthèse. Celui-ci pourra orienter la stratégie de choix d'une ou plusieurs d'entre elles

    BIG DATA EN ENTREPRISE : QUELLES STRATEGIES D’IMPLANTATION ?

    Get PDF
    Ces  dernières années, nous avons assisté à une croissance exponentielle dans le volume et la disponibilité des données. Ce fait résulte principalement de l'émergence d'une multitude de sources (ordinateurs, appareils mobiles, capteurs ou réseaux sociaux) qui produisent de manière continue des données structurées, semi-structurées ou non structurées. C’est l’ère du Big Data. Pour les entreprises, le Big Data constitue un nouveau défi puisqu’il implique de nouvelles exigences en termes de stockage de données, de traitement et de visualisation. L'analyse de ces données massives est d’une grande opportunité puisqu’elle permet de découvrir au sein de ces données des modèles et des corrélations originales. Cet article vise à apporter quelques éléments de réponse quant à la stratégie d’implantation du Big Data dans l’entreprise. Pour traiter cette question, nous rappelons l’évolution du processus d’informatisation des entreprises depuis les fameux mainframes jusqu’au Cloud Computing d’aujourd’hui. Ensuite, nous levons le voile sur le nouveau paradigme émergent du Big Data en termes de définitions, enjeux et défis. Enfin nous montrons que plusieurs stratégies d’adoption du Big Data sont possibles suivant l’existant en solutions analytiques et les besoins de l’entreprise

    Conception assistée d’entrepôts de données et de documents XML pour l’analyse OLAP

    Get PDF
    Aujourd’hui, les entrepôts de données constituent un enjeu majeur pour les applications décisionnelles au sein des entreprises. Les sources d’un entrepôt, c’est à dire l’origine des données qui l’alimentent, sont diverses et hétérogènes : fichiers séquentiels, feuilles de tableur, bases de données relationnelles, documents du Web. La complexité est telle que les logiciels du marché ne répondent que partiellement aux attentes des décideurs lorsque ceux-ci souhaitent analyser les données. Nos travaux s’inscrivent donc dans le contexte des systèmes décisionnels qui intègrent tous types de données (principalement extraites de bases de données relationnelles et de bases de documents XML) et qui sont destinés à des décideurs. Ils visent à proposer des modèles, des méthodes et des outils logiciels pour élaborer et manipuler des entrepôts de données. Nos travaux ont plus précisément porté sur deux problématiques complémentaires : l’élaboration assistée d’un entrepôt de données ainsi que la modélisation et l’analyse OLAP de documents XML.Today, data warehouses are a major issue for business intelligence applications within companies. Sources of a warehouse, i.e. the origin of data that feed, are diverse and heterogeneous sequential files, spreadsheets, relational databases, Web documents. The complexity is such that the software on the market only partially meets the needs of decision makers when they want to analyze the data. Therefore, our work is within the decision support systems context that integrate all data types (mainly extracted from relational databases and XML documents databases) for decision makers. They aim to provide models, methods and software tools to elaborate and manipulate data warehouses. Our work has specifically focused on two complementary issues: aided data warehouse and modeling and OLAP analysis of XML documents

    Conception assistée d'entrepôts de données et de documents XML pour l'analyse OLAP

    Get PDF
    Aujourd hui, les entrepôts de données constituent un enjeu majeur pour les applications décisionnelles au sein des entreprises. Les sources d un entrepôt, c est à dire l origine des données qui l alimentent, sont diverses et hétérogènes : fichiers séquentiels, feuilles de tableur, bases de données relationnelles, documents du Web. La complexité est telle que les logiciels du marché ne répondent que partiellement aux attentes des décideurs lorsque ceux-ci souhaitent analyser les données. Nos travaux s inscrivent donc dans le contexte des systèmes décisionnels qui intègrent tous types de données (principalement extraites de bases de données relationnelles et de bases de documents XML) et qui sont destinés à des décideurs. Ils visent à proposer des modèles, des méthodes et des outils logiciels pour élaborer et manipuler des entrepôts de données. Nos travaux ont plus précisément porté sur deux problématiques complémentaires : l élaboration assistée d un entrepôt de données ainsi que la modélisation et l analyse OLAP de documents XML.Today, data warehouses are a major issue for business intelligence applications within companies. Sources of a warehouse, i.e. the origin of data that feed, are diverse and heterogeneous sequential files, spreadsheets, relational databases, Web documents. The complexity is such that the software on the market only partially meets the needs of decision makers when they want to analyze the data. Therefore, our work is within the decision support systems context that integrate all data types (mainly extracted from relational databases and XML documents databases) for decision makers. They aim to provide models, methods and software tools to elaborate and manipulate data warehouses. Our work has specifically focused on two complementary issues: aided data warehouse and modeling and OLAP analysis of XML documents.TOULOUSE1-SCD-Bib. electronique (315559902) / SudocSudocFranceF

    Conception assistée d’entrepôts de données et de documents XML pour l’analyse OLAP

    Get PDF
    Aujourd’hui, les entrepôts de données constituent un enjeu majeur pour les applications décisionnelles au sein des entreprises. Les sources d’un entrepôt, c’est à dire l’origine des données qui l’alimentent, sont diverses et hétérogènes : fichiers séquentiels, feuilles de tableur, bases de données relationnelles, documents du Web. La complexité est telle que les logiciels du marché ne répondent que partiellement aux attentes des décideurs lorsque ceux-ci souhaitent analyser les données. Nos travaux s’inscrivent donc dans le contexte des systèmes décisionnels qui intègrent tous types de données (principalement extraites de bases de données relationnelles et de bases de documents XML) et qui sont destinés à des décideurs. Ils visent à proposer des modèles, des méthodes et des outils logiciels pour élaborer et manipuler des entrepôts de données. Nos travaux ont plus précisément porté sur deux problématiques complémentaires : l’élaboration assistée d’un entrepôt de données ainsi que la modélisation et l’analyse OLAP de documents XML.Today, data warehouses are a major issue for business intelligence applications within companies. Sources of a warehouse, i.e. the origin of data that feed, are diverse and heterogeneous sequential files, spreadsheets, relational databases, Web documents. The complexity is such that the software on the market only partially meets the needs of decision makers when they want to analyze the data. Therefore, our work is within the decision support systems context that integrate all data types (mainly extracted from relational databases and XML documents databases) for decision makers. They aim to provide models, methods and software tools to elaborate and manipulate data warehouses. Our work has specifically focused on two complementary issues: aided data warehouse and modeling and OLAP analysis of XML documents

    Intégration holistique et entreposage automatique des données ouvertes

    Get PDF
    Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations.Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un système décisionnel. Leur intégration et leur entreposage au sein du système décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problèmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problème d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modèle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations

    Une démarche de gestion stratégique et opérationnelle du changement dans le contexte de l'exploitation avancée de données massives internes aux organisations

    Get PDF
    L’objectif de ce mémoire est d’élaborer une démarche de gestion du changement destinée aux organisations qui souhaitent mettre en place les transformations nécessaires pour tirer parti des techniques d’exploitation avancée de données massives. Le domaine de transformation choisi dans le cadre de ce mémoire est l’exploitation des données internes à une organisation pour développer une maturité technologique et organisationnelle, notamment en ce qui concerne l’orientation-client de son modèle d’affaires. Cette évolution de maturité a pour but de suivre la transformation de la société actuelle, fortement influencée par le mouvement Big Data. La démarche proposée s’adresse à des organisations dont la maturité technologique et organisationnelle est éloignée de celle des compagnies leaders de cette transformation « digitale ». Nous proposons un cadre méthodologique stratégique et opérationnel permettant aux organisations d'effectuer les transformations de culture, d'organisation, de gestion et d'adoption de techniques pour se lancer dans l'exploitation avancée de leurs données internes qui sont en forts volumes et mal structurées. L'application pratique de notre cadre méthodologique est illustrée dans le cas d'une grande compagnie d'assurance canadienne sur une période de deux ans. Nous avons également réalisé un projet pilote de 9 mois visant à tester la phase de mise en oeuvre de la gestion stratégique du changement en exploitant les données-clients internes à cette compagnie d’assurance. Nous avons élaboré, raffiné et testé ces démarches en plusieurs itérations afin de proposer des méthodes détaillées, illustrées par des actions qui conduisent à des résultats concrets et qui mettent en évidence certains enjeux ou difficultés liés à l’adoption de ce type d’approches. À l’issu de notre projet, la démarche proposée a été adoptée par la compagnie à des fins d’opérationnalisation

    Approches algébriques pour la gestion et l'exploitation de partitions sur des jeux de données

    Get PDF
    The rise of data analysis methods in many growing contexts requires the design of new tools, enabling management and handling of extracted data. Summarization process is then often formalized through the use of set partitions whose handling depends on applicative context and inherent properties. Firstly, we suggest to model the management of aggregation query results over a data cube within the algebraic framework of the partition lattice. We highlight the value of such an approach with a view to minimize both required space and time to generate those results. We then deal with the consensus of partitions issue in which we emphasize challenges related to the lack of properties that rule partitions combination. The idea put forward is to deepen algebraic properties of the partition lattice for the purpose of strengthening its understanding and generating new consensus functions. As a conclusion, we propose the modelling and implementation of operators defined over generic partitions and we carry out some experiences allowing to assert the benefit of their conceptual and operational use.L’essor des méthodes d’analyse de données dans des contextes toujours plus variés nécessite la conception de nouveaux outils permettant la gestion et la manipulation des données extraites. La construction de résumés est alors couramment structurée sous la forme de partitions d’ensembles dont la manipulation dépend à la fois du contexte applicatif et de leurs propriétés algébriques. Dans un premier temps, nous proposons de modéliser la gestion des résultats de requêtes d’agrégation dans un cube OLAP à l’aide d’un calcul algébrique sur des partitions. Nous mettons en évidence l’intérêt d’une telle démarche par le gain de temps et d’espace observé pour produire ces résultats. Nous traitons par la suite le cas de la modélisation du consensus de partitions où nous soulignons les difficultés propres à sa construction en l’absence de propriétés qui régissent la combinaison des partitions. Nous proposons donc d’approfondir l’étude des propriétés algébriques de la structure du treillis des partitions, en vue d’en améliorer la compréhension et par conséquent de produire de nouvelles procédures pour l’élaboration du consensus. En guise de conclusion, nous proposons la modélisation et une mise en œuvre concrète d’opérateurs sur des partitions génériques et nous livrons diverses expériences, propres à souligner l’intérêt de leur usage conceptuel et opérationnel
    corecore