3 research outputs found
Modélisation intégratrice du traitement BigData
Nowadays, multiple actors of Internet technology are producing very large amounts of data. Sensors, social media or e-commerce, all generate real-time extending information based on the 3 Vs of Gartner: Volume, Velocity and Variety. In order to efficiently exploit this data, it is important to keep track of the dynamic aspect of their chronological evolution by means of two main approaches: the polymorphism, a dynamic model able to support type changes every second with a successful processing and second, the support of data volatility by means of an intelligent model taking in consideration key-data, salient and valuable at a specific moment without processing all volumes of history and up to date data.The primary goal of this study is to establish, based on these approaches, an integrative vision of data life cycle set on 3 steps, (1) data synthesis by selecting key-values of micro-data acquired by different data source operators, (2) data fusion by sorting and duplicating the selected key-values based on a de-normalization aspect in order to get a faster processing of data and (3) the data transformation into a specific format of map of maps of maps, via Hadoop in the standard MapReduce process, in order to define the related graph in applicative layer.In addition, this study is supported by a software prototype using the already described modeling tools, as a toolbox compared to an automatic programming software and allowing to create a customized processing chain of BigDataDans le monde d’aujourd’hui de multiples acteurs de la technologie numérique produisent des quantités infinies de données. Capteurs, réseaux sociaux ou e-commerce, ils génèrent tous de l’information qui s’incrémente en temps-réel selon les 3 V de Gartner : en Volume, en Vitesse et en Variabilité. Afin d’exploiter efficacement et durablement ces données, il est important de respecter la dynamicité de leur évolution chronologique au moyen de deux approches : le polymorphisme d’une part, au moyen d’un modèle dynamique capable de supporter le changement de type à chaque instant sans failles de traitement ; d’autre part le support de la volatilité par un modèle intelligent prenant en compte des données clé seulement interprétables à un instant « t », au lieu de traiter toute la volumétrie des données actuelle et historique.L’objectif premier de cette étude est de pouvoir établir au moyen de ces approches une vision intégratrice du cycle de vie des données qui s’établit selon 3 étapes, (1) la synthèse des données via la sélection des valeurs-clés des micro-données acquises par les différents opérateurs au niveau de la source, (2) la fusion en faisant le tri des valeurs-clés sélectionnées et les dupliquant suivant un aspect de dé-normalisation afin d’obtenir un traitement plus rapide des données et (3) la transformation en un format particulier de carte de cartes de cartes, via Hadoop dans le processus classique de MapReduce afin d’obtenir un graphe défini dans la couche applicative.Cette réflexion est en outre soutenue par un prototype logiciel mettant en oeuvre les opérateurs de modélisation sus-décrits et aboutissant à une boîte à outils de modélisation comparable à un AGL et, permettant une mise en place assistée d'un ou plusieurs traitements sur BigDat
CONCEPTION ET MANIPULATION DE BASES DE DONNEES DIMENSIONNELLES À CONTRAINTES
This thesis defines a constraint-based model dedicated to multidimensional databases. The defined model represents data through a constellation of facts (subjects of analyse) associated to dimensions (axis of analyse), which are possibly shared. Each dimension is organised according to several hierarchies (views of analyse) integrating several levels of data granularity. In order to insure data consistency, 5 semantic constraints (exclusion, inclusion, partition, simultaneity, totality) are introduced, which can be intra-dimension or inter-dimensions. The intra-dimension constraints allow the expression of constraints between hierarchies within a same dimension whereas the inter-dimensions constraints focus on hierarchies of distinct dimensions. The repercussions of these constraints on multidimensional manipulations are studied and OLAP operator extensions are provided.L'accroissement du volume de données dans les systèmes d'information est de nos jours une réalité à laquelle chaque entreprise doit faire face. Notamment, elle doit permettre à ses responsables de déceler les informations pertinentes afin de prendre les bonnes décisions dans les plus brefs délais. Les systèmes décisionnels répondent à ces besoins en proposant des modèles et des techniques de manipulation des données. Dans le cadre de ces systèmes, mes travaux de thèse consistent à étudier la modélisation des données décisionnelles et à proposer un langage de manipulation adapté. Dans un premier temps, nous proposons un modèle dimensionnel organisant les données en une constellation de faits (sujets d'analyse) associés à des dimensions (axes d'analyse) pouvant être partagées. Notre modèle assure une plus grande cohérence des données par sa propriété de multi instanciations qui permet de spécifier des conditions d'appartenance des instances des dimensions aux hiérarchies. De plus, nous avons défini des contraintes exprimant des relations sémantiques entre les hiérarchies intra et inter dimensions (Inclusion, Exclusion, Totalité, Partition, Simultanéité). Au niveau de la manipulation des données, nous avons redéfini les opérateurs dimensionnels afin de permettre à l'utilisateur de mieux définir ses besoins en précisant l'ensemble des instances à analyser. Cette extension a permis d'éviter les incohérences lors de la manipulation des données dimensionnelles. Nous avons étudié également l'impact de ces contraintes sur l'optimisation des manipulations basée sur la technique de matérialisation des vues. La prise en compte des contraintes sémantiques a permis de supprimer des vues incohérentes et de réduire le nombre de vues candidates à la matérialisation. Dans un second temps, nous proposons un processus de conception d'un schéma dimensionnel comportant une démarche descendante, basée sur les besoins des décideurs, et une démarche ascendante basée sur les données sources. Une phase de confrontation, permet d'intégrer les résultats des deux démarches pour obtenir un schéma dimensionnel en constellation intégrant à la fois les besoins des décideurs et les données sources. Afin de valider nos propositions, nous avons développé un outil d'aide à la conception de schémas dimensionnels contraints intitulé GMAG (Générateur de MAGasin de données dimensionnelles)
Modélisation et manipulation d'entrepôts de données complexes et historisées
Le mémoire de cette thèse traite de la modélisation conceptuelle et de la manipulation des données (par des algèbres) dans les systèmes d'aide à la décision. Notre thèse repose sur la dichotomie de deux espaces de stockage : l'entrepôt de données regroupe les extraits des bases sources utiles pour les décideurs et les magasins de données sont déduits de l'entrepôt et dédiés à un besoin d'analyse particulier.Au niveau de l'entrepôt, nous définissons un modèle de données permettant de décrire l'évolution temporelle des objets complexes. Dans notre proposition, l'objet entrepôt intègre des états courants, passés et archivés modélisant les données décisionnelles et leurs évolutions. L'extension du concept d'objet engendre une extension du concept de classe. Cette extension est composée de filtres (temporels et d'archives) pour construire les états passés et archivés ainsi que d'une fonction de construction modélisant le processus d'extraction (origine source). Nous introduisons également le concept d'environnement qui définit des parties temporelles cohérentes de tailles adaptées aux exigences des décideurs. La manipulation des données est une extension des algèbres objet prenant en compte les caractéristiques du modèle de représentation de l'entrepôt. L'extension se situe au niveau des opérateurs temporels et des opérateurs de manipulation des ensembles d'états.Au niveau des magasins, nous définissons un modèle de données multidimensionnelles permettant de représenter l'information en une constellation de faits ainsi que de dimensions munies de hiérarchies multiples. La manipulation des données s'appuie sur une algèbre englobant l'ensemble des opérations multidimensionnelles et offrant des opérations spécifiques à notre modèle. Nous proposons une démarche d'élaboration des magasins à partir de l'entrepôt.Pour valider nos propositions, nous présentons le logiciel GEDOOH (Générateur d'Entrepôts de Données Orientées Objet et Historisées) d'aide à la conception et à la création des entrepôts dans le cadre de l'application médicale REANIMATIC