12 research outputs found

    Analyse en ligne (OLAP) de documents

    Get PDF
    Thèse également disponible sur le site de l'Université Paul Sabatier, Toulouse 3 : http://thesesups.ups-tlse.fr/160/Data warehouses and OLAP systems (On-Line Analytical Processing) provide methods and tools for enterprise information system data analysis. But only 20% of the data of a corporate information system may be processed with actual OLAP systems. The rest, namely 80%, i.e. documents, remains out of reach of OLAP systems due to the lack of adapted tools and processes. To solve this issue we propose a multidimensional conceptual model for representing analysis concepts. The model rests on a unique concept that models both analysis subjects as well as analysis axes. We define an aggregation function to aggregate textual data in order to obtain a summarised vision of the information extracted from documents. This function summarises a set of keywords into a smaller and more general set. We introduce a core of manipulation operators that allow the specification of analyses and their manipulation with the use of the concepts of the model. We associate a design process for the integration of data extracted from documents within an OLAP system that describes the phases for designing the conceptual schema, for analysing the document sources and for the loading process. In order to validate these propositions we have implemented a prototype.Les entrepôts de données et les systèmes d'analyse en ligne OLAP (On-Line Analytical Processing) fournissent des méthodes et des outils permettant l'analyse de données issues des systèmes d'information des entreprises. Mais, seules 20% des données d'un système d'information est constitué de données analysables par les systèmes OLAP actuels. Les 80% restant, constitués de documents, restent hors de portée de ces systèmes faute d'outils ou de méthodes adaptés. Pour répondre à cette problématique nous proposons un modèle conceptuel multidimensionnel pour représenter les concepts d'analyse. Ce modèle repose sur un unique concept, modélisant à la fois les sujets et les axes d'une analyse. Nous y associons une fonction pour agréger des données textuelles afin d'obtenir une vision synthétique des informations issues de documents. Cette fonction résume un ensemble de mots-clefs par un ensemble plus petit et plus général. Nous introduisons un noyau d'opérations élémentaires permettant la spécification d'analyses multidimensionnelles à partir des concepts du modèle ainsi que leur manipulation pour affiner une analyse. Nous proposons également une démarche pour l'intégration des données issues de documents, qui décrit les phases pour concevoir le schéma conceptuel multidimensionnel, l'analyse des sources de données ainsi que le processus d'alimentation. Enfin, pour valider notre proposition, nous présentons un prototype

    Les versions dans les bases de données orientées objet : modélisation et manipulation

    Get PDF
    This thesis concerns object oriented databases; it proposes solutions to model and manage databases integrating versions. The concept of version is needed in various application fields such as technical documentation management, computer aided design and software engineering. Versions permit notably to keep and manage the evolution of the real world entities handled in such fields. There are different ways for versioning. Some works chose to describe the global evolution of a database; they manage versions of the whole database or versions of a database subpart. Our study focuses on representing independently the evolution of each entity described in the database. On the one hand, we propose a conceptual model extended to the versioning of objects and classes. Composition and relationship links, whose semantics are refined by cardinalities, integrate versioning for complex entities. Such links, including versions, induce complex contraints for structural integrity. On the other hand, we propose a language to manage this kind of databases. Particularly, this language provide a SelectFromWhere-type querying which take into account the specificities of versions; a query can take the most of the different abstraction levels related to versions that is to say derivation forests, trees and versions. The model and the language are realized within a prototype. This prototype is an end-user interface which provides a graphical management of databases integrating versions.Cette thèse s'inscrit dans le domaine des bases de données orientées objet ; elle propose des solutions pour décrire et manipuler des bases de données intégrant des versions. Le concept de version est nécessaire dans de nombreux domaines d'application comme la gestion de documentations techniques, la conception assistée par ordinateur et le génie logiciel. Les versions permettent notamment de conserver et manipuler l'évolution des entités du monde réel gérées dans de tels domaines. Différentes gestions de versions sont possibles. Certains travaux gèrent des versions de base ou d'une partie de base pour décrire l'évolution globale d'une base de données ; notre étude s'intéresse, quant à elle, à la représentation de l'évolution de chaque entité décrite dans la base, de manière indépendante. Nous proposons, d'une part, un modèle conceptuel intégrant la gestion de versions d'objets et de classes. Les relations de composition et d'association, dont la sémantique est affinée à l'aide de cardinalités, intègrent les versions pour des entités complexes. De telles relations, incluant les versions, induisent des contraintes d'intégrité structurelle complexes, dont nous faisons l'étude. D'autre part, nous proposons un langage pour manipuler ce type de bases de données. Ce langage permet notamment une interrogation de type Select From Where qui prend en compte les spécificités liées aux versions ; les différents niveaux d'abstraction liés aux versions c'est-à-dire les forêts de dérivation, les arbres et les versions, peuvent être exploités lors d'une interrogation. Une réalisation du modèle et du langage est effectuée au sein d'un prototype. Ce prototype est une interface destinée à des utilisateurs occasionnels, en permettant de manipuler graphiquement une base de données intégrant des versions

    Modélisation des bases de données multidimensionnelles : analyse par fonctions d'agrégation multiples

    Get PDF
    Le résumé en français n'a pas été communiqué par l'auteur.Le résumé en anglais n'a pas été communiqué par l'auteur

    Modélisation des bases de données multidimensionnelles : analyse par fonctions d'agrégation multiples

    Get PDF
    Le résumé en français n'a pas été communiqué par l'auteur.Le résumé en anglais n'a pas été communiqué par l'auteur

    Modélisation intégratrice du traitement BigData

    Get PDF
    Nowadays, multiple actors of Internet technology are producing very large amounts of data. Sensors, social media or e-commerce, all generate real-time extending information based on the 3 Vs of Gartner: Volume, Velocity and Variety. In order to efficiently exploit this data, it is important to keep track of the dynamic aspect of their chronological evolution by means of two main approaches: the polymorphism, a dynamic model able to support type changes every second with a successful processing and second, the support of data volatility by means of an intelligent model taking in consideration key-data, salient and valuable at a specific moment without processing all volumes of history and up to date data.The primary goal of this study is to establish, based on these approaches, an integrative vision of data life cycle set on 3 steps, (1) data synthesis by selecting key-values of micro-data acquired by different data source operators, (2) data fusion by sorting and duplicating the selected key-values based on a de-normalization aspect in order to get a faster processing of data and (3) the data transformation into a specific format of map of maps of maps, via Hadoop in the standard MapReduce process, in order to define the related graph in applicative layer.In addition, this study is supported by a software prototype using the already described modeling tools, as a toolbox compared to an automatic programming software and allowing to create a customized processing chain of BigDataDans le monde d’aujourd’hui de multiples acteurs de la technologie numérique produisent des quantités infinies de données. Capteurs, réseaux sociaux ou e-commerce, ils génèrent tous de l’information qui s’incrémente en temps-réel selon les 3 V de Gartner : en Volume, en Vitesse et en Variabilité. Afin d’exploiter efficacement et durablement ces données, il est important de respecter la dynamicité de leur évolution chronologique au moyen de deux approches : le polymorphisme d’une part, au moyen d’un modèle dynamique capable de supporter le changement de type à chaque instant sans failles de traitement ; d’autre part le support de la volatilité par un modèle intelligent prenant en compte des données clé seulement interprétables à un instant « t », au lieu de traiter toute la volumétrie des données actuelle et historique.L’objectif premier de cette étude est de pouvoir établir au moyen de ces approches une vision intégratrice du cycle de vie des données qui s’établit selon 3 étapes, (1) la synthèse des données via la sélection des valeurs-clés des micro-données acquises par les différents opérateurs au niveau de la source, (2) la fusion en faisant le tri des valeurs-clés sélectionnées et les dupliquant suivant un aspect de dé-normalisation afin d’obtenir un traitement plus rapide des données et (3) la transformation en un format particulier de carte de cartes de cartes, via Hadoop dans le processus classique de MapReduce afin d’obtenir un graphe défini dans la couche applicative.Cette réflexion est en outre soutenue par un prototype logiciel mettant en oeuvre les opérateurs de modélisation sus-décrits et aboutissant à une boîte à outils de modélisation comparable à un AGL et, permettant une mise en place assistée d'un ou plusieurs traitements sur BigDat

    Intégration holistique et entreposage automatique des données ouvertes

    Get PDF
    Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations.Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un système décisionnel. Leur intégration et leur entreposage au sein du système décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problèmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problème d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modèle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations

    Gestion de la Mise à Jour de Données Géographiques Répliquées

    Get PDF
    Today, new technologies allow the development of communication networks where users can easily share information. A specific context where the exchange of data is essential is a military mission where users are distributed in several sites and must cooperate together. Spatial data are replicated at every site, and each one evolves in parallel according to the units needs and to local analysis. The updates must be regularly supplied to the other actors to ensure an efficient collaboration. Difficulties occur when users integrate these numerous evolutions in their personal dataset. In a more general way, our research concerns the update of a particular spatial dataset from multi sources of evolutions. These updates might be heterogeneous, having different quality depending on the manner they were acquired. Moreover they are not necessarily pertinent for the end user. But especially, they might be in conflict together and with user data. As a consequence, they might create inconsistencies at the integration step. To solve those points, we propose a strategy based on appropriate metadata that takes into account user requirements and aims to reconcile concurrent evolutions before the integration process. This protocol is divided into two important phases: the updating session and the concurrency control. To well apply this method, we have to first define a spatial data infrastructure and an ISO 19115 metadata profile.De nos jours, l'information géographique constitue une ressource incontournable dans un contexte de prise de décision et les données numériques spatiales sont de plus en plus fréquemment exploitées comme support et aide à la décision par de nombreuses organisations.L'institution militaire utilise elle aussi les données spatiales comme soutien et aide à la décision. A chaque étape d'une mission, des informations géographiques de tous types sont employées (données numériques, cartes papiers, photographies aériennes...) pour aider les unités dans leurs choix stratégiques. Par ailleurs, l'utilisation de réseaux de communication favorise le partage et l'échange des données spatiales entre producteurs et utilisateurs situés à des endroits différents. L'information n'est pas centralisée, les données sont répliquées sur chaque site et les utilisateurs peuvent ponctuellement être déconnectés du réseau, par exemple lorsqu'une unité mobile va faire des mesures sur le terrain.La problématique principale concerne donc la gestion dans un contexte militaire, d'une application collaborative permettant la mise à jour asynchrone et symétrique de données géographiques répliquées selon un protocole à cohérence faible optimiste. Cela nécessite de définir un modèle de cohérence approprié au contexte militaire, un mécanisme de détection des mises à jour conflictuelles lié au type de données manipulées et des procédures de réconciliation des écritures divergentes adaptées aux besoins des unités participant à la mission.L'analyse des travaux montre que plusieurs protocoles ont été définis dans les communautés systèmes (Cederqvist :2001 ; Kermarrec :2001) et bases de données (Oracle :2003 ; Seshadri :2000) pour gérer la réplication des données. Cependant, les solutions apportées sont souvent fonctions du besoin spécifique de l'application et ne sont donc pas réutilisables dans un contexte différent, ou supposent l'existence d'un serveur de référence centralisant les données. Les mécanismes employés en information géographique pour gérer les données et les mises à jour ne sont pas non plus appropriés à notre étude car ils supposent que les données soient verrouillées aux autres utilisateurs jusqu'à ce que les mises à jour aient été intégrée (approche check in-check out (ESRI :2004), ou utilisent un serveur centralisé contenant les données de référence (versionnement : Cellary :1990).Notre objectif est donc de proposer des solutions permettant l'intégration cohérente et autant que possible automatique, des mises à jour de données spatiales dans un environnement de réplication optimiste, multimaître et asynchrone.Nous proposons une stratégie globale d'intégration des mises à jour spatiales basée sur une vérification de la cohérence couplé à des sessions de mises à jour. L'originalité de cette stratégie réside dans le fait qu'elle s'appuie sur des métadonnées pour fournir des solutions de réconciliation adaptées au contexte particulier d'une mission militaire.La contribution de cette thèse est double. Premièrement, elle s'inscrit dans le domaine de la gestion de la mise à jour des données spatiales, domaine toujours très actif du fait de la complexité et de l'hétérogénéité des données (Nous limitons néanmoins notre étude aux données géographiques vectorielles) et de la relative «jeunesse » des travaux sur le sujet. Deuxièmement, elle s'inscrit dans le domaine de la gestion de la cohérence des données répliquées selon un protocole optimiste, en spécifiant en particulier, de nouveaux algorithmes pour la détection et la réconciliation de données conflictuelles, dans le domaine applicatif de l'information géographique

    Proposition de nouvelles fonctionnalités WikiSIG pour supporter le travail collaboratif en Geodesign

    Get PDF
    L’émergence du Web 2.0 se matérialise par de nouvelles technologies (API, Ajax…), de nouvelles pratiques (mashup, geotagging…) et de nouveaux outils (wiki, blog…). Il repose principalement sur le principe de participation et de collaboration. Dans cette dynamique, le Web à caractère spatial et cartographique c’est-à-dire, le Web géospatial (ou GéoWeb) connait lui aussi de fortes transformations technologiques et sociales. Le GéoWeb 2.0 participatif se matérialise en particulier par des mashups entre wikis et géobrowsers (ArgooMap, Geowiki, WikiMapia, etc.). Les nouvelles applications nées de ces mashups évoluent vers des formes plus interactives d’intelligence collective. Mais ces applications ne prennent pas en compte les spécificités du travail collaboratif, en particulier la gestion de traçabilité ou l’accès dynamique à l’historique des contributions. Le Geodesign est un nouveau domaine fruit de l’association des SIG et du design, permettant à une équipe multidisciplinaire de travailler ensemble. Compte tenu de son caractère émergent, le Geodesign n’est pas assez défini et il requiert une base théorique innovante, de nouveaux outils, supports, technologies et pratiques afin de s'adapter à ses exigences complexes. Nous proposons dans cette thèse de nouvelles fonctionnalités de type WikiSIG, bâties sur les principes et technologies du GéoWeb 2.0 et visant en particulier à supporter la dimension collaborative du processus de Geodesign. Le WikiSIG est doté de fonctionnalités wiki dédiées à la donnée géospatiale (y compris dans sa composante géométrique : forme et localisation) permettant d’assurer, de manière dynamique, la gestion documentée des versions des objets et l’accès à ces versions (et de leurs métadonnées), facilitant ainsi le travail collaboratif en Geodesign. Nous proposons également la deltification qui consiste en la capacité de comparer et d’afficher les différences entre deux versions de projets. Finalement la pertinence de quelques outils du géotraitement et « sketching » est évoquée. Les principales contributions de cette thèse sont d’une part d’identifier les besoins, les exigences et les contraintes du processus de Geodesign collaboratif, et d’autre part de proposer des nouvelles fonctionnalités WikiSIG répondant au mieux à la dimension collaborative du processus. Pour ce faire, un cadre théorique est dressé où nous avons identifié les exigences du travail collaboratif de Geodesign et proposé certaines fonctionnalités WikiSIG innovantes qui sont par la suite formalisés en diagrammes UML. Une maquette informatique est aussi développée de façon à mettre en oeuvre ces fonctionnalités, lesquelles sont illustrées à partir d’un cas d’étude simulé, traité comme preuve du concept. La pertinence de ces fonctionnalités développées proposées est finalement validée par des experts à travers un questionnaire et des entrevues. En résumé, nous montrons dans cette thèse l’importance de la gestion de la traçabilité et comment accéder dynamiquement à l’historique dans un processus de Geodesign. Nous proposons aussi d’autres fonctionnalités comme la deltification, le volet multimédia supportant l’argumentation, les paramètres qualifiant les données produites, et la prise de décision collective par consensus, etc.The emergence of Web 2.0 is materialized by new technologies (APIs, Ajax ...), by new practices (mashup, geotagging ...) and by new tools (wiki, blog ...). It is primarily based on the principle of participation and collaboration. In this dynamic, the web mapping with spatial character or simply called Geospatial Web (or Geoweb) evolves by strong technological and social changes. Participatory GeoWeb 2.0 is materialized in particular by mashups among wikis and géobrowsers (ArgooMap, Geowiki, WikiMapia, etc.). The new applications resulting from these mashups are moving towards more interactive forms of collective intelligence. However, these applications do not take into account the collaborative work or the traceability management or the dynamic access to the history of contributions. The Geodesign is a new area, which is the coupling between GIS and design, allowing a multidisciplinary team to work together. As it is an emergent term, the Geodesign has not be well defined and it requires innovative theoretical basis, new tools, media, technologies and practices to fit its complex requirements. We propose precisely in this thesis new features of WikiGIS, which is built on Web 2.0 technologies, and GeoWeb 2.0 aiming in particular to support the collaborative dimension of Geodesign process. The WikiGIS consists of wiki features for the geospatial data (including its geometric component: shape and location) to ensure, dynamically, the documented release management objects and access to these versions (and metadata), facilitating collaborative work on Geodesign. It aims to produce geographic information, while ensuring the quality and credibility of data created. We propose the “deltification” as one of the innovative features of WikiGIS, it is the ability to compare and display the differences between two versions of a project. Finally, the relevance of some geoprocessing and "sketching" tools is mentioned. The main contributions of the present thesis are firstly identifying the needs, requirements and constraints of collaborative Geodesign process, and secondly to offer new features of WikiSIG best meeting to the collaborative dimension of this process. For this, a theoretical framework is drawn up which we identified the requirements of the collaborative Geodesign process and we proposed some innovative features that are subsequently formalized by UML. A user mock-up is developed in order to show the WikiGIS features, which are illustrated on a simulated case study, treated as proof of concept. Finally, these concepts are ultimately validated by experts through a questionnaire and interviews. Briefly, we have amply demonstrated in this thesis the importance of traceability management and how to dynamically access in the historic of Geodesign process and we have proposed other features like deltification, multi-media component that supports the arguments, parameters describing the data produced, decision making by consensus, etc
    corecore