29 research outputs found

    Gestion de flux de données pour l'observation de systèmes

    Get PDF
    La popularisation de la technologie a permis d'implanter des dispositifs et des applications de plus en plus développés à la portée d'utilisateurs non experts. Ces systèmes produisent des flux ainsi que des données persistantes dont les schémas et les dynamiques sont hétérogènes. Cette thèse s'intéresse à pouvoir observer les données de ces systèmes pour aider à les comprendre et à les diagnostiquer. Nous proposons tout d'abord un modèle algébrique Astral capable de traiter sans ambiguïtés sémantiques des données provenant de flux ou relations. Le moteur d'exécution Astronef a été développé sur l'architecture à composants orientés services pour permettre une grande adaptabilité. Il est doté d'un constructeur de requête permettant de choisir un plan d'exécution efficace. Son extension Asteroid permet de s'interfacer avec un SGBD pour gérer des données persistantes de manière intégrée. Nos contributions sont confrontées à la pratique par la mise en œuvre d'un système d'observation du réseau domestique ainsi que par l'étude des performances. Enfin, nous nous sommes intéressés à la mise en place de la personnalisation des résultats dans notre système par l'introduction d'un modèle de préférences top-k.Due to the popularization of technology, non-expert people can now use more and more advanced devices and applications. Such systems produce data streams as well as persistent data with heterogeneous schemas and dynamics. This thesis is focused on monitoring data coming from those systems to help users to understand and to perform diagnosis on them. We propose an algebraic model Astral able to treat data coming from streams or relations without semantic ambiguity. The engine Astronef has been developed on top of a service-oriented component framework to enable a large adaptability. It embeds a query builder which can select a composition of components to provide an efficient query plan. Its extension Asteroid interfaces with a DBMS in order to manage persistent data in an integrated manner. Our contributions have been confronted to practice with the deployment of a monitoring system for the digital home and with a performance study. Finally, we extend our approach with an operator to personalize the results by introducing a top-k preference model.SAVOIE-SCD - Bib.électronique (730659901) / SudocGRENOBLE1/INP-Bib.électronique (384210012) / SudocGRENOBLE2/3-Bib.électronique (384219901) / SudocSudocFranceF

    Gestion de flux de données pour l'observation de systèmes

    No full text
    Due to the popularization of technology, non-expert people can now use more and more advanced devices and applications. Such systems produce data streams as well as persistent data with heterogeneous schemas and dynamics. This thesis is focused on monitoring data coming from those systems to help users to understand and to perform diagnosis on them. We propose an algebraic model Astral able to treat data coming from streams or relations without semantic ambiguity. The engine Astronef has been developed on top of a service-oriented component framework to enable a large adaptability. It embeds a query builder which can select a composition of components to provide an efficient query plan. Its extension Asteroid interfaces with a DBMS in order to manage persistent data in an integrated manner. Our contributions have been confronted to practice with the deployment of a monitoring system for the digital home and with a performance study. Finally, we extend our approach with an operator to personalize the results by introducing a top-k preference model.La popularisation de la technologie a permis d'implanter des dispositifs et des applications de plus en plus développés à la portée d'utilisateurs non experts. Ces systèmes produisent des flux ainsi que des données persistantes dont les schémas et les dynamiques sont hétérogènes. Cette thèse s'intéresse à pouvoir observer les données de ces systèmes pour aider à les comprendre et à les diagnostiquer. Nous proposons tout d'abord un modèle algébrique Astral capable de traiter sans ambiguïtés sémantiques des données provenant de flux ou relations. Le moteur d'exécution Astronef a été développé sur l'architecture à composants orientés services pour permettre une grande adaptabilité. Il est doté d'un constructeur de requête permettant de choisir un plan d'exécution efficace. Son extension Asteroid permet de s'interfacer avec un SGBD pour gérer des données persistantes de manière intégrée. Nos contributions sont confrontées à la pratique par la mise en œuvre d'un système d'observation du réseau domestique ainsi que par l'étude des performances. Enfin, nous nous sommes intéressés à la mise en place de la personnalisation des résultats dans notre système par l'introduction d'un modèle de préférences top-k

    Modèles Relationnels Probabilistes et Incertitude de Références: Apprentissage de structure avec algorithmes de partitionnement

    Get PDF
    We are surrounded by heterogeneous and interdependent data. The i.i.d. assumption has shown its limits in the algorithms considering tabular datasets, containing individuals with same data domain and without mutual influence on each other. Statistical relational learning aims at representing knowledge, reasoning, and learning in multi-relational datasets with uncertainty and lifted probabilistic graphical models offer a solution for generative learning in this context. We study in this thesis a type of directed lifted graphical model, called probabilistic relational models, in the context of reference uncertainty, i.e. where dataset’s individuals can have uncertainty over both their internal attributes description and their external memberships in associations with others, having the particularity of relying on individuals partitioning functions in order to find out general knowledge. We show existing models’ limits for learning in this context and propose extensions allowing to use relational clustering methods, more adequate for the problem, and offering a less constrained representation bias permitting extra knowledge discovery, especially between associations types in the relational data domain.Nous sommes entourés de données hétérogènes et interdépendantes. L’hypothèse i.i.d. a montré ses limites dans les algorithmes considérant des jeux de données tabulaires, constitués d’individus dotés du même domaine de définition et sans influence mutuelle. L’apprentissage relationnel statistique a pour objectif la représentation de connaissances, le raisonnement et l’apprentissage dans des contextes de jeux de données multi relationnels avec incertitude et les modèles graphiques probabilistes de second ordre sont une solution pour l’apprentissage génératif dans ce contexte. Nous étudions dans cette thèse un type de modèles graphiques probabilistes de second ordre dirigés, appelés modèles relationnels probabilistes, dans un contexte d’incertitude de références, c.-à-d. où les individus d’un jeu de données peuvent présenter à la fois une incertitude sur la valeurs de leurs attributs descriptifs, et sur leurs implications dans des associations avec d’autres individus, et ayant la particularité de s’appuyer sur des fonctions de partitionnement des individus pour découvrir des connaissances générales. Nous présentons les limites des modèles existant pour l’apprentissage dans ce contexte et proposons des extensions présentant l’intérêt de pouvoir utiliser des méthodes de partitionnement relationnel, plus adaptées au problème, et proposant un biais de représentation simplifié autorisant la découverte de connaissances supplémentaires, notamment entre les différents types d’association du domaine de définition relationnel

    Modèles Relationnels Probabilistes et Incertitude de Références: Apprentissage de structure avec algorithmes de partitionnement

    Get PDF
    We are surrounded by heterogeneous and interdependent data. The i.i.d. assumption has shown its limits in the algorithms considering tabular datasets, containing individuals with same data domain and without mutual influence on each other. Statistical relational learning aims at representing knowledge, reasoning, and learning in multi-relational datasets with uncertainty and lifted probabilistic graphical models offer a solution for generative learning in this context. We study in this thesis a type of directed lifted graphical model, called probabilistic relational models, in the context of reference uncertainty, i.e. where dataset’s individuals can have uncertainty over both their internal attributes description and their external memberships in associations with others, having the particularity of relying on individuals partitioning functions in order to find out general knowledge. We show existing models’ limits for learning in this context and propose extensions allowing to use relational clustering methods, more adequate for the problem, and offering a less constrained representation bias permitting extra knowledge discovery, especially between associations types in the relational data domain.Nous sommes entourés de données hétérogènes et interdépendantes. L’hypothèse i.i.d. a montré ses limites dans les algorithmes considérant des jeux de données tabulaires, constitués d’individus dotés du même domaine de définition et sans influence mutuelle. L’apprentissage relationnel statistique a pour objectif la représentation de connaissances, le raisonnement et l’apprentissage dans des contextes de jeux de données multi relationnels avec incertitude et les modèles graphiques probabilistes de second ordre sont une solution pour l’apprentissage génératif dans ce contexte. Nous étudions dans cette thèse un type de modèles graphiques probabilistes de second ordre dirigés, appelés modèles relationnels probabilistes, dans un contexte d’incertitude de références, c.-à-d. où les individus d’un jeu de données peuvent présenter à la fois une incertitude sur la valeurs de leurs attributs descriptifs, et sur leurs implications dans des associations avec d’autres individus, et ayant la particularité de s’appuyer sur des fonctions de partitionnement des individus pour découvrir des connaissances générales. Nous présentons les limites des modèles existant pour l’apprentissage dans ce contexte et proposons des extensions présentant l’intérêt de pouvoir utiliser des méthodes de partitionnement relationnel, plus adaptées au problème, et proposant un biais de représentation simplifié autorisant la découverte de connaissances supplémentaires, notamment entre les différents types d’association du domaine de définition relationnel

    Localisation de sources de données et optimisation de requêtes réparties en environnement pair-à-pair

    Get PDF
    Malgré leur succès dans le domaine du partage de fichiers, les systèmes P2P sont capables d'évaluer uniquement des requêtes simples basées sur la recherche d'un fichier en utilisant son nom. Récemment, plusieurs travaux de recherche sont effectués afin d'étendre ces systèmes pour qu'ils permettent le partage de données avec une granularité fine (i.e. un attribut atomique) et l'évaluation de requêtes complexes (i.e. requêtes SQL). A cause des caractéristiques des systèmes P2P (e.g. grande-échelle, instabilité et autonomie de nœuds), il n'est pas pratique d'avoir un catalogue global qui contient souvent des informations sur: les schémas, les données et les hôtes des sources de données. L'absence d'un catalogue global rend plus difficiles: (i) la localisation de sources de données en prenant en compte l'hétérogénéité de schémas et (ii) l'optimisation de requêtes. Dans notre thèse, nous proposons une approche pour l'évaluation des requêtes SQL en environnement P2P. Notre approche est fondée sur une ontologie de domaine et sur des formules de similarité pour résoudre l'hétérogénéité sémantique des schémas locaux. Quant à l'hétérogénéité structurelle de ces schémas, elle est résolue grâce à l'extension d'un algorithme de routage de requêtes (i.e. le protocole Chord) par des Indexes de structure. Concernant l'optimisation de requêtes, nous proposons de profiter de la phase de localisation de sources de données pour obtenir toutes les méta-données nécessaires pour générer un plan d'exécution proche de l'optimal. Afin de montrer la faisabilité et la validité de nos propositions, nous effectuons une évaluation des performances et nous discutons les résultats obtenus.Despite of their great success in the file sharing domain, P2P systems support only simple queries usually based on looking up a file by using its name. Recently, several research works have made to extend P2P systems to be able to share data having a fine granularity (i.e. atomic attribute) and to process queries written with a highly expressive language (i.e. SQL). The characteristics of P2P systems (e.g. large-scale, node autonomy and instability) make impractical to have a global catalog that stores often information about data, schemas and data source hosts. Because of the absence of a global catalog, two problems become more difficult: (i) locating data sources with taking into account the schema heterogeneity and (ii) query optimization. In our thesis, we propose an approach for processing SQL queries in a P2P environment. To solve the semantic heterogeneity between local schemas, our approach is based on domain ontology and on similarity formulas. As for the structural heterogeneity of local schemas, it is solved by the extension of a query routing method (i.e. Chord protocol) with Structure Indexes. Concerning the query optimization problem, we propose to take advantage of the data source localization phase to obtain all metadata required for generating a close to optimal execution plan. Finally, in order to show the feasibility and the validity of our propositions, we carry out performance evaluations and we discuss the obtained results

    Développement d'une grille hexagonale hiérarchique et d'algorithmes de clustering "géosémantique" pour l'analyse et la découverte de connaissances géo-spatiales

    Get PDF
    Dans le cadre du projet MUSCAMAGSJ ± Multi-scale multi-agent geo-simulation ¿, les simulations sont produites dans un environnement virtuel géographique (EV G) qui reflète la réalité géographique grâce à l'usage de données géoréférencées. Compte tenu des applications de mobilité urbaine visées dans ce projet et de la disponibilité des données, l'EVG a été représenté par une grille hexagonale. Cependant, bien qu' il réduise le biais directionnel lors de l'analyse spatiale, ce genre de grille présente un inconvénient important: il ne permet pas une représentation multi -échelle de l'environnement géographique. Dans le cadre de ce projet de maîtrise, nous proposons une autre solution à ce problème. En effet, nous proposons de partitionner l'environnement à l'aide de cellules dont la forme géométrique fondamentale est le triangle équilatéral. Ensuite, à partir de ces cellules, nous développons un algorithme pour créer des cellules hexagonales hiérarchiques selon un indexage conforme à l'approche column-ordering. Ensuite nous intégrons ces grilles dans une application de système d'information géographique que nous emichissons par des techniques d'intelligence artificielle afin de faciliter la découverte et l'interprétation des phénomènes urbains. En effet, nous avons considéré plus particulièrement les automates cellulaires et les techniques de clustering issues du data mining. Ainsi, nous avons exploré une technique de regroupement ±géo-sémantique¿ des cellules en nous basant sur un algorithme de clustering par fusion. Également, nous avons associé aux grilles hexagonales hiérarchiques des automates cellulaires afin d'obtenir un processus de regroupement automatique (auto-regroupement) qui puisse être utilisé pour l'analyse des données spatiales
    corecore