Search CORE

352 research outputs found

Interrogation de données hétérogènes dans les systèmes NoSQL orientés graphes

Author: Ben Hamadou Hamdi
Chevalier Max
El Malki Mohammed
Péninou André
Teste Olivier
Publication venue: Congrès INFormatique des ORganisations et Systèmes d'Information et de Décision (INFORSID)
Publication date: 01/01/2018
Field of study

La flexibilité des systèmes NoSQL qui consiste à ne plus garantir un schéma unique pour un ensemble de données aboutit à des masses de données hétérogènes, rendant leur interrogation plus complexe pour les utilisateurs, qui doivent connaître les différentes formes (c'est-à-dire les différents schémas) des données manipulées. Cet article se focalise sur cette problématique de l'interrogation des données hétérogènes dans les systèmes NoSQL orientés graphes. L'enjeu est de simplifier pour les utilisateurs l'interrogation de ces masses de données hétérogènes en rendant transparente leur hétérogénéité

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Un Framework Basé Bigraphes pour la Conception et l'Analyse des Systèmes Sensibles au Contexte

Author: Cherfia Taha Abdelmoutaleb
Publication venue: HAL CCSD
Publication date: 06/01/2016
Field of study

Today, modern technologies have become a part of our daily life. Whether to be informed, entertained, or even to communicate with friends, ubiquitous computing offers numerous opportunities. For this to become reality, computer systems must be able to observe the environment and to adapt their behaviour according to the users expectations and needs. This is called context-awareness. Indeed, the literature shows that context-awareness is the focal point of ubiquitous computing. However, due to heterogeneity and dynamicity of context information, taking it into account requires establishing a model to represent these information at a high-level of abstraction.In this thesis, we propose a model called BigCAS (Bigraphical Context-Aware System) that supports the design of context-aware systems. To achieve this goal, BigCAS is based on formal specifications, derived from bigraphical reactive systems, for modelling structural and behavioural aspects of context aware systems. It provides a clear separation between the context-aware part and the context-unaware part of these systems. Each part is modelled separately as a distinct bigraph, where the composition of these bigraphs models the general structure of the system, particularly, its components interactions and their side effects. Moreover, BigCAS considers not only structural aspects, but also the different reconfigurations involved in the behaviour of context aware systems.We also propose an extension to BigCAS, named BigCAS-FA (Bigraphical Context-Aware System - Formal Analysis), that provides formal verification of safety and liveness properties of context aware systems. Furthermore, BigCAS-FA provides contract-based strategies to guide the dynamic reconfiguration according to the context.To validate our proposals, we develop a prototype, BigCAS-Tool (Bigraphical Context Aware System - Tool), devoted to the specification and verification of context-aware systems. The proposed prototype is illustrated with a case study of a smart lighting system.Aujourd'hui, les nouvelles technologies font partie de notre vie quotidienne. Qu'il s'agisse de s'informer, de se divertir, ou même de communiquer avec ses amis, les possibilités qu'offre l'informatique ubiquitaire sont innombrables.Pour que ces possibilités puissent devenir une réalité, les systèmes informatiques doivent alors se doter d'une capacité d'observation de leur environnement et de s'adapter en fonction des attentes et des besoins des utilisateurs. C'est ce qu'on appelle la sensibilité au contexte. En effet, la littérature montre que la sensibilité au contexte est le point central de l'informatique ubiquitaire. Cependant, face à l'hétérogénéité et la dynamicité des informations de contexte, sa prise en compte nécessite la mise en place d'un modèle pour décrire ces informations à un haut niveau d'abstraction.Dans ce travail de thèse nous proposons, dans un premier temps, un modèle appelé BigCAS (Bigraphical Contexte-Aware System) qui permet la conception formelle des systèmes sensibles au contexte. Pour accomplir cet objectif, BigCAS repose sur des modèles formelles à base des systèmes réactifs bigraphiques permettant la modélisation des aspects structurels et comportementaux des systèmes sensibles au contexte. Il offre une séparation claire entre la partie sensible au contexte et la partie non-sensible au contexte de ces systèmes. Chacune de ces parties est modélisée séparément par un bigraphe distinct, où la composition de ceux-ci modélise la structure générale du système ainsi que les interactions et les effets de bord entre ses différents composants. Par ailleurs, BigCAS tient compte non seulement des aspects structurels, mais aussi des différentes reconfigurations intervenant dans le comportement des systèmes sensibles au contexte.Nous proposons également une extension du modèle BigCAS, appelée BigCAS-FA (Bigraphical Context-Aware System - Formal Analysis), qui permet la vérification formelle de propriétés de sûreté et de vivacité des systèmes sensibles au contexte. En outre, BigCAS-FA possède des stratégies à base de contrats qui consistent à guider la reconfiguration dynamique en fonction du contexte.Afin de valider nos propositions, nous développons le prototype BigCAS-Tool (Bigraphical Context Aware System - Tool) dédié à la spécification et la vérification des systèmes sensibles au contexte, et nous l'illustrons à travers une étude de cas d'un système d'éclairage intelligent

Thèses en Ligne

L'espace documentaire en restructuration (l'évolution des services des bibliothèques universitaires.)

Author: BOURDENET Philippe
CHARTRON Ghislaine
Publication venue
Publication date: 01/01/2013
Field of study

Le catalogue occupe une place privilégiée dans l offre de service des bibliothèques universitaires, pivot de l intermédiation. Depuis 10 ans, il traverse une crise grave, voyant les usagers le délaisser à la faveur des moteurs de recherche généralistes. Le web, plus qu un sérieux concurrent, devance aujourd hui les systèmes d information documentaires, et devient le point d entrée principal pour la recherche d information. Les bibliothèques tentent de structurer un espace documentaire qui soit habité par les usagers, au sein duquel se développe l offre de service, mais celle-ci se présente encore comme une série de silos inertes, sans grande possibilité de navigation, malgré de considérables efforts d ingénierie et des pistes d évolution vers les outils de découverte. La profession, consciente de cette crise profonde, après avoir accusé les remous occasionnés par la dimension disruptive du numérique, cherche des moyens pour adapter et diversifier son offre, fluidifier la diffusion de l information, et se réinvente un rôle d intermédiation en cherchant à tirer profit des nouvelles pratiques des usagers, de leurs nouvelles attentes, et de nouvelles perspectives. Les bibliothèques placent leur espoir dans de nouveaux modèles de données, tentent d y ajouter un niveau d abstraction favorisant les liaisons avec l univers de la connaissance. L évolution vers le web sémantique semble une opportunité à saisir pour valoriser les collections et les rendre exploitables dans un autre contexte, au prix d importants efforts que cette analyse tente de mesurer. Une approche constructiviste fondée sur l observation participante et le recueil de données offre une vision issue de l intérieur de la communauté des bibliothèques sur l évolution des catalogues et des outils d intermédiation, et ouvre des perspectives sur leurs enjeux.The catalog takes up a special position in the supply of services of academic libraries, as a pivot for the intermediary between users and information professionals who carry the responsibility for building up collections. For 10 years, through a serious crisis, they ve been seeing their patrons preferring the general or commercial search engines. The Web is more than a serious competitor today, ahead of the document information systems, and became the main access point for information retrieval. Libraries are trying to structure an information space that is temporarily or permanently inhabited by users, in which the service offering is developed, but it is still presented as a series of silos, with few opportunities of navigation between them despite considerable engineering efforts and a perspective of evolution towards discovery tools. The profession, having become aware of this deep crisis after accusing eddies caused by the breakdown of the digital switch, looking for ways to adapt and diversify its offering, streamlines the dissemination of information, and reinvents its roles, trying to take advantage of new practices of users, new expectations and new prospects. Libraries put their hope in new data models, trying to add a level of abstraction promoting links with the world of knowledge. The evolution towards the Semantic Web seems to be a valuable opportunity to enhance the collections and make them usable in another context, at the expense of significant efforts sized up by this analysis. A constructivist approach based on participant observation and data collection offers a vision of the outcome within the library community on the development of catalogs and intermediation tools, and an outlook on their issues.PARIS-CNAM (751032301) / SudocSudocFranceF

OpenGrey Repository

DE LA MODELISATION A L'EXPLOITATION DES DOCUMENTS A STRUCTURES MULTIPLES

Author: Djemal Karim
Publication venue: HAL CCSD
Publication date: 03/06/2010
Field of study

With the recent development of new information and communication technologies, the paper documents are transformed to digital documents. Furthermore, it considers that the document is no longer seen as a whole, or as a monolithic bloc, but as organized entities. Exploiting these documents amount to identify and locate these entities. These entities are connected by relationships to give a "form" to document. Several types of relationships may occur, so that several "forms" of a document emerge. These different materializations of the same document are related to different uses of the same document and are essential for optimal management and shared of holdings. The work presented in this thesis aims to address the challenges of representing different materializations of a document through its representation of entities and their relationships. If those materializations are translated through structures, the issues are related to the representation of multistructured documents. Our work focuses mainly on the modeling, integration and exploitation of multistructured documents: (1) Proposal of multistructured document model. This model incorporates two levels of description: a specific level to describe each document through entities that compose and a generic level to identify document kinds through the grouping of similar structures. (2) Proposal of techniques for extracting structure (implicit or explicit) of a document (the specific level) and classification of this structure with respect to common structures (the generic level). The classification algorithm proposed includes a calculation of distance called "structural" (comparison of trees and graphs). This classification is associated with a process of verification of the "cohesion" of classes and possible reorganization of disrupted classes. (3) Proposal of document exploitation technical from their structures and their contents: (a) a document search that can reproduce documentary granules through criteria based on research of structures and / or content, (b) a multidimensional analysis that is to analyze and visualize the documentary information across multiple dimensions (of structures and / or content). In order to validate our proposals, we have developed a tool for integration and analysis of multistructured documents, called MDOCREP (Multistructured Document Repository). This tool provides on the one hand, the extraction and classification of document structures, and on the other hand, the querying and the multidimensional analysis of documents from their different structures.Avec l'évolution des nouvelles technologies de l'information et de la communication, les documents papier ont laissé la place aux documents numériques. On considère de plus que le document n'est plus vu comme un tout, ni comme un bloc monolithique, mais comme un ensemble organisé d'entités. Exploiter ces documents revient à identifier et retrouver ces entités. Ces dernières sont reliées par des relations permettant de donner une « forme » au document. Plusieurs types de relations peuvent apparaître, de sorte à ce que plusieurs « formes » d'un même document émergent. Ces différentes matérialisations d'un même document sont liées à des usages différents d'un même document et sont primordiales pour une gestion optimale et partagée des fonds documentaires. Les travaux présentés dans cette thèse visent à faire face aux défis de représentation des différentes matérialisations d'un document au travers de la représentation de ses entités et de leurs relations. Si ces matérialisations sont traduites par des structures, les enjeux concernent la représentation des documents à structures multiples. Nos travaux portent essentiellement sur la modélisation, l'intégration et l'exploitation des documents à structures multiples : (1) Proposition d'un modèle de documents multistructurés. Ce modèle intègre deux niveaux de description : un niveau spécifique permettant de décrire chaque document au travers des entités qui le composent et un niveau générique permettant de définir des typologies de documents au travers du regroupement de structures similaires. (2) Proposition des techniques d'extraction de structure (implicite ou explicite) d'un document (niveau spécifique) et de classification de cette structure par rapport à des structures communes (niveau générique). L'algorithme de classification proposé intègre un calcul d'une distance dite « structurelle » (comparaison d'arbres et de graphes). Cette démarche de classification est associée à une démarche de vérification de la « cohésion » des classes et de réorganisation éventuelle des classes perturbées. (3) Proposition de techniques d'exploitation des documents à partir de leurs structures et de leur contenu : (a) une recherche de documents qui permet de restituer des granules documentaires selon des critères de recherches basés sur la ou les structures et/ou le contenu ; (b) une analyse multidimensionnelle qui consiste à analyser et visualiser les informations documentaires selon plusieurs dimensions (de structures et/ou de contenu). Pour valider nos propositions, nous avons développé un outil d'aide à l'intégration et à l'analyse de documents à structures multiples, intitulé MDOCREP (Multistructured DOCument REPository). Cet outil assure d'une part, l'extraction et la classification des structures de documents, et d'autre part, l'interrogation et la restitution multidimensionnelle des documents à partir de leurs différentes structures

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Contribution à l'interrogation flexible et personnalisée d'objets complexes modélisés par des graphes

Author: ABBACI Katia
HADJALI Allel
ROCACHER Daniel
Publication venue
Publication date: 01/01/2013
Field of study

Plusieurs domaines d'application traitent des objets et des données complexes dont la structure et la sémantique de leurs composants sont des informations importantes pour leur manipulation et leur exploitation. La structure de graphe a été bien souvent adoptée, comme modèles de représentation, dans ces domaines. Elle permet de véhiculer un maximum d'informations, liées à la structure, la sémantique et au comportement de ces objets, nécessaires pour assurer une meilleure représentation et une manipulation e cace. Ainsi, lors d'une comparaison entre deux objets complexes, l'opération d'appariement est appliquée entre les graphes les modélisant. Nous nous sommes intéressés dans cette thèse à l'appariement approximatif qui permet de sélectionner les graphes les plus similaires au graphe d'une requête. L'objectif de notre travail est de contribuer à l'interrogation exible et personnalisée d'objets complexes modélisés sous forme de graphes pour identi er les graphes les plus pertinents aux besoins de l'utilisateur, exprimés d'une manière partielle ou imprécise. Dans un premier temps, nous avons proposé un cadre de sélection de services Web modélisés sous forme de graphes qui permet (i) d'améliorer le processus d'appariement en intégrant les préférences des utilisateurs et l'aspect structurel des graphes comparés, et (ii) de retourner les services les plus pertinents. Une deuxième méthode d'évaluation de requêtes de recherche de graphes par similarité a également été présentée pour calculer le skyline de graphes d'une requête utilisateur en tenant compte de plusieurs mesures de distance de graphes. En n, des approches de ra nement ont été dé nies pour réduire la taille, souvent importante, du skyline. Elles ont pour but d'identi er et d'ordonner les points skyline qui répondent le mieux à la requête de l'utilisateur.Several application domains deal with complex objects whose structure and semantics of their components are crucial for their handling. For this, graph structure has been adopted, as a model of representation, in these areas to capture a maximum of information, related to the structure, semantics and behavior of such objects, necessary for e ective representation and processing. Thus, when comparing two complex objects, a matching technique is applied between their graph structures. In this thesis, we are interested in approximate matching techniques which constitute suitable tools to automatically nd and select the most similar graphs to user graph query. The aim of our work is to develop methods to personalized and exible querying of repositories of complex objects modeled thanks to graphs and then to return the graphs results that t best the users needs, often expressed partially and in an imprecise way. In a rst time, we propose a exible approach for Web service retrieval that relies both on preference satis ability and structural similarity between process model graphs. This approach allows (i) to improve the matching process by integrating user preferences and the graph structural aspect, and (ii) to return the most relevant services. A second method for evaluating graph similarity queries is also presented. It retrieves graph similarity skyline of a user query by considering a vector of several graph distance measures instead of a single measure. Thus, graphs which are maximally similar to graph query are returned in an ordered way. Finally, re nement methods have been developed to reduce the size of the skyline when it is of a signi cant size. They aim to identify and order skyline points that match best the user query.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

OpenGrey Repository

Exploration et analyse immersives de données moléculaires guidées par la tâche et la modélisation sémantique des contenus

Author: Trellet Mikael
Publication venue: HAL CCSD
Publication date: 18/12/2015
Field of study

In structural biology, the theoretical study of molecular structures has four main activities organized in the following scenario: collection of experimental and theoretical data, visualization of 3D structures, molecular simulation, analysis and interpretation of results. This pipeline allows the expert to develop new hypotheses, to verify them experimentally and to produce new data as a starting point for a new scenario.The explosion in the amount of data to handle in this loop has two problems. Firstly, the resources and time dedicated to the tasks of transfer and conversion of data between each of these four activities increases significantly. Secondly, the complexity of molecular data generated by new experimental methodologies greatly increases the difficulty to properly collect, visualize and analyze the data.Immersive environments are often proposed to address the quantity and the increasing complexity of the modeled phenomena, especially during the viewing activity. Indeed, virtual reality offers a high quality stereoscopic perception, useful for a better understanding of inherently three-dimensional molecular data. It also displays a large amount of information thanks to the large display surfaces, but also to complete the immersive feeling with other sensorimotor channels (3D audio, haptic feedbacks,...).However, two major factors hindering the use of virtual reality in the field of structural biology. On one hand, although there are literature on navigation and environmental realistic virtual scenes, navigating abstract science is still very little studied. The understanding of complex 3D phenomena is however particularly conditioned by the subject’s ability to identify themselves in a complex 3D phenomenon. The first objective of this thesis work is then to propose 3D navigation paradigms adapted to the molecular structures of increasing complexity. On the other hand, the interactive context of immersive environments encourages direct interaction with the objects of interest. But the activities of: results collection, simulation and analysis, assume a working environment based on command-line inputs or through specific scripts associated to the tools. Usually, the use of virtual reality is therefore restricted to molecular structures exploration and visualization. The second thesis objective is then to bring all these activities, previously carried out in independent and interactive application contexts, within a homogeneous and unique interactive context. In addition to minimizing the time spent in data management between different work contexts, the aim is also to present, in a joint and simultaneous way, molecular structures and analyses, and allow their manipulation through direct interaction.Our contribution meets these objectives by building on an approach guided by both the content and the task. More precisely, navigation paradigms have been designed taking into account the molecular content, especially geometric properties, and tasks of the expert, to facilitate spatial referencing in molecular complexes and make the exploration of these structures more efficient. In addition, formalizing the nature of molecular data, their analysis and their visual representations, allows to interactively propose analyzes adapted to the nature of the data and create links between the molecular components and associated analyzes. These features go through the construction of a unified and powerful semantic representation making possible the integration of these activities in a unique interactive context.En biologie structurale, l’étude théorique de structures moléculaires comporte quatre activités principales organisées selon le processus séquentiel suivant : la collecte de données expérimentales/théoriques, la visualisation des structures 3d, la simulation moléculaire, l’analyse et l’interprétation des résultats. Cet enchaînement permet à l’expert d’élaborer de nouvelles hypothèses, de les vérifier de manière expérimentale et de produire de nouvelles données comme point de départ d’un nouveau processus.L’explosion de la quantité de données à manipuler au sein de cette boucle pose désormais deux problèmes. Premièrement, les ressources et le temps relatifs aux tâches de transfert et de conversion de données entre chacune de ces activités augmentent considérablement. Deuxièmement, la complexité des données moléculaires générées par les nouvelles méthodologies expérimentales accroît fortement la difficulté pour correctement percevoir, visualiser et analyser ces données.Les environnements immersifs sont souvent proposés pour aborder le problème de la quantité et de la complexité croissante des phénomènes modélisés, en particulier durant l’activité de visualisation. En effet, la Réalité Virtuelle offre entre autre une perception stéréoscopique de haute qualité utile à une meilleure compréhension de données moléculaires intrinsèquement tridimensionnelles. Elle permet également d’afficher une quantité d’information importante grâce aux grandes surfaces d’affichage, mais aussi de compléter la sensation d’immersion par d’autres canaux sensorimoteurs.Cependant, deux facteurs majeurs freinent l’usage de la Réalité Virtuelle dans le domaine de la biologie structurale. D’une part, même s’il existe une littérature fournie sur la navigation dans les scènes virtuelles réalistes et écologiques, celle-ci est très peu étudiée sur la navigation sur des données scientifiques abstraites. La compréhension de phénomènes 3d complexes est pourtant particulièrement conditionnée par la capacité du sujet à se repérer dans l’espace. Le premier objectif de ce travail de doctorat a donc été de proposer des paradigmes navigation 3d adaptés aux structures moléculaires complexes. D’autre part, le contexte interactif des environnements immersif favorise l’interaction directe avec les objets d’intérêt. Or les activités de collecte et d’analyse des résultats supposent un contexte de travail en "ligne de commande" ou basé sur des scripts spécifiques aux outils d’analyse. Il en résulte que l’usage de la Réalité Virtuelle se limite souvent à l’activité d’exploration et de visualisation des structures moléculaires. C’est pourquoi le second objectif de thèse est de rapprocher ces différentes activités, jusqu’alors réalisées dans des contextes interactifs et applicatifs indépendants, au sein d’un contexte interactif homogène et unique. Outre le fait de minimiser le temps passé dans la gestion des données entre les différents contextes de travail, il s’agit également de présenter de manière conjointe et simultanée les structures moléculaires et leurs analyses et de permettre leur manipulation par des interactions directes.Notre contribution répond à ces objectifs en s’appuyant sur une approche guidée à la fois par le contenu et la tâche. Des paradigmes de navigation ont été conçus en tenant compte du contenu moléculaire, en particulier des propriétés géométriques, et des tâches de l’expert, afin de faciliter le repérage spatial et de rendre plus performante l’activité d’exploration. Par ailleurs, formaliser la nature des données moléculaires, leurs analyses et leurs représentations visuelles, permettent notamment de proposer à la demande et interactivement des analyses adaptées à la nature des données et de créer des liens entre les composants moléculaires et les analyses associées. Ces fonctionnalités passent par la construction d’une représentation sémantique unifiée et performante rendant possible l’intégration de ces activités dans un contexte interactif unique

Thèses en Ligne

Indexation et interrogation de pages web décomposées en blocs visuels

Author: BRUNO Emmanuel
FAESSEL Nicolas
LE MAITRE Jacques
Publication venue
Publication date: 01/01/2011
Field of study

Cette thèse porte sur l'indexation et l'interrogation de pages Web. Dans ce cadre, nous proposons un nouveau modèle : BlockWeb, qui s'appuie sur une décomposition de pages Web en une hiérarchie de blocs visuels. Ce modèle prend en compte, l'importance visuelle de chaque bloc et la perméabilité des blocs au contenu de leurs blocs voisins dans la page. Les avantages de cette décomposition sont multiples en terme d'indexation et d'interrogation. Elle permet notamment d'effectuer une interrogation à une granularité plus fine que la page : les blocs les plus similaires à une requête peuvent être renvoyés à la place de la page complète. Une page est représentée sous forme d'un graphe acyclique orienté dont chaque nœud est associé à un bloc et étiqueté par l'importance de ce bloc et chaque arc est étiqueté la perméabilité du bloc cible au bloc source. Afin de construire ce graphe à partir de la représentation en arbre de blocs d'une page, nous proposons un nouveau langage : XIML (acronyme de XML Indexing Management Language), qui est un langage de règles à la façon de XSLT. Nous avons expérimenté notre modèle sur deux applications distinctes : la recherche du meilleur point d'entrée sur un corpus d'articles de journaux électroniques et l'indexation et la recherche d'images sur un corpus de la campagne d'ImagEval 2006. Nous en présentons les résultats.This thesis is about indexing and querying Web pages. We propose a new model called BlockWeb, based on the decomposition of Web pages into a hierarchy of visual blocks. This model takes in account the visual importance of each block as well as the permeability of block's content to their neighbor blocks on the page. Splitting up a page into blocks has several advantages in terms of indexing and querying. It allows to query the system with a finer granularity than the whole page: the most similar blocks to the query can be returned instead of the whole page. A page is modeled as a directed acyclic graph, the IP graph, where each node is associated with a block and is labeled by the coefficient of importance of this block and each arc is labeled by the coefficient of permeability of the target node content to the source node content. In order to build this graph from the bloc tree representation of a page, we propose a new language : XIML (acronym for XML Indexing Management Language), a rule based language like XSLT. The model has been assessed on two distinct dataset: finding the best entry point in a dataset of electronic newspaper articles, and images indexing and querying in a dataset drawn from web pages of the ImagEval 2006 campaign. We present the results of these experiments.AIX-MARSEILLE3-Bib. élec. (130559903) / SudocSudocFranceF

OpenGrey Repository

Querying heterogeneous data in NoSQL document stores

Author: Ben Hamadou Hamdi
Publication venue
Publication date: 02/10/2019
Field of study

La problématique de cette thèse porte sur l'interrogation de données hétérogènes dans les systèmes de stockage "not-only SQL" (noSQL) orientés documents. Ces derniers ont connu un important développement ces dernières années en raison de leur capacité à gérer de manière flexible et efficace d'importantes masses de documents. Ils reposent sur le principe "schema-less" consistant à ne plus considérer un schéma unique pour un ensemble de données, appelé collection de documents. Cette flexibilité dans la structuration des données complexifie l'interrogation pour les utilisateurs qui doivent connaître l'ensemble des différents schémas des données manipulées lors de l'écriture de requêtes. Les travaux développés dans cette thèse sont menés dans le cadre du projet neoCampus. Ils se focalisent sur l'interrogation de documents structurellement hétérogènes, en particulier sur le problème de schémas variables. Nous proposons la construction d'un dictionnaire de données qui permet de retrouver tous les schémas des documents. Chaque clef, entrée du dictionnaire, correspond à un chemin absolu ou partiel existant dans au moins un document de la collection. Cette clef est associée aux différents chemins absolus correspondants dans l'ensemble de la collection de documents. Le dictionnaire est alors exploité pour réécrire de manière automatique et transparente les requêtes des utilisateurs. Les requêtes utilisateurs sont établies sur la base des clés du dictionnaire (chemins partiels ou absolus) et sont automatiquement réécrites en exploitant le dictionnaire afin de prendre en compte l'ensemble des chemins absolus existants dans les documents de la collection. Dans cette thèse, nous menons une étude de l'état de l'art des travaux s'attachant à résoudre l'interrogation de documents structurellement hétérogènes, et nous en proposons une classification. Ensuite, nous comparons ces travaux en fonction de critères qui permettent de positionner et différencier notre contribution. Nous définissions formellement les concepts classiques liés aux systèmes orientés documents (document, collection, etc), puis nous étendons cette formalisation par des concepts supplémentaires : chemins absolus et partiels, schémas de document, dictionnaire. Pour la manipulation et l'interrogation des documents, nous définissons un noyau algébrique minimal fermé composé de cinq opérateurs : sélection, projection, des-imbrication (unnest), agrégation et jointure (left-join). Nous définissons chaque opérateur et expliquons son évaluation par un moteur de requête classique. Ensuite, nous établissons la réécriture de chacun des opérateurs à partir du dictionnaire. Nous définissons le processus de réécriture des requêtes utilisateurs qui produit une requête évaluable par un moteur de requête classique en conservant la logique des opérateurs classiques (chemins inexistants, valeurs nulles). Nous montrons comment la réécriture d'une requête initialement construite avec des chemins partiels et/ou absolus permet de résoudre le problème d'hétérogénéité structurelle des documents. Enfin, nous menons des expérimentations afin de valider les concepts formels que nous introduisons tout au long de cette thèse. Nous évaluons la construction et la maintenance du dictionnaire en changeant la configuration en termes de nombre de structures par collection étudiée et de taille de collection. Puis, nous évaluons le moteur de réécriture de requêtes en le comparant à une évaluation de requête dans un contexte sans hétérogénéité structurelle puis dans un contexte de multi-requêtes. Toutes nos expérimentations ont été menées sur des collection synthétiques avec plusieurs niveaux d'imbrications, différents nombres de structure par collection, et différentes tailles de collections. Récemment, nous avons intégré notre contribution dans le projet neOCampus afin de gérer l'hétérogénéité lors de l'interrogation des données de capteurs implantés dans le campus de l'université Toulouse III-Paul Sabatier.This thesis discusses the problems related to querying heterogeneous data in document-oriented systems. Document-oriented "not-only SQL" (noSQL) storage systems have undergone significant development in recent years due to their ability to manage large amounts of documents in a flexible and efficient manner. These systems rely on the "schema-less" concept where no there is no requirement to consider a single schema for a set of data, called a collection of documents. This flexibility in data structures makes the query formulation more complex and users need to know all the different schemas of the data manipulated during the query formulation. The work developed in this thesis subscribes into the frame of neOCampus project. It focuses on issues in the manipulation and the querying of structurally heterogeneous document collections, mainly the problem of variable schemas. We propose the construction of a dictionary of data that makes it possible to find all the schemas of the documents. Each key, a dictionary entry, corresponds to an absolute or partial path existing in at least one document of the collection. This key is associated to all the corresponding absolute paths throughout the collection of heterogeneous documents. The dictionary is then exploited to automatically and transparently reformulate queries from users. The user queries are formulated using the dictionary keys (partial or absolute paths) and are automatically reformulated using the dictionary to consider all the existing paths in all documents in the collection. In this thesis, we conduct a state-of-the-art survey of the work related to solving the problem of querying data of heterogeneous structures, and we propose a classification. Then, we compare these works according to criteria that make it possible to position our contribution. We formally define the classical concepts related to document-oriented systems (document, collection, etc). Then, we extend this formalisation with additional concepts: absolute and partial paths, document schemas, dictionary. For manipulating and querying heterogeneous documents, we define a closed minimal algebraic kernel composed of five operators: selection, projection, unnest, aggregation and join (left join). We define each operator and explain its classical evaluation by the native document querying engine. Then we establish the reformulation rules of each of these operators based on the use of the dictionary. We define the process of reformulating user queries that produces a query that can be evaluated by most document querying engines while keeping the logic of the classical operators (misleading paths, null values). We show how the reformulation of a query initially constructed with partial and/or absolute paths makes it possible to solve the problem of structural heterogeneity of documents. Finally, we conduct experiments to validate the formal concepts that we introduce throughout this thesis. We evaluate the construction and maintenance of the dictionary by changing the configuration in terms of number of structures per collection studied and collection size. Then, we evaluate the query reformulation engine by comparing it to a query evaluation in a context without structural heterogeneity and then in a context of executing multiple queries. All our experiments were conducted on synthetic collections with several levels of nesting, different numbers of structures per collection, and on varying collection sizes. Recently, we deployed our contributions in the neOCampus project to query heterogeneous sensors data installed at different classrooms and the library at the campus of the university of Toulouse III-Paul Sabatier

Thèses en ligne de l'Université Toulouse III - Paul Sabatier