14 research outputs found

    Contributions à la réplication de données dans les systèmes distribués à grande échelle

    Get PDF
    Data replication is a key mechanism for building a reliable and efficient data management system. Indeed, by keeping several replicas for each piece of data, it is possible to improve durability. Furthermore, well-placed copies reduce data accesstime. However, having multiple copies for a single piece of data creates consistency problems when the data is updated. Over the last years, I made contributions related to these three aspects: data durability, data access performance and data consistency. RelaxDHT and SPLAD enhance data durability by placing data copies smartly. Caju, AREN and POPS reduce access time by improving data locality and by taking popularity into account. To enhance data lookup performance, DONUT creates efficient shortcuts taking data distribution into account. Finally, in the replicated database context, Gargamel parallelizes independent transactions only, improving database performance and avoiding aborting transactions. My research has been carried out in collaboration with height PhD students, four of which have defended. In my future work, I plan to extend these contributions by (i) designing a storage system tailored for MMOGs, which are very demanding, and (ii) designing a data management system that is able to re-distribute data automatically in order to scale the number of servers up and down according to the changing workload, leading to a greener data management.La réplication de données est une technique clé pour permettre aux systèmes de gestion de données distribués à grande échelle d'offrir un stockage fiable et performant. Comme il gère un nombre suffisant de copies de chaque donnée, le système peut améliorer la pérennité. De plus, la présence de copies bien placées réduit les temps d'accès. Cependant, cette même existence de plusieurs copies pose des problèmes de cohérence en cas de modification. Ces dernières années, mes contributions ont porté sur ces trois aspects liés à la réplication de données: la pérennité des données, la performance desaccès et la gestion de la cohérence. RelaxDHT et SPLAD permettent d'améliorer la pérennité des données en jouant sur le placement des copies. Caju, AREN et POPS permettent de réduire les temps d'accès aux données en améliorant la localité et en prenant en compte la popularité. Pour accélérer la localisation des copies, DONUT crée des raccourcis efficaces prenant en compte la distribution des données. Enfin, dans le contexte des bases de données répliquées,Gargamel permet de ne paralléliser que les transactions qui sont indépendantes, améliorant ainsi les performances et évitant tout abandon de transaction pour cause de conflit. Ces travaux ont été réalisés avec huit étudiants en thèse dont quatre ont soutenu. Pour l'avenir, je me propose d'étendre ces travaux, d'une part en concevant un système de gestion de données pour les MMOGs, une classe d'application particulièrement exigeante; et, d'autre part, en concevant des mécanismes de gestion de données permettant de n'utiliser que la quantité strictement nécessaire de ressources, en redistribuant dynamiquement les données en fonction des besoins, un pas vers une gestion plus écologique des données

    Comparaison des Modèles et Architectures pour un Accès Mobile Restreint et Local au Web de Données: Un état de l’art des architectures et solutions envisageables

    Get PDF
    This document presents a survey prior to a thesis project, which aims to propose solutions allowing local and restricted access to the Web of data. We have explored several relevant mechanisms proposed in the literature, dedicated to various problems and likely to constitute important points for our future contributions. Since our main objective is to offer tools dedicated to mobility situations in environments where internet access is unreliable, we were particularly interested in comparing approaches (P2P, DHT, etc.) allowing to realize a particular fog/edge computing scenario which is restricted and local mobile access to contextually relevant and shared related data. In this context, we have focused some of our research on so-called gossip protocols (or epidemic protocols) that are well suited to the dynamic nature of networks. The dynamic aspect of the peers also led us to consider the solutions that take into account the location of the peers in order to improve the quality of the services offered.In addition, we looked at solutions dealing with semantic heterogeneity in peer-to-peer environments, including ontology alignment mechanisms that allow us to fully benefit from the power of peer-to-peer systems without imposing the use of a common ontology to all peers.Data replication and caching can be an important alternative to accessing remote sources; we have devoted the last part of this document to solutions based on these mechanisms to supply a local access to data.Ce document présente un état de l'art préalable à un projet de thèse qui vise à proposer des solutions permettant un accès local et restreint au Web de données. Nous avons exploré plusieurs mécanismes pertinents proposés dans la littérature, dédiés à des problématiques différentes et pouvant constituer des points importants pour nos futures contributions. Notre objectif principal étant de proposer des outils dédiés à des situations de mobilité dans des environnements ou l’accès internet est peu fiable, nous nous sommes intéressés particulièrement à comparer des approches (P2P, DHT, etc.) permettant de réaliser un scénario de fog/edge computing particulier qui est l'accès mobile restreint et local à des données liées contextuellement pertinentes et partagées. Dans cette optique, nous avons focalisé une partie de nos recherches bibliographiques sur les protocoles dits de « gossip » (ou protocoles épidémiques) qui s’avèrent bien adaptés au caractère dynamique des réseaux. L'aspect dynamique des pairs nous a aussi amené à considérer des solutions qui prennent en compte la localisation des pairs pour améliorer la qualité des services offerts.Nous regardons de plus dans ce document, des solutions traitant de l’hétérogénéité sémantique dans des environnements pair-à-pair, notamment des mécanismes d’alignements d’ontologies qui permettent de profiter pleinement de la puissance des systèmes pair-à-pair sans imposer l’utilisation d’une ontologie commune à tous les pairs.La réplication et le cache de données pouvant constituer une alternative importante à l’accès à des sources distantes, nous avons consacré la dernière partie de ce document aux solutions reposant sur ces mécanismes et offrant ainsi un accès local aux données

    SQL, NoSQL, NewSQL: stratégie de choix

    Get PDF
    Depuis les années 1980, les systèmes de gestion de bases de données relationnelles n'ont cessé de prendre de l'importance en regard des autres systèmes de gestion de données. Aujourd'hui, encore utilisés par la majorité des entreprises ils sont toujours appréciés pour leurs capacités à assurer une forte cohérence des données et garantir une fiabilité lors des transactions. Cependant, l'émergence des systèmes décisionnels et l'explosion des volumes de données à traiter ont conduit beaucoup de sociétés à dénormaliser leur modèle de données. Cette technique visant à regrouper l'information dans des agrégats a pour but d'optimiser les temps de réponses en rompant avec les trois formes normales si chères au SGBDR. Le Big data a conduit les grands acteurs de l'internet (Google, Facebook, et Amazon etc..) à développer puis adopter des technologies alternatives nommées NoSQL. Celles-ci leurs permettent de supporter une montée en charge horizontale tout en assurant une flexibilité du modèle de données. Dès lors, le NoSQL apparaît comme une solution à l'entreprise désirant gérer des montées en charges et des volumes importants. Cependant, cette technologie sacrifie à dessin la cohérence au bénéfice de la disponibilité. Dans ce modèle, les propriétés ACID sont souvent mises de côté pour la performance. En outre, la flexibilité offerte par le sans-schéma et l'abandon du SQL en font une technologie flexible et particulièrement appréciée des développeurs. Ils découvrent un SGBD où l'application devient maîtresse du schéma de la base de données. Plus d'interminables disputes avec un DBA qui impose un schéma non flexible de la base de données. La difficulté à gérer la faible cohérence des données pour les développeurs a conduit les grands ténors du web à développer le NewSQL. Ce nouveau SGBDR permet une scalabilité horizontale, une souplesse du schéma et une forte cohérence des données grâce à des transactions ACID. Le NewSQL est aussi jeune qu'il est plein de promesses. Il n'a pas le retour d'expérience des SGBDR et du NoSQL. Dans le document qui va suivre, sera cité les critères d'adoptions de chaque technologie. Ils seront mis ensemble à la fin dans un tableau de synthèse. Celui-ci pourra orienter la stratégie de choix d'une ou plusieurs d'entre elles

    Un système de composants distribué pour les réseaux de capteurs sans-fils

    Get PDF
    L'utilisation de réseaux de capteurs sans-fils (RCSF) se développe dans de nombreux domaines où l'informatique doit être intégrée au plus proche de l'environnement. Ce principe appelé informatique omniprésente se popularise par des applications dans de multiples domaines, de la domotique à l'étude d'environnements naturels en passant par la régulation des transports ou encore la surveillance de bâtiments à risques. Si les RCSF présentent de bonnes perspectives pour le domaine de l'informatique omniprésente, le matériel utilisé présente souvent des capacités très limitées et il est souvent compliqué de développer des applications ou de configurer de tels réseaux. Des travaux récemment réalisés au laboratoire DOMUS amènent la vision d'une informatique omniprésente autonome qui permettrait à plusieurs éléments d'un réseau de s'organiser entre eux pour limiter les interventions humaines. Dans cette vision, la reprogrammation dynamique des noeuds est utilisée pour simplifier et alléger le processus de reconfiguration du réseau. Le présent projet s'est donc intéressé à la problématique de la reprogrammation des noeuds du réseau dans une optique future d'informatique omniprésente autonome adaptée aux RCSF. Le présent projet de maîtrise a permis dans un premier temps de mettre en place un cadriciel de programmation par composants adapté aux ressources contraintes des RCSF. Ce système de programmation par composants (POC) appelé Nodecom se place comme une amélioration par rapport aux solutions de POC déjà existantes. En effet, Nodecom présente la première architecture hybride permettant à la fois de programmer en utilisant des composants statiques et à la fois de pouvoir charger de nouveaux composants de manière dynamique. Cette architecture hybride a permis d'alléger l'impact du système de programmation par composants tout en conservant la possibilité de reprogrammer dynamiquement certains composants. Dans un second temps, le projet a consisté à réaliser un dépôt distribué de composants qui permet à chaque noeud de charger dynamiquement n'importe quel composant publié à travers le réseau. Dans ce dépôt distribué, chaque noeud peut se voir attribuer le rôle de conserver une copie d'un fichier de composant dans sa mémoire locale. Pour ce faire, l'implémentation réalisée repose sur un algorithme de routage par clé inspiré des réseaux pair-à-pair traditionnels et adapté aux contraintes des plateformes utilisées. Les résultats de l'évaluation de ce système de composants distribué pour les réseaux de capteurs sans-fils sont encourageants puisqu'ils mettent en évidence les faibles besoins en mémoire du système. L'implémentation réalisée dans ce projet se place alors comme un bon support pour les travaux futurs qui chercheront à adapter la vision d'informatique omniprésente autonome au contexte des réseaux de capteurs sans-fils

    Modèles et protocoles de cohérence des données en environnement volatil

    Get PDF
    Ce rapport s'intéresse au problème de la visualisation des données partagées dans les applications à base de couplage de codes sur les grilles. Nous proposons d'améliorer l'efficacité de la visualisation en intervenant sur les mécanismes de gestion des données répliquées et plus particulièrement au niveau du protocole de cohérence. La notion de lecture relâchée est alors introduite comme une extension du modèle de cohérence à l'entrée (entry consistency). Ce nouveau type d'opération peut être réalisé sans prise de verrou, en parallèle avec des écritures. En revanche, l'utilisateur relâche les contraintes sur la fraîcheur de la donnée et accepte de lire des versions légèrement anciennes, dont le retard est néanmoins contrôlé. L'implémentation de cette approche au sein du service de partage de données pour grilles JuxMem montre des gains considérables par rapport à une implémentation classique basée sur des lectures avec prise de verrou

    Mobilité et bases de données : Etat de l'art et perspectives: 1ère partie. Action spécifique CNRS « Mobilité/Accès aux données »

    Get PDF
    National audienceThis paper is the result of the collective work done within the CNRS specific action Mobility/Data access with seven french laboratories IMAG-LSR, INT-Evry, LIP6, LORIA, PRiSM, EPFL, LIRMM . All pursuiving research in mobile computing and mobile databases. The action started in October 2001 for an initial period of one year. The activities and results of this action are available online at [AS_BDMobile]. The objective of this paper is to review the state of progress in mobile databases and identify major research directions. However, the research domain is so broad that we cannot pretend to be exhaustive. First, we propose a classification of mobile applications and a characterization of their execution environments. Then, we analyze the following issues: management of localization data, data access models, copy consistency and synchronization, management of embedded data, data confidentiality, and adaptability of software infrastructures to mobility and disconnection. For editorial reasons, this paper is published as a chronicle with two parts of equal importance.Ce document est le résultat d'un travail collectif réalisé par les membres de l'action spécifique CNRS « Mobilité/Accès aux données ». Il fait le point sur l'état d'avancement des travaux réalisés dans le domaine des bases de données mobiles et identifie quelques orientations de recherche jugées particulièrement pertinentes. Compte tenu de la largeur du domaine, ce document ne prétend cependant pas à l'exhaustivité. Après une classification des applications mobiles et une caractérisation de leur environnement d'exécution, les problématiques suivantes sont analysées : gestion des données de localisation, modèles d'accès aux données, cohérence des traitements et synchronisation de copies, gestion de données embarquées, confidentialité des données et enfin adaptabilité des infrastructures logicielles à la mobilité et à la déconnexion

    Approches d'optimisation et de personnalisation des réseaux sur puce (NoC : Networks on Chip)

    Get PDF
    Systems-on-chip (SoC) have become more and more complex due to the development of integrated circuit technology.Recent studies have shown that in order to improve the performance of a specific SoC application domain, the on-chipinter-connects (OCI) architecture must be customized at design-time or at run-time. Related approaches generallyprovide application-specific SoCs tailored to specific applications. The aim of this thesis is to carry out new approachesfor Network-on-Chip (NoC) and study their performances, especially in terms of latency, throughput, energyconsumption and simplicity of implementation.We have proposed an approach to allow designers to customize a candidate OCI architecture by adding strategiclinks in order to match large application workload. The analytical evaluation focuses on improving the physicalparameters of the NoC topology regardless of the application that should run on. The evaluation by simulationfocuses to evaluate the communication performances of the NoC. Simulations results show the effectiveness ofthis approach to improve the NoC performances. We have also introduced a compartmental Fluid-flow basedmodeling approach to allocate required resource for each buffer based on the application traffic pattern. Simulationsare conducted and results show the efficiency of this modeling method for a buffer space optimized allocation.Finally, we proposed a joint approach based on a system dynamics theory for evaluating the performance of a flowcontrol algorithm in NoCs. This algorithm allows NoC elements to dynamically adjust their inflow by using afeedback control-based mechanism. Analytical and simulation results showed the viability of this mechanism forcongestion avoidance in NoCs.Les systèmes embarqués sur puce (SoC : Systems-on-Chip) sont devenus de plus en plus complexes grâce à l’évolution de la technologie des circuits intégrés. Des études récentes ont montré que pour améliorer les performances du réseau su puce (NoC : Network-on-Chip), l’architecture de celui-ci pouvait être personnalisée, soit au moment de la conception, soit au moment de l’exécution. L’objectif principal de cette thèse est d’implémenter de nouvelles approches pour améliorer les performances des NoCs, notamment la latence, le débit, la consommation d’énergie, et la simplicité de mise en œuvre.Nous avons proposé une approche pour permettre aux concepteurs de personnaliser l'architecture d’un NoC par insertion de liens stratégiques, pour qu’elle soit adaptée à de nombreuses applications, sous la contrainte d’un budget limité en termes de nombre de liens. L’évaluation analytique porte sur l’amélioration des paramètres physiques de la topologie du NoC sans tenir compte de l’application qui devrait s’exécuter dessus. L’évaluation par simulation porte sur l’évaluation des performances de communication du NoC. Les résultats de simulations montrent l’efficacité de notre approche pour améliorer les performances du NoC. Nous avons également introduit une approche de modélisation par réseau à compartiments pour allouer les ressources nécessaires pour chaque tampon selon le modèle de trafic de l'application cible. Les résultats de simulations montrent l'efficacité de cette approche de modélisation pour l’allocation optimisée de l'espace tampon. Enfin, nous avons proposé une approche conjointe basée sur la théorie des systèmes dynamiques pour évaluer la performance d'un algorithme de contrôle de flux dans les NoCs. Cet algorithme permet aux éléments du NoC d’ajuster dynamiquement leur entrée en utilisant un mécanisme basé sur le contrôle de flux par rétroaction. Les résultats d’évaluations analytiques et de simulation montrent la viabilité de ce mécanisme pour éviter la congestion dans les NoCs

    Vers une gestion coopérative des infrastructures virtualisées à large échelle (le cas de l'ordonnancement)

    Get PDF
    Les besoins croissants en puissance de calcul sont généralement satisfaits en fédérant de plus en plus d ordinateurs (ou noeuds) pour former des infrastructures distribuées. La tendance actuelle est d utiliser la virtualisation système dans ces infrastructures, afin de découpler les logiciels des noeuds sous-jacents en les encapsulant dans des machines virtuelles. Pour gérer efficacement ces infrastructures virtualisées, de nouveaux gestionnaires logiciels ont été mis en place. Ces gestionnaires sont pour la plupart hautement centralisés (les tâches de gestion sont effectuées par un nombre restreint de nœuds dédiés). Cela limite leur capacité à passer à l échelle, autrement dit à gérer de manière réactive des infrastructures de grande taille, qui sont de plus en plus courantes. Au cours de cette thèse, nous nous sommes intéressés aux façons d améliorer cet aspect ; l une d entre elles consiste à décentraliser le traitement des tâches de gestion, lorsque cela s avère judicieux. Notre réflexion s est concentrée plus particulièrement sur l ordonnancement dynamique des machines virtuelles, pour donner naissance à la proposition DVMS (Distributed Virtual Machine Scheduler). Nous avons mis en œuvre un prototype, que nous avons validé au travers de simulations (notamment via l outil SimGrid), et d expériences sur le banc de test Grid 5000. Nous avons pu constater que DVMS se montrait particulièrement réactif pour gérer des infrastructures virtualisées constituées de dizaines de milliers de machines virtuelles réparties sur des milliers de nœuds. Nous nous sommes ensuite penchés sur les perspectives d extension et d amélioration de DVMS. L objectif est de disposer à terme d un gestionnaire décentralisé complet, objectif qui devrait être atteint au travers de l initiative Discovery qui fait suite à ces travaux.The increasing need in computing power has been satisfied by federating more and more computers (called nodes) to build the so-called distributed infrastructures. Over the past few years, system virtualization has been introduced in these infrastructures (the software is decoupled from the hardware by packaging it in virtual machines), which has lead to the development of software managers in charge of operating these virtualized infrastructures. Most of these managers are highly centralized (management tasks are performed by a restricted set of dedicated nodes). As established, this restricts the scalability of managers, in other words their ability to be reactive to manage large-scale infrastructures, that are more and more common. During this Ph.D., we studied how to mitigate these concerns ; one solution is to decentralize the processing of management tasks, when appropriate. Our work focused in particular on the dynamic scheduling of virtual machines, resulting in the DVMS (Distributed Virtual Machine Scheduler) proposal. We implemented a prototype, that was validated by means of simulations (especially with the SimGrid tool) and with experiments on the Grid 5000 test bed. We observed that DVMS was very reactive to schedule tens of thousands of virtual machines distributed over thousands of nodes. We then took an interest in the perspectives to improve and extend DVMS. The final goal is to build a full decentralized manager. This goal should be reached by the Discovery initiative,that will leverage this work.NANTES-ENS Mines (441092314) / SudocSudocFranceF
    corecore