Tolérance automatique aux défaillances par points de reprise et retour en arrière dans les systèmes hautes performances à passage de messages

Abstract

L'augmentation du nombre de composants des architectures hautes performances fait surgir des problèmes de fiabilité : le temps moyen entre deux fautes est désormais de moins de 10 heures. Une solution pour assurer la progression d'un calcul numérique distribué en présence de fautes est d'enregistrer périodiquement des points de reprise. Cependant, l'état de chaque processus subit le non déterminisme des évènements réseau. Aussi, un protocole de tolérance aux fautes doit assurer la possibilité de restaurer un état global légitime depuis un ensemble de points de reprise. Notre travail a pour objectif l'étude des mécanismes automatiques de tolérance aux défaillances par points de reprise pour les applications à passage de messages utilisant le standard MPI. Nous présentons un environnement logiciel permettant l'expression d'algorithmes de tolérance aux défaillances et leur comparaison équitable dans un environnement uniforme. Nous exprimons plusieurs protocoles de tolérance aux défaillances (dont deux originaux) : un utilisant des points de reprise coordonnés, deux par enregistrement de messages pessimiste et trois par enregistrement de message causal. Nous les comparons expérimentalement, identifiant ainsi une fréquence de faute au delà de laquelle les protocoles par enregistrement de messages se comportent mieux que les protocoles coordonnés. Nous décrivons enfin un modélisation du protocole pessimiste adaptée aux réseaux à très haut débit. La performance de ces réseaux implique que l'utilisation de copies mémoires intermédiaires est très pénalisante. Nous présentons les performances d'une implémentation de ce protocole.Increasing the number of components of high performance architectures arises reliability issues: mean time between failures is now less than 10 hours. A solution to ensure progression of a numerical application hit by failures is to periodically save checkpoints. However, the state of each process depends on network's non deterministic events. Thus, a fault tolerance protocol has to ensure the ability to recover to a correct global state from a set of ckeckpoints. Our work aims to study checkpoint based automatic fault tolerance for message passing applications using the MPI standard.First we present a software environnement designed to express various families of fault tolerance algorithms and compare them in an fair and uniform testbed. We implement many fault tolerant protocols in this environment (including two originals) : one using coordinated checkpoints, two pessimistic message logging and three causal message logging. We shows through experimental comparison between all those protocol a fault frequency afterward message logging protocols are performing better than coordinated ones. Last we describe a novel modeling of pessimistic message logging focusing on very high performance networks. In those networks, using intermediate memory buffers and copies leads to high overhead. We present performances of an implementation of this protocol.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 14/06/2016