Algorithmes d'ordonnancement pour optimiser les performances, la consommation d'énergie et la robustesse des applications de calcul à haute performance (HPC)

Abstract

This thesis addresses the problem of resilience in large-scale computer systems. Due to the rapid development of high-performance computing technology, it has become crucial to develop effective and robust fault tolerance mechanisms. This research focuses on optimizing checkpoint strategies, analyzing different resilience techniques, developing new scheduling approaches to handle failures, and optimizing input/output bandwidth sharing strategies for parallel applications.Cette thèse traite du problème de la résilience dans les systèmes informatiques à grande échelle. En raison du développement rapide de la technologie de calcul à haute performance, il est devenu crucial de développer des mécanismes de tolérance aux pannes efficaces et robustes. Cette recherche se concentre sur l'optimisation des stratégies de sauvegarde, l'analyse de différentes techniques de résilience, le développement de nouvelles approches d'ordonnancement pour traiter les pannes et l’optimisation des stratégies de partage de bande passante d'entrées/sorties pour les applications parallèles

    Similar works

    Full text

    thumbnail-image

    Available Versions