Search CORE

Performance modeling for power consumption reduction on SCC

Author: Barthou Denis
Goglin Brice
Putigny Bertrand
Publication venue: HAL CCSD
Publication date: 08/12/2011
Field of study

International audienceAs power is becoming one of the biggest challenge in high performance computing, we are proposing a performance model on the Single-chip Cloud Computer in order to predict both power consumption and runtime of regular codes. This model takes into account the frequency at which the cores of the SCC chip operate. Thus, we can predict the execution time and power needed to run the code for each available frequency. This allows to choose the best frequency to optimize several metrics such as power efficiency or minimizing power consumption, based on the needs of the application. Our model only needs some parameters that are code dependent. These parameters can be found through static code analysis. We validated our model by showing that it can predict performance and find the optimal frequency divisor to optimize energy efficiency on several dense linear algebra codes

Analysis of MPI Shared-Memory Communication Performance from a Cache Coherence Perspective

Author: Goglin Brice
Putigny Bertrand
Ruelle Benoit
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 23/05/2014
Field of study

International audienceShared memory MPI communication is an important part of the overall performance of parallel applications. However understanding the behavior of these data transfers is difficult because of the combined complexity of modern memory architectures with multiple levels of caches and complex cache coherence protocols, of MPI implementations, and of application needs. We analyze shared memory MPI communication from a cache coherence perspective through a new memory model. It captures the memory architecture characteristics with microbenchmarks that exhibit the limitations of the memory accesses involved in the data transfer. We model the performance of intra-node communication without requiring complex analytical models. The advantage of the approach consists in not requiring deep knowledge of rarely documented hardware features such as caching policies or prefetchers that make modeling modern memory subsystems hardly feasible. Our qualitative analysis based on this result leads to a better understanding of shared memory communication performance for scientific computing. We then discuss some possible optimizations such as buffer reuse order, cache flushing, and non-temporal instructions that could be used by MPI implementers

Crossref

Benchmark-driven approaches to performance modeling of multi-core architectures

Author: PUTIGNY Bertrand
Publication venue
Publication date: 15/04/2024
Field of study

Ce manuscrit s'inscrit dans le domaine du calcul intensif (HPC) où le besoin croissant de performance pousse les fabricants de processeurs à y intégrer des mécanismes de plus en plus sophistiqués. Cette complexité grandissante rend l'utilisation des architectures compliquée. La modélisation des performances des architectures multi-cœurs permet de remonter des informations aux utilisateurs, c'est à dire les programmeurs, afin de mieux exploiter le matériel. Cependant, du fait du manque de documentation et de la complexité des processeurs modernes, cette modélisation est souvent difficile. L'objectif de ce manuscrit est d'utiliser des mesures de performances de petits fragments de codes afin de palier le manque d'information sur le matériel. Ces expériences, appelées micro-benchmarks, permettent de comprendre les performances des architectures modernes sans dépendre de la disponibilité des documentations techniques. Le premier chapitre présente l'architecture matérielle des processeurs modernes et, en particulier, les caractéristiques rendant la modélisation des performances complexe. Le deuxième chapitre présente une méthodologie automatique pour mesurer les performances des instructions arithmétiques. Les informations trouvées par cette méthode sont la base pour des modèles de calculs permettant de prédire le temps de calcul de fragments de codes arithmétique. Ce chapitre présent également comment de tels modèles peuvent être utilisés pour optimiser l'efficacité énergétique, en prenant pour exemple le processeur SCC. La dernière partie de ce chapitre motive le fait de réaliser un modèle mémoire prenant en compte la cohérence de cache pour prédire le temps d'accès au données. Le troisième chapitre présente l'environnement de développement de micro-benchmark utilisé pour caractériser les hiérarchies mémoires dotées de cohérence de cache. Ce chapitre fait également une étude comparative des performances mémoire de différentes architectures et l'impact sur les performances du choix du protocole de cohérence. Enfin, le quatrième chapitre présente un modèle mémoire permettant la prédiction du temps d'accès aux données pour des applications régulières de type \openmp. Le modèle s'appuie sur l'état des données dans le protocole de cohérence. Cet état évolue au fil de l'exécution du programme en fonction des accès à la mémoire. Pour chaque transition, une fonction de coût est associée. Cette fonction est directement dérivée des résultats des expériences faites dans le troisième chapitre, et permet de prédire le temps d'accès à la mémoire. Une preuve de concept de la fiabilité de ce modèle est faite, d'une part sur les applications d'algèbre et d'analyse numérique, d'autre part en utilisant ce modèle pour modéliser les performance des communications \mpi en mémoire partagée.In the race for better performance, computer architectures are becoming more and more complex. Therefore the need for hardware models is crucial to i) tune software to the underling architecture, ii) build tools to better exploit hardware or iii) choose an architecture according to the needs of a given application. In this dissertation, we aim at describing how to build a hardware model that targets all critical parts of modern computer architecture. That is the processing unit itself, memory and even power consumption. We believe that a large part of hardware modeling can be done automatically. This would relieve people from the tiresome task of doing it by hand. Our first contribution is a set of performance models for the on-core part of several different CPUs. This part of an architecture model is called the computational model. The computational model targeting the Intel SCC chip also includes a power model allowing for power aware performance optimization. Our other main contribution is an auto-tuned memory hierarchy model for general purpose CPUs able to i) predict performance of memory bound computations, ii) provide programmer with programming guidelines to improve software memory behavior

Registro Nacional de Trabajos de Investigación y Proyectos

Modélisation des architecture multi-cœur par des mesures de performance

Author: Putigny Bertrand
Publication venue
Publication date: 27/03/2014
Field of study

Repositorio de Tesis - Universidad Católica de Santa María

Theses.fr

Benchmark-driven approaches to performance modeling of multi-core architectures

Author: PUTIGNY Bertrand
Publication venue
Publication date: 27/03/2014
Field of study

Modélisation des architecture multi-cœur par des mesures de performance

Author: Putigny Bertrand
Publication venue: HAL CCSD
Publication date: 27/03/2014
Field of study

In the race for better performance, computer architectures are becoming more and more complex. Therefore the need for hardware models is crucial to i) tune software to the underling architecture, ii) build tools to better exploit hardware or iii) choose an architecture according to the needs of a given application. In this dissertation, we aim at describing how to build a hardware model that targets all critical parts of modern computer architecture. That is the processing unit itself, memory and even power consumption. We believe that a large part of hardware modeling can be done automatically. This would relieve people from the tiresome task of doing it by hand. Our first contribution is a set of performance models for the on-core part of several different CPUs. This part of an architecture model is called the computational model. The computational model targeting the Intel SCC chip also includes a power model allowing for power aware performance optimization. Our other main contribution is an auto-tuned memory hierarchy model for general purpose CPUs able to i) predict performance of memory bound computations, ii) provide programmer with programming guidelines to improve software memory behavior.Ce manuscrit s'inscrit dans le domaine du calcul intensif (HPC) où le besoin croissant de performance pousse les fabricants de processeurs à y intégrer des mécanismes de plus en plus sophistiqués. Cette complexité grandissante rend l'utilisation des architectures compliquée. La modélisation des performances des architectures multi-cœurs permet de remonter des informations aux utilisateurs, c'est à dire les programmeurs, afin de mieux exploiter le matériel. Cependant, du fait du manque de documentation et de la complexité des processeurs modernes, cette modélisation est souvent difficile. L'objectif de ce manuscrit est d'utiliser des mesures de performances de petits fragments de codes afin de palier le manque d'information sur le matériel. Ces expériences, appelées micro-benchmarks, permettent de comprendre les performances des architectures modernes sans dépendre de la disponibilité des documentations techniques. Le premier chapitre présente l'architecture matérielle des processeurs modernes et, en particulier, les caractéristiques rendant la modélisation des performances complexe. Le deuxième chapitre présente une méthodologie automatique pour mesurer les performances des instructions arithmétiques. Les informations trouvées par cette méthode sont la base pour des modèles de calculs permettant de prédire le temps de calcul de fragments de codes arithmétique. Ce chapitre présent également comment de tels modèles peuvent être utilisés pour optimiser l'efficacité énergétique, en prenant pour exemple le processeur SCC. La dernière partie de ce chapitre motive le fait de réaliser un modèle mémoire prenant en compte la cohérence de cache pour prédire le temps d'accès au données. Le troisième chapitre présente l'environnement de développement de micro-benchmark utilisé pour caractériser les hiérarchies mémoires dotées de cohérence de cache. Ce chapitre fait également une étude comparative des performances mémoire de différentes architectures et l'impact sur les performances du choix du protocole de cohérence. Enfin, le quatrième chapitre présente un modèle mémoire permettant la prédiction du temps d'accès aux données pour des applications régulières de type \openmp. Le modèle s'appuie sur l'état des données dans le protocole de cohérence. Cet état évolue au fil de l'exécution du programme en fonction des accès à la mémoire. Pour chaque transition, une fonction de coût est associée. Cette fonction est directement dérivée des résultats des expériences faites dans le troisième chapitre, et permet de prédire le temps d'accès à la mémoire. Une preuve de concept de la fiabilité de ce modèle est faite, d'une part sur les applications d'algèbre et d'analyse numérique, d'autre part en utilisant ce modèle pour modéliser les performance des communications \mpi en mémoire partagée

Thèses en Ligne

Theses.fr

Idée reçue: Comparer la puissance de deux ordinateurs, c'est facile !

Author: Goglin Brice
Putigny Bertrand
Publication venue: INRIA
Publication date: 23/04/2013
Field of study

National audienceIl y a une quinzaine d'années, quand on achetait un nouvel ordinateur, on avait une idée assez précise de sa puissance. Cela permettait aux gamers de comparer facilement leurs machines. De nos jours, c'est beaucoup plus difficile, la puissance de calcul ne peut plus être calculée ou évaluée aussi aisément

Modélisation du coût de la cohérence de cache pour améliorer le tuilage de boucles

Author: Barthou Denis
Goglin Brice
Putigny Bertrand
Publication venue: HAL CCSD
Publication date: 05/12/2011
Field of study

National audienceNous présentons un modèle exprimant le coût de la cohérence de cache au sein de processeurs multi-coeurs. Ce modèle est construit sur un ensemble de micro benchmarks prenant en compte l'état (dans protocole de cohérence) dans lequel sont les données. Ce modèle très fin permet d'adapter le tiling des boucles durant la phase de compilation afin, d'une part d'optimiser la réutilisation des données et, d'autre part de minimiser le surcoût dû au protocole de cohérence. Par ailleurs nous justifions les bénéfices de la finesse de notre modèle, et notamment de la prise en compte de l'état des lignes de cache dans notre modèle en montrant. Notre modélisation fine des caches montre que des optimisations mono-coeurs classiques telles que le tiling au niveau du cache L1 peuvent se révéler inefficaces sur des architectures parallèles. De plus l'utilisation de notre modèle permet de trouver les optimisations nécessaires à l'amélioration des performances sur des processeurs multi-coeurs

Latitudinal flux variations of thermal anelastic convection in a rotating spherical shell

Author: Gastine Thomas
Petitdemange Ludovic
Putigny Bertrand
Raynaud Raphaël
Rieutord Michel
Publication venue: HAL CCSD
Publication date: 18/09/2017
Field of study

International audienceFollowing interferometric observations of fast rotating stars, which now give new constraints on the latitudinal heat flux distribution, we investigate the influence of rotation on this quantity in solar-type stars, which own an outer convective envelope. To that end, we carried out a systematic parameter study of three-dimensional direct numerical simulations of anelastic convection in rotating spherical shells. As a first step, we neglect the centrifugal acceleration and retain only the Coriolis force. The fluid instability is driven by a fixed entropy drop between the inner and outer boundaries where stress-free boundary conditions are applied for the velocity field. Restricting our investigations to hydrodynamical models with a thermal Prandtl number fixed to unity, we consider both thick and thin shells with different degrees of stratification. We measure the heat transfer efficiency in terms of the Nusselt number, defined as the output luminosity normalised by the conductive state luminosity. We report diverse Nusselt number profiles in latitude, ranging from brighter (usually at the onset of convection) to darker equator and uniform profiles. We find that the luminosity contrast is mainly controlled by the surface value of the local Rossby number: when the Coriolis force dominates the force balance, the heat flux is weakened in the equatorial region by the zonal wind and enhanced at the poles by convective motions inside the tangent cylinder. But in presence of a strong background stratification, the radial dependence of the conductive entropy profile favours the sharp increase of the local Rossby number in the outer layers, which ultimately leads to the uniformisation of the surface heat flux distribution

HAL-INSU

HAL-OBSPM