5 research outputs found
A New Model for Cluster Communications Optimization
Performance losses of cluster applications can arise from various sources in the communications network of computer clusters. Typically, CPU intensive applications generate a small amount of network traffic the overall influence of the network subsystem is minimal. On the other hand, a dataintensive and network aware application generates a large amount of network traffic and the influence of the network subsystem is significantly greater. This paper presents a model that aims to improve the cluster’s network performance by reducing the data transfer time, this solution having the advantage that doesn’t imply modifications of the original applications or of the kernel
Recommended from our members
CLUE: A Cluster Evaluation Tool
Modern high performance computing is dependent on parallel processing systems. Most current benchmarks reveal only the high level computational throughput metrics, which may be sufficient for single processor systems, but can lead to a misrepresentation of true system capability for parallel systems. A new benchmark is therefore proposed. CLUE (Cluster Evaluator) uses a cellular automata algorithm to evaluate the scalability of parallel processing machines. The benchmark also uses algorithmic variations to evaluate individual system components' impact on the overall serial fraction and efficiency. CLUE is not a replacement for other performance-centric benchmarks, but rather shows the scalability of a system and provides metrics to reveal where one can improve overall performance. CLUE is a new benchmark which demonstrates a better comparison among different parallel systems than existing benchmarks and can diagnose where a particular parallel system can be optimized
Diseño de un sistema de comunicaciones para virtualización remota de aceleradores gráficos sobre sistemas heterogéneos
El consumo de energía es una de las principales preocupaciones en el diseño
de cualquier sistema de HPC y ha sido recientemente reconocido como uno
de los grandes retos para alcanzar el siguiente hito en el rendimiento de los
supercomputadores: un EXAFLOPS. Para lograr este ambicioso
objetivo, es necesario diseñar supercomputadores cada vez más eficientes desde
el punto de vista energético, sin perder de vista el rendimiento.
En este contexto, la incorporación de los aceleradores gráficos a los
sistemas HPC actuales ha dado lugar a clústeres de máquinas con varios
núcleos donde cada nodo está equipado con su propio acelerador. En principio,
esto ha supuesto un aumento de la eficiencia energética de estas
configuraciones. Sin embargo, los aceleradores pueden permanecer inactivos gran
parte del tiempo, durante el cual siguen consumiendo una importante cantidad
de energía. Para conseguir un uso más eficiente de las GPUs
se han desarrollado varias tecnologías de virtualización de GPUs que permiten
ejecutar aplicaciones aceleradas con GPUs accediendo a un acelerador gráfico
instalado en un nodo remoto. En la actualidad, la solución más destacada
por su robustez, flexibilidad y eficiencia es rCUDA.
Otra de las estrategias para aumentar la eficiencia energética de los
clústeres consiste en reemplazar los nodos que incluyen procesadores de
propósito general, con un elevado consumo energético, por un número mayor
de plataformas con núcleos de menor capacidad de cálculo, pero bajo consumo
de potencia eléctrica. Ahora bien, estas configuraciones incrementan el
tiempo de ejecución de las aplicaciones de HPC, lo que a larga puede redundar
en un mayor consumo de energía.
Este trabajo de investigación aborda el diseño, implementación y evaluación
de un sistema de comunicaciones para la virtualización remota de GPUs basado
en rCUDA, utilizando redes de alto rendimiento sobre sistemas heterogéneos.
En concreto, las propuestas desarrolladas en esta tesis permiten aprovechar
las posibilidades de ahorro energético que pueden conseguirse al aplicar la
virtualización de GPUs en un clúster heterogéneo que cuenta con nodos basados
en procesadores propósito general, plataformas multinúcleo de bajo consumo y
arquitecturas híbridas (CPU-GPU) interconectadas por redes de alto rendimiento
que soportan \mbox{el protocolo RDMA}. La evaluación experimental del rendimiento y
del consumo energético se efectúa en base a un conjunto de aplicaciones aceleradas
con GPUs remotas. El marco de trabajo contempla varias configuraciones
representativas de los futuros sistemas de HPC, caracterizados por arquitecturas
heterogéneas dirigidas a aumentar la potencia de cálculo teniendo en cuenta
la eficiencia energética. Los resultados obtenidos demuestran el potencial
de las propuestas desarrolladas en este trabajo para incrementar la eficiencia
energética de la solución de virtualización de rCUDA
Integrating new capabilities into NetPIPE
Abstract. The performance of the communication network can greatly affect the ability of scientific applications to make efficient use of the computational power available in high-performance computing systems. Many tools exist for analyzing network performance, but most concentrate on a single layer in the communication subsystem or on one type of network hardware. NetPIPE was developed to provide a complete and consistent set of analytical tools in a flexible framework that can be applied to analyze the message-passing libraries and the native software layers that they run on. Examples are given on how NetPIPE is being enhanced to enable research in channel bonding multiple Gigabit Ethernet interfaces, to analyze InfiniBand hardware and the MPI libraries being developed for it, and to optimize memory copy routines to make SMP message-passing more efficient.