Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC

Abstract

Tras la recuperación de un fallo, las aplicaciones pierden prestaciones debido, en gran parte, a que el número planificado de nodos ha disminuido y de la pérdida que provoca la existencia no planificada de procesos compartiendo el mismo nodo. Este trabajo presenta una propuesta para mitigar las pérdidas de prestaciones en sistemas paralelos con tolerancia a fallos basados en rollback-recovery, después de un fallo, donde la máquina paralela queda reconfigurada con un nodo menos, con la consiguiente repercusión en el tiempo de ejecución de la aplicación. Proponemos para recuperar las prestaciones, una solución que extiende la arquitectura RADIC: la posibilidad de permitir, durante la ejecución de la aplicación, el reemplazo de nodos que han fallado o disponer de nodos extras que pueden ser iniciados con la aplicación, pero sin procesos de la aplicación activos, de forma que cuando falle un nodo pase a ejecutar los procesos en dicho nodoAfter a fault recovering, the reduction of the planned nodes number and the existence of unplanned process node sharing, leads to application performance lost. This work presents a proposal to minimize the performance lost in rollback-recovery based fault tolerant parallel systems, after a fault occurrence, when the parallel machine reconfigure itself with one node less, affecting the application total execution time. In order to restore the performance, we propose a solution that extends the RADIC architecture: the possibility of, during the application execution, allow the faulty nodes replacement or to have process free spare nodes that may or not be started with the application, in order to under a node failure assumes the process that was in execution on the faulty node.VII Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Informática (RedUNCI

    Similar works