7 research outputs found

    SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC

    Get PDF
    El manejo de fallos es una preocupaci贸n creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detecci贸n m谩s largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al d铆a y se propaguen para generar desde ca铆das de procesos hasta corrupciones de resultados debidas a fallos no detectados. En este trabajo se describe la utilizaci贸n de SEDAR, una herramienta que permite detectar fallos transitorios en aplicaciones MPI, y recuperar autom谩ticamente las ejecuciones, posibilitando su finalizaci贸n con resultados fiables. La detecci贸n se basa en replicaci贸n de procesamiento y monitorizaci贸n del env铆o de mensajes y del c贸mputo local, mientras que la recuperaci贸n se logra utilizando m煤ltiples checkpoints de capa de sistema. El estudio del comportamiento de SEDAR en presencia de fallos, inyectados en distintos momentos durante la ejecuci贸n, permite evaluar su desempe帽o y caracterizar el overhead asociado a su utilizaci贸n. Las posibilidades de configurar el modo de uso, adapt谩ndolo a los requerimientos de cobertura y m谩ximo overhead permitido de un sistema particular, hacen de SEDAR una metodolog铆a factible y viable para la tolerancia a fallos transitorios en sistemas de HPC.Red de Universidades con Carreras en Inform谩tic

    SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC

    Get PDF
    El manejo de fallos es una preocupaci贸n creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detecci贸n m谩s largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al d铆a y se propaguen para generar desde ca铆das de procesos hasta corrupciones de resultados debidas a fallos no detectados. En este trabajo se describe la utilizaci贸n de SEDAR, una herramienta que permite detectar fallos transitorios en aplicaciones MPI, y recuperar autom谩ticamente las ejecuciones, posibilitando su finalizaci贸n con resultados fiables. La detecci贸n se basa en replicaci贸n de procesamiento y monitorizaci贸n del env铆o de mensajes y del c贸mputo local, mientras que la recuperaci贸n se logra utilizando m煤ltiples checkpoints de capa de sistema. El estudio del comportamiento de SEDAR en presencia de fallos, inyectados en distintos momentos durante la ejecuci贸n, permite evaluar su desempe帽o y caracterizar el overhead asociado a su utilizaci贸n. Las posibilidades de configurar el modo de uso, adapt谩ndolo a los requerimientos de cobertura y m谩ximo overhead permitido de un sistema particular, hacen de SEDAR una metodolog铆a factible y viable para la tolerancia a fallos transitorios en sistemas de HPC.Red de Universidades con Carreras en Inform谩tic

    SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC

    Get PDF
    El manejo de fallos es una preocupaci贸n creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detecci贸n m谩s largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al d铆a y se propaguen para generar desde ca铆das de procesos hasta corrupciones de resultados debidas a fallos no detectados. En este trabajo se describe la utilizaci贸n de SEDAR, una herramienta que permite detectar fallos transitorios en aplicaciones MPI, y recuperar autom谩ticamente las ejecuciones, posibilitando su finalizaci贸n con resultados fiables. La detecci贸n se basa en replicaci贸n de procesamiento y monitorizaci贸n del env铆o de mensajes y del c贸mputo local, mientras que la recuperaci贸n se logra utilizando m煤ltiples checkpoints de capa de sistema. El estudio del comportamiento de SEDAR en presencia de fallos, inyectados en distintos momentos durante la ejecuci贸n, permite evaluar su desempe帽o y caracterizar el overhead asociado a su utilizaci贸n. Las posibilidades de configurar el modo de uso, adapt谩ndolo a los requerimientos de cobertura y m谩ximo overhead permitido de un sistema particular, hacen de SEDAR una metodolog铆a factible y viable para la tolerancia a fallos transitorios en sistemas de HPC.Red de Universidades con Carreras en Inform谩tic

    Coping with silent and fail-stop errors at scale by combining replication and checkpointing

    Get PDF
    International audienceThis paper provides a model and an analytical study of replication as a technique to cope with silent errors, as well as a mixture of both silent and fail-stop errors on large-scale platforms. Compared with fail-stop errors that are immediately detected when they occur, silent errors require a detection mechanism. To detect silent errors, many application-specific techniques are available, either based on algorithms (e.g., ABFT), invariant preservation or data analytics, but replication remains the most transparent and least intrusive technique. We explore the right level (duplication, triplication or more) of replication for two frameworks: (i) when the platform is subject to only silent errors, and (ii) when the platform is subject to both silent and fail-stop errors. A higher level of replication is more expensive in terms of resource usage but enables to tolerate more errors and to even correct some errors, hence there is a trade-off to be found. Replication is combined with checkpointing and comes with two flavors: process replication and group replication. Process replication applies to message-passing applications with communicating processes. Each process is replicated, and the platform is composed of process pairs, or triplets. Group replication applies to black-box applications, whose parallel execution is replicated several times. The platform is partitioned into two halves (or three thirds). In both scenarios, results are compared before each checkpoint, which is taken only when both results (duplication) or two out of three results (triplication) coincide. Otherwise, one or more silent errors have been detected, and the application rolls back to the last checkpoint, as well as when fail-stop errors have struck. We provide a detailed analytical study for all of these scenarios, with formulas to decide, for each scenario, the optimal parameters as a function of the error rate, checkpoint cost, and platform size. We also report a set of extensive simulation results that nicely corroborates the analytical model

    SEDAR: Detecci贸n y recuperaci贸n autom谩tica de fallos transitorios en sistemas de c贸mputo de altas prestaciones

    Get PDF
    El manejo de fallos es una preocupaci贸n creciente en el contexto del HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detecci贸n m谩s largos y fallos silenciosos. Se proyecta que, en los pr贸ximos sistemas de exa-escala, los errores ocurran incluso varias veces al d铆a y se propaguen en grandes aplicaciones paralelas, generando desde ca铆das de procesos hasta corrupciones de resultados debidas a fallos no detectados. En este trabajo se propone SEDAR, una metodolog铆a que mejora la fiabilidad, frente a los fallos transitorios, de un sistema que ejecuta aplicaciones paralelas de paso de mensajes. La soluci贸n dise帽ada, basada en replicaci贸n de procesos para la detecci贸n, combinada con diferentes niveles de checkpointing (checkpoints de nivel de sistema o de nivel de aplicaci贸n) para recuperar autom谩ticamente, tiene el objetivo de ayudar a los usuarios de aplicaciones cient铆ficas a obtener ejecuciones confiables con resultados correctos. La detecci贸n se logra replicando internamente cada proceso de la aplicaci贸n en threads y monitorizando los contenidos de los mensajes entre los threads antes de enviar a otro proceso; adem谩s, los resultados finales se validan para prevenir la corrupci贸n del c贸mputo local. Esta estrategia permite relanzar la ejecuci贸n desde el comienzo ni bien se produce la detecci贸n, sin esperar innecesariamente hasta la conclusi贸n incorrecta. Para la recuperaci贸n, se utilizan checkpoints de nivel de sistema, pero debido a que no existe garant铆a de que un checkpoint particular no contenga errores silenciosos latentes, se requiere el almacenamiento y mantenimiento de m煤ltiples checkpoints, y se implementa un mecanismo para reintentar recuperaciones sucesivas desde checkpoints previos si el mismo error se detecta nuevamente. La 煤ltima opci贸n es utilizar un 煤nico checkpoint de capa de aplicaci贸n, que puede ser verificado para asegurar su validez como punto de recuperaci贸n seguro. En consecuencia, SEDAR se estructura en tres niveles: (1) s贸lo detecci贸n y parada segura con notificaci贸n al usuario; (2) recuperaci贸n basada en una cadena de checkpoints de nivel de sistema; y (3) recuperaci贸n basada en un 煤nico checkpoint v谩lido de capa de aplicaci贸n. Cada una de estas variantes brinda una cobertura particular, pero tiene limitaciones inherentes y costos propios de implementaci贸n; la posibilidad de elegir entre ellos provee flexibilidad para adaptar la relaci贸n costo-beneficio a las necesidades de un sistema particular. Se presenta una descripci贸n completa de la metodolog铆a, su comportamiento en presencia de fallos y los overheads temporales de emplear cada una de las alternativas. Se describe un modelo que considera varios escenarios de fallos y sus efectos predecibles sobre una aplicaci贸n de prueba para realizar una verificaci贸n funcional. Adem谩s, se lleva a cabo una validaci贸n experimental sobre una implementaci贸n real de la herramienta SEDAR, utilizando diferentes benchmarks con patrones de comunicaci贸n dis铆miles. El comportamiento en presencia de fallos, inyectados controladamente en distintos momentos de la ejecuci贸n, permite evaluar el desempe帽o y caracterizar el overhead asociado a su utilizaci贸n. Tomando en cuenta esto, tambi茅n se establecen las condiciones bajo las cuales vale la pena comenzar con la protecci贸n y almacenar varios checkpoints para recuperar, en lugar de simplemente detectar, detener la ejecuci贸n y relanzar. Las posibilidades de configurar el modo de uso, adapt谩ndolo a los requerimientos de cobertura y m谩ximo overhead permitido de un sistema particular, muestran que SEDAR es una metodolog铆a eficaz y viable para la tolerancia a fallos transitorios en entornos de HPC.Tesis con direcci贸n conjunta por convenio de colaboraci贸n entre la Universidad Nacional de La Plata (UNLP) y la Universidad Aut贸noma de Barcelona (UAB).Facultad de Inform谩tic

    XXV Congreso Argentino de Ciencias de la Computaci贸n - CACIC 2019: libro de actas

    Get PDF
    Trabajos presentados en el XXV Congreso Argentino de Ciencias de la Computaci贸n (CACIC), celebrado en la ciudad de R铆o Cuarto los d铆as 14 al 18 de octubre de 2019 organizado por la Red de Universidades con Carreras en Inform谩tica (RedUNCI) y Facultad de Ciencias Exactas, F铆sico-Qu铆micas y Naturales - Universidad Nacional de R铆o CuartoRed de Universidades con Carreras en Inform谩tic

    XXV Congreso Argentino de Ciencias de la Computaci贸n - CACIC 2019: libro de actas

    Get PDF
    Trabajos presentados en el XXV Congreso Argentino de Ciencias de la Computaci贸n (CACIC), celebrado en la ciudad de R铆o Cuarto los d铆as 14 al 18 de octubre de 2019 organizado por la Red de Universidades con Carreras en Inform谩tica (RedUNCI) y Facultad de Ciencias Exactas, F铆sico-Qu铆micas y Naturales - Universidad Nacional de R铆o CuartoRed de Universidades con Carreras en Inform谩tic
    corecore