6 research outputs found

    RADIC scalability analysis: functional Mmodel

    Get PDF
    In parallel systems, a number of measures of performance are not accurate or representative of their functioning. These measures allow to quantify the benefit of parallelism. Very often, programs are designed and tested for smaller problems on fewer processing elements. However, the real problems these programs are intended to solve are much larger, and the machines contain a great number of processing elements. Hence, it is necessary to create a model that allows to extrapolate the application execution over a few processing elements to larger machine configurations. These measures are more complex if we consider faults. When we take measures we must understand the interaction among system architecture, application architecture and fault tolerant system. In this paper we present a model which analyzes the combination parallel computer, parallel application and RADIC fault tolerance architecture.Presentado en el IX Workshop Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI

    Extensi贸n de CluSim: Simulaci贸n de la arquitectura tolerante a fallos RADIC

    Get PDF
    Los sistemas de C贸mputo de Altas Prestaciones se utilizan para desarrollar software en una gran cantidad de campos. Es evidente el creciente predominio e impacto de las aplicaciones del C贸mputo de Altas Prestaciones (High Performance Computing - HPC) en la sociedad moderna. Sin embargo, la presencia de fallos en el hardware o software de computadores paralelos hace necesario el uso de mecanismos tolerantes a fallos para asegurar que las aplicaciones finalicen exitosamente. Para ello se ha desarrollado RADIC, una arquitectura transparente, descentralizada, flexible y escalable para tolerancia a fallos que provee alta disponibilidad en sistemas de paso de mensajes. La falta de disponibilidad f铆sica de grandes clusters y el hecho de estar ligado a una implementaci贸n espec铆fica de MPI como base, son las principales dificultades con las que se encontraron los desarrolladores de RADIC. Como una soluci贸n a estos problemas el presente proyecto de investigaci贸n propone el desarrollo de un entorno de simulaci贸n para RADIC basado en OMNeT++, a partir de CLUSIM (Simulador de clusters basado en OMNet++).Eje: Procesamiento distribuido y paraleloRed de Universidades con Carreras en Inform谩tica (RedUNCI

    Desarrollo de un Entorno de Simulaci贸n basado en OMNeT++ para RADIC

    Get PDF
    Los sistemas de C贸mputo de Altas Prestaciones se utilizan para desarrollar software en una gran cantidad de campos. Actualmente es evidente el creciente predominio e impacto de las aplicaciones de HPC en la sociedad moderna. Sin embargo, la presencia de fallos en el hardware o software de computadores paralelos genera nuevas necesidades en el uso de mecanismos tolerantes a fallos para asegurar que las aplicaciones finalicen exitosamente. Es por ello que se ha desarrollado RADIC, una arquitectura transparente, descentralizada, flexible y escalable para tolerancia a fallos en sistemas de paso de mensajes que provee alta disponibilidad. Uno de las dificultades que sufren los desarrolladores de RADIC es realizar pruebas en grandes clusters y sin verse limitados por una implementaci贸n espec铆fica de MPI. Es por ello que la prensente l铆nea de investigaci贸on propone el desarrollo de un entorno de simulaci贸n basado en OMNeT++ para RADIC.Eje: Procesamiento distribuido y paraleloRed de Universidades con Carreras en Inform谩tica (RedUNCI

    Desarrollo de un Entorno de Simulaci贸n basado en OMNeT++ para RADIC

    Get PDF
    Los sistemas de C贸mputo de Altas Prestaciones se utilizan para desarrollar software en una gran cantidad de campos. Actualmente es evidente el creciente predominio e impacto de las aplicaciones de HPC en la sociedad moderna. Sin embargo, la presencia de fallos en el hardware o software de computadores paralelos genera nuevas necesidades en el uso de mecanismos tolerantes a fallos para asegurar que las aplicaciones finalicen exitosamente. Es por ello que se ha desarrollado RADIC, una arquitectura transparente, descentralizada, flexible y escalable para tolerancia a fallos en sistemas de paso de mensajes que provee alta disponibilidad. Uno de las dificultades que sufren los desarrolladores de RADIC es realizar pruebas en grandes clusters y sin verse limitados por una implementaci贸n espec铆fica de MPI. Es por ello que la prensente l铆nea de investigaci贸on propone el desarrollo de un entorno de simulaci贸n basado en OMNeT++ para RADIC.Eje: Procesamiento distribuido y paraleloRed de Universidades con Carreras en Inform谩tica (RedUNCI

    RADIC scalability analysis: functional Mmodel

    Get PDF
    In parallel systems, a number of measures of performance are not accurate or representative of their functioning. These measures allow to quantify the benefit of parallelism. Very often, programs are designed and tested for smaller problems on fewer processing elements. However, the real problems these programs are intended to solve are much larger, and the machines contain a great number of processing elements. Hence, it is necessary to create a model that allows to extrapolate the application execution over a few processing elements to larger machine configurations. These measures are more complex if we consider faults. When we take measures we must understand the interaction among system architecture, application architecture and fault tolerant system. In this paper we present a model which analyzes the combination parallel computer, parallel application and RADIC fault tolerance architecture.Presentado en el IX Workshop Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI

    RADIC II : a fault tolerant architecture with flexible dynamic redundancy

    Get PDF
    The demand for computational power has been leading the improvement of the High Performance Computing (HPC) area, generally represented by the use of distributed systems like clusters of computers running parallel applications. In this area, fault tolerance plays an important role in order to provide high availability isolating the application from the faults effects. Performance and availability form an undissociable binomial for some kind of applications. Therefore, the fault tolerant solutions must take into consideration these two constraints when it has been designed. In this dissertation, we present a few side-effects that some fault tolerant solutions may presents when recovering a failed process. These effects may causes degradation of the system, affecting mainly the overall performance and availability. We introduce RADIC-II, a fault tolerant architecture for message passing based on RADIC (Redundant Array of Distributed Independent Fault Tolerance Controllers) architecture. RADIC-II keeps as maximum as possible the RADIC features of transparency, decentralization, flexibility and scalability, incorporating a flexible dynamic redundancy feature, allowing to mitigate or to avoid some recovery side-effects.La demanda de computadores m谩s veloces ha provocado el incremento del 谩rea de computaci贸n de altas prestaciones, generalmente representado por el uso de sistemas distribuidos como los clusters de computadores ejecutando aplicaciones paralelas. En esta 谩rea, la tolerancia a fallos juega un papel muy importante a la hora de proveer alta disponibilidad, aislando los efectos causados por los fallos. Prestaciones y disponibilidad componen un binomio indisociable para algunos tipos de aplicaciones. Por eso, las soluciones de tolerancia a fallos deben tener en consideraci贸n estas dos restricciones desde el momento de su dise帽o. En esta disertaci贸n, presentamos algunos efectos colaterales que se puede presentar en ciertas soluciones tolerantes a fallos cuando recuperan un proceso fallado. Estos efectos pueden causar una degradaci贸n del sistema, afectando las prestaciones y disponibilidad finales. Presentamos RADIC-II, una arquitectura tolerante a fallos para paso de mensajes basada en la arquitectura RADIC (Redundant Array of Distributed Independent Fault Tolerance Controllers). RADIC-II mantiene al m谩ximo posible las caracter铆sticas de transparencia, descentralizaci贸n, flexibilidad y escalabilidad existentes en RADIC, e incorpora una flexible funcionalidad de redundancia din谩mica, que permite mitigar o evitar algunos efectos colaterales en la recuperaci贸n
    corecore