2 research outputs found

    Software architecture for fault-recovery using quasi-synchronous checkpointing

    Get PDF
    Orientadores: Islene Calciolari GarciaDissertaĆ§Ć£o (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaĆ§Ć£oResumo: Um sistema distribuĆ­do tolerante a falhas que utilize recuperaĆ§Ć£o por retrocesso de estado deve selecionar os checkpoints dos seus processos que serĆ£o gravados. AlĆ©m dessa seleĆ§Ć£o, definida por um protocolo de checkpointing, o sistema precisa realizar uma coleta de lixo, para eliminar os checkpoints que se tornam obsoletos Ć  medida que a aplicaĆ§Ć£o executa. Assim, na ocorrĆŖncia de uma falha, a computaĆ§Ć£o pode ser retrocedida para um estado consistente salvo anteriormente. Esta dissertaĆ§Ć£o discute os aspectos teĆ³ricos e prĆ”ticos de um sistema distribuĆ­do tolerante a falhas que utiliza protocolos de checkpointing quase-sĆ­ncronos e algoritmos para a coleta de lixo e recuperaĆ§Ć£o por retrocesso. Existem vĆ”rios protocolos de checkpointing na literatura, e nesta dissertaĆ§Ć£o foram estudados os protocolos de checkpointing quase-sĆ­ncronos. Esses protocols enviam informaƧƵes de controle juntamente com as mensagens da aplicaĆ§Ć£o, e podem exigir a gravaĆ§Ć£o de checkpoints forƧados, mas nĆ£o necessitam de sincronizaĆ§Ć£o ou troca de mensagens de controle entre os processos. Com base nesse estudo, um framework para protocolos de checkpointing quase-sincronos foi implementado numa biblioteca de troca de mensagens chamada LAM/MPI. AlĆ©m disso, uma arquitetura de software para recuperaĆ§Ć£o de falhas por retrocesso de estado chamada Curupira tambĆ©m foi estudada e implementada naquela biblioteca. O Curupira_e a primeira arquitetura de software que n~ao precisa de troca de mensagens de controle ou qualquer sincronizaĆ§Ć£o entre os processos na execuĆ§Ć£o dos protocolos de checkpointing e de coleta de lixoAbstract: A fault-tolerant distributed system based on rollback-recovery has to checkpoints of its processes are stored. Besides this selection, that is controlled checkpointing protocol, the system has to do garbage collection, in order to eliminate that become obsolete while the application executes. The garbage collection because checkpoints require the use of storage resources and the storage has limited capacity. So, when some fault occurs, the whole distributed be restored to a consistent global state previously stored. This dissertation practical and theoretical aspects of a fault-tolerant distributed system quasisynchronous checkpointing protocols and also garbage collection and algorithms. There are several checkpointing protocols proposed in the literature, quasisynchronous ones were studied in this dissertation. These protocols information in the application's messages and can induce forced checkpoints, need any synchronization or exchanging of control messages among on that study, a framework for quasi-synchronous checkpointing implemented in a message passing library called LAM/MPI. Moreover, a based on rollback-recovery from faults named Curupira was also implemented in that library. Curupira is the _rst software architecture exchanging of control messages or any synchronization among the execution of the checkpointing and garbage collection protocolsMestradoSistemas DistribuidosMestre em CiĆŖncia da ComputaĆ§Ć£
    corecore