2 research outputs found

    Analyzing the effects of transient faults into applications

    Get PDF
    As computer chips implementation technologies evolve to obtain more performance, those computer chips are using smaller components, with bigger density of transistors and working with lower power voltages. All these factors turn the computer chips less robust and increase the probability of a transient fault. Transient faults may occur once and never more happen the same way in a computer system lifetime. There are distinct consequences when a transient fault occurs: the operating system might abort the execution if the change produced by the fault is detected by bad behavior of the application, but the biggest risk is that the fault produces an undetected data corruption that modifies the application final result without warnings (for example a bit flip in some crucial data). With the objective of researching transient faults in computer system's processor registers and memory we have developed an extension of HP's and AMD joint full system simulation environment, named COTSon. This extension allows the injection of faults that change a single bit in processor registers and memory of the simulated computer. The developed fault injection system makes it possible to: evaluate the effects of single bit flip transient faults in an application, analyze an application robustness against single bit flip transient faults and validate fault detection mechanism and strategies.L'evoluci贸 dels processadors en cerca de millors prestacions fa que els xips duguin transistors m茅s petits i incloguin major quantitat y densitat de transistors, a m茅s d'operar amb un voltatge m茅s baix. Tots aquests factors fan que els processadors siguin menys robusts i augmenten la probabilitat de fallades transit貌ries. Les fallades transit貌ries poden oc贸rrer una vegada i no tornar a passar de la mateixa forma en la vida 煤til d'un sistema. Quan ocorren poden passar diferents conseq眉猫ncies: el sistema operatiu pot avortar l'execuci贸 quan el canvi produ茂t per la fallada 茅s detectat per mal comportament de l'aplicaci贸, per貌 el risc major 茅s que, amb el canvi produ茂t, ocasioni una corrupci贸 de dades que no sigui detectada i canvi茂 el resultat final de l'aplicaci贸 sense que ning煤 ho s脿piga. Per a investigar sobre els efectes que les fallades transit貌ries poden ocasionar en els registres d'un processador i en les mem貌ries d'un computador, hem desenvolupat una extensi贸 del simulador d'ordinadors complet de HP (COTSon). L'extensi贸 realitzada permet la injecci贸 de fallades que canvien un bit en registres i en les mem貌ries del computador simulat. La injecci贸 de fallades permet: avaluar els efectes de les fallades transit貌ries que ocasionen el canvi d'un bit en una aplicaci贸, analitzar la robustesa d'una aplicaci贸 despr茅s de fallades transit貌ries de canvis del valor d'un bit i validar mecanismes i estrat猫gies de detecci贸 de fallades.La evoluci贸n de los procesadores en busca de prestaciones mejores hace que los circuitos lleven transistores m谩s peque帽os e incluyan mayor cantidad y densidad de transistores, adem谩s de operar con un voltaje menor. Todos estos factores hacen que los procesadores sean menos robustos y aumenta la probabilidad de fallos transitorios. Los fallos transitorios pueden ocurrir una vez y no volver a pasar, de la misma forma, en la vida 煤til de un sistema. Cuando ocurren, pueden pasar distintas consecuencias: el sistema operativo puede abortar la ejecuci贸n cuando el cambio producido por el fallo es detectado por mal comportamiento de la aplicaci贸n, pero el riesgo mayor es que, con el cambio producido, se produzca una corrupci贸n de datos que no sea detectada y cambie el resultado final de la aplicaci贸n sin que sea detectado. Para investigar sobre los efectos que los fallos transitorios pueden ocasionar en los registros de un procesador y en las memorias de un computador, hemos desarrollado una extensi贸n del simulador de ordenadores completo de HP (COTSon). La extensi贸n realizada permite la inyecci贸n de fallos que cambian un bit en registros y en las memorias del computador simulado. La inyecci贸n de fallos permite: evaluar los efectos de los fallos transitorios que ocasionan cambio de un bit en una aplicaci贸n, analizar la robustez de una aplicaci贸n tras fallos transitorios de cambios del valor de un bit y validar mecanismos y estrategias de detecci贸n de fallos
    corecore