436 research outputs found

    Autonomous fault emulation: a new FPGA-based acceleration system for hardness evaluation

    Get PDF
    The appearance of nanometer technologies has produced a significant increase of integrated circuit sensitivity to radiation, making the occurrence of soft errors much more frequent, not only in applications working in harsh environments, like aerospace circuits, but also for applications working at the earth surface. Therefore, hardened circuits are currently demanded in many applications where fault tolerance was not a concern in the very near past. To this purpose, efficient hardness evaluation solutions are required to deal with the increasing size and complexity of modern VLSI circuits. In this paper, a very fast and cost effective solution for SEU sensitivity evaluation is presented. The proposed approach uses FPGA emulation in an autonomous manner to fully exploit the FPGA emulation speed. Three different techniques to implement it are proposed and analyzed. Experimental results show that the proposed Autonomous Emulation approach can reach execution rates higher than one million faults per second, providing a performance improvement of two orders of magnitude with respect to previous approaches. These rates give way to consider very large fault injection campaigns that were not possible in the past.This work was supported by the Directorate of Research of Madrid Community Government, Spain (Code 07/0052/2003 2) and by the European Commission and Spanish Government under MEDEA+ Project (PARACHUTE-2A701) and PROFIT Project (CIRCE-FIT-330100-2005-60)

    Hardware Fault Injection

    Get PDF
    Hardware fault injection is the widely accepted approach to evaluate the behavior of a circuit in the presence of faults. Thus, it plays a key role in the design of robust circuits. This chapter presents a comprehensive review of hardware fault injection techniques, including physical and logical approaches. The implementation of effective fault injection systems is also analyzed. Particular emphasis is made on the recently developed emulation-based techniques, which can provide large flexibility along with unprecedented levels of performance. These capabilities provide a way to tackle reliability evaluation of complex circuits.Publicad

    Functional and timing implications of transient faults in critical systems

    Get PDF
    Embedded systems in critical domains, such as auto-motive, aviation, space domains, are often required to guarantee both functional and temporal correctness. Considering transient faults, fault analysis and mitigation approaches are implemented at various levels of the system design, in order to maintain the functional correctness. However, transient faults and their mitigation methods have a timing impact, which can affect the temporal correctness of the system. In this work, we expose the functional and the timing implications of transient faults for critical systems. More precisely, we initially highlight the timing effect of transient faults occurring in the combinational and sequential logic of a processor. Furthermore, we propose a full stack vulnerability analysis that drives the design of selective hardware-based mitigation for real-time applications. Last, we study the timing impact of software-based reliability mitigation methods applied in a COTS GPU, using a fault tolerant middleware.This work has been partially funded by ANR-FASY (ANR-21-CE25-0008-01) and received funding by ESA through the 4000136514/21/NL/GLC/my co-funded PhD activity ”Mixed Software/Hardware-based Fault-tolerance Techniques for Complex COTS System-on-Chip in Radiation Environments” and the GPU4S (GPU for Space) project. Moreover, it was partially supported by the Spanish Ministry of Economy and Competitiveness under grants PID2019-107255GB-C21 and IJC2020-045931-I (Spanish State Research Agency / http://dx.doi.org/10.13039/501100011033), by the European Union’s Horizon 2020 grant agreement No 739551 (KIOS CoE) and from the Government of the Republic of Cyprus through the Cyprus Deputy Ministry of Research, Innovation and Digital Policy.Peer ReviewedPostprint (author's final draft

    Extensive SEU impact analysis of a PIC microprocessor for selective hardening

    Get PDF
    In order to increase the robustness of a circuit against SEUs, fault injection is commonly used to locate weak areas. autonomous emulation is a very powerful tool to locate these areas by executing huge fault injection campaigns. In this work, fault injection has been extensively applied to a PIC18 microprocessor, while executing three different workloads. A 80 million fault campaign has been performed, and results show that a failure rate lower than 1% can be obtained by hardening a 24% of the circuit flip-flops, for the given applications

    Efficient Error-Tolerant Quantized Neural Network Accelerators

    Full text link
    Neural Networks are currently one of the most widely deployed machine learning algorithms. In particular, Convolutional Neural Networks (CNNs), are gaining popularity and are evaluated for deployment in safety critical applications such as self driving vehicles. Modern CNNs feature enormous memory bandwidth and high computational needs, challenging existing hardware platforms to meet throughput, latency and power requirements. Functional safety and error tolerance need to be considered as additional requirement in safety critical systems. In general, fault tolerant operation can be achieved by adding redundancy to the system, which is further exacerbating the computational demands. Furthermore, the question arises whether pruning and quantization methods for performance scaling turn out to be counterproductive with regards to fail safety requirements. In this work we present a methodology to evaluate the impact of permanent faults affecting Quantized Neural Networks (QNNs) and how to effectively decrease their effects in hardware accelerators. We use FPGA-based hardware accelerated error injection, in order to enable the fast evaluation. A detailed analysis is presented showing that QNNs containing convolutional layers are by far not as robust to faults as commonly believed and can lead to accuracy drops of up to 10%. To circumvent that, we propose two different methods to increase their robustness: 1) selective channel replication which adds significantly less redundancy than used by the common triple modular redundancy and 2) a fault-aware scheduling of processing elements for folded implementationsComment: 6 pages, 5 figure

    A Methodology for Accelerating FPGA Fault Injection Campaign Using ICAP

    Get PDF
    The increasing complexity of System-on-Chip (SoC) and the ongoing technology miniaturization on Integrated Circuit (IC) manufacturing processes makes modern SoCs more susceptible to Single-Event Effects (SEE) caused by radiation, even at sea level. To provide realistic estimates at a low cost, efficient analysis techniques capable of replicating SEEs are required. Among these methods, fault injection through emulation using Field-Programmable Gate Array (FPGA) enables campaigns to be run on a Circuit Under Test (CUT). This paper investigates the use of an FPGA architecture to speed up the execution of fault campaigns. As a result, a new methodology for mapping the CUT occupation on the FPGA is proposed, significantly reducing the total number of faults to be injected. In addition, a fault injection technique/flow is proposed to demonstrate the benefits of cutting-edge approaches. The presented technique emulates Single-Event Transient (SET) in all combinatorial elements of the CUT using the Internal Configuration Access Port (ICAP) of Xilinx FPGAs.N/

    Speeding-up model-based fault injection of deep-submicron CMOS fault models through dynamic and partially reconfigurable FPGAS

    Full text link
    Actualmente, las tecnologías CMOS submicrónicas son básicas para el desarrollo de los modernos sistemas basados en computadores, cuyo uso simplifica enormemente nuestra vida diaria en una gran variedad de entornos, como el gobierno, comercio y banca electrónicos, y el transporte terrestre y aeroespacial. La continua reducción del tamaño de los transistores ha permitido reducir su consumo y aumentar su frecuencia de funcionamiento, obteniendo por ello un mayor rendimiento global. Sin embargo, estas mismas características que mejoran el rendimiento del sistema, afectan negativamente a su confiabilidad. El uso de transistores de tamaño reducido, bajo consumo y alta velocidad, está incrementando la diversidad de fallos que pueden afectar al sistema y su probabilidad de aparición. Por lo tanto, existe un gran interés en desarrollar nuevas y eficientes técnicas para evaluar la confiabilidad, en presencia de fallos, de sistemas fabricados mediante tecnologías submicrónicas. Este problema puede abordarse por medio de la introducción deliberada de fallos en el sistema, técnica conocida como inyección de fallos. En este contexto, la inyección basada en modelos resulta muy interesante, ya que permite evaluar la confiabilidad del sistema en las primeras etapas de su ciclo de desarrollo, reduciendo por tanto el coste asociado a la corrección de errores. Sin embargo, el tiempo de simulación de modelos grandes y complejos imposibilita su aplicación en un gran número de ocasiones. Esta tesis se centra en el uso de dispositivos lógicos programables de tipo FPGA (Field-Programmable Gate Arrays) para acelerar los experimentos de inyección de fallos basados en simulación por medio de su implementación en hardware reconfigurable. Para ello, se extiende la investigación existente en inyección de fallos basada en FPGA en dos direcciones distintas: i) se realiza un estudio de las tecnologías submicrónicas existentes para obtener un conjunto representativo de modelos de fallos transitoriosAndrés Martínez, DD. (2007). Speeding-up model-based fault injection of deep-submicron CMOS fault models through dynamic and partially reconfigurable FPGAS [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1943Palanci

    Contributions to the detection and diagnosis of soft errors in radiation environments

    Get PDF
    Texto completo descargado desde Teseo1. Introducción Los efectos de la radiación ionizante sobre dispositivos semiconductores es objeto de estudio desde la invención del transistor bipolar en 1947. El espacio es un entorno de alta radiación, como pusieron de manifiesto los primeros satélites puestos en órbita, y fue durante la carrera espacial de los años 50 cuando se impulsó el estudio de errores generados en componentes electrónicos críticos a bordo de las primeras misiones espaciales. La necesidad de robustecer la electrónica frente a la radiación ha estado siempre presente en el sector aeroespacial, además, el progresivo escalado de las tecnologías microelectrónicas, hace que el problema sea cada vez más acuciante, afectando incluso a dispositivos que operan a nivel del mar. El advenimiento de tecnologías nanométricas augura que serán necesarias nuevas y más eficaces técnicas de robustecimiento que garanticen la fiabilidad de equipos electrónicos críticos en sectores tan importantes como la aviación, automoción o energía nuclear. Existen dos métodos de robustecimiento para los dispositivos electrónicos, por proceso y por diseño. En el primer caso, el circuito integrado es fabricado en una tecnología que presenta baja sensibilidad a los efectos de la radiación, como la ampliamente utilizada SOI (Silicon On Insulator). En el segundo caso, el circuito presenta topologías en su diseño que mitigan en mayor o menor grado el daño por radiación. La efectividad de cualquier medida de protección debe ser validada en el correspondiente ensayo de radiación de acuerdo a los estándares vigentes (ESA, NASA, JEDEC, AEC,...). Existen varios tipos de daño por radiación, asociados a dosis acumulada (TID) y a eventos únicos (SEE), fundamentalmente. Estos últimos están asociados al paso de una única partícula energética a través del dispositivo, que genera una estela de carga y puede dar lugar a respuestas eléctricas no deseadas, como conmutación 2 2 Antecedentes de biestables, enclavamiento de un bit o excursiones de voltaje transitorias. A su vez, dentro de los errores asociados a eventos únicos se puede distinguir entre daños físicos, que pueden destruir el dispositivo de manera irreversible, y errores lógicos o soft errors que conllevan la corrupción del estado de un circuito digital, por ejemplo por la conmutación del valor lógico de un biestable. Los tests en aceleradores de partículas o con fuentes radiactivas, se consideran los ensayos más representativos para conocer la inmunidad de un componente frente al daño de tipo SEE. Sin embargo, la complejidad de estos ensayos dificulta la observabilidad experimental y la interpretación de los resultados obtenidos. En particular los tests dinámicos, que implican que el chip esté operando durante la irradiacón, comportan una dificultad añadida a la hora de interpretar los errores observados en las salidas del circuito. El test dinámico de radiación es el más realista, ya que introduce la variable temporal en el experimento y da lugar a efectos reales que no son reproducibles en condiciones estáticas, como el evento único transitorio (SET). El trabajo a realizar durante esta tesis pretende aportar una metodología de test que mejore la observabilidad de errores lógicos en un test dinámico de radiación de circuitos digitales mediante detección y diagnóstico en tiempo real. 2. Antecedentes La experiencia investigadora del grupo al que pertenece el autor de esta tesis en el campo de los efectos de la radiación sobre dispositivos electrónicos, ha puesto de manifiesto la necesidad de establecer una metodología que permita el diagnóstico de los errores observados en un componente electrónico sometido a radiación ionizante. Generalmente, no es posible correlacionar con certeza el efecto (anomalía detectada en los puertos de salida) con la causa del mismo. La complejidad inherente a la instrumentación de un ensayo de radiación en un acelerador 3 3 Hipótesis y Objetivos de partículas, así como la propia comlejidad del circuito bajo estudio, requieren algún criterio de clasificación de los errores observados que pueden ser de muy diversa naturaleza. Algunos autores han aportado técnicas que combinan inyección de fallos dinámica con test en acelerador estáticos para estimar la probabilidad de fallo real del circuito, salvando la complejidad del test de radiación dinámico. La protección selectiva, consistente en adoptar topologías de diseño robustas en ¿puntos calientes¿ o críticos del circuito, requiere técnicas de ensayo que permita el diagnóstico y localización del daño por radiación. El uso de microsondas nucleares permite la focalización de un haz de iones en una región relativamente pequeña, facilitando el diagnóstico. La disponibilidad de uso de la microsonda nuclear en el Centro Nacional de Aceleradores puede contribuir al desarrollo de la técnica de detección y diagnóstico que es objeto de esta tesis. La curva de sección eficaz de fallo SEE es la forma más extendida de representación de resultados de experimentación. Estas curvas representan una colección de datos experimentales que deben ser minuciosamente clasificados. Lo mismo ocurre en los tests destinados a evaluar la tasa de errores lógicos en tiempo real (RTSER). En este sentido, la norma JEDEC JESD89-1A recomienda que se sigan ¿criterios de fallo¿ para la correcta identificación de los errores detectados a la salida de un circuito en tests de radiación. 3. Hipótesis y Objetivos El grupo de investigación al que pertenece el doctorando, posee una contrastada experiencia en el uso de emuladores hardware para la evaluación temprana de la robustez de diseños digitales ante errores lógicos. Estos emuladores inyectan fallos en la netlist de un diseño digital y estudian la evolución del estado del circuito durante la ejecución de un conjunto de estímulos. La principal ventaja de estas herramientas frente a la simulación, radica en la aceleración hardware de los 4 3 Hipótesis y Objetivos tests que permite la finalización de campañas de inyección masivas en un tiempo relativamente corto. Las campañas masivas o sistemáticas de inyección de fallos permiten comprobar de forma exhaustiva la respuesta de un diseño digital a un entorno de alta radiación. Estas campañas arrojan una ingente cantidad de información acerca de las vulnerabilidades del diseño que debe ser procesada generalmente de forma estadística. La correlación entre el instante y lugar de inyección del fallo emulado y la respuesta del mismo, sería una información que permitiría establecer la causa de un error (comportamiento anómalo) observado durante un test de radiación, donde generalmente sólo están accesibles las salidas del dispositivo. Los resultados de una campaña de inyección dependen, además del diseño bajo test, del conjunto de estímulos aplicado (workload). A partir de los resultados de la campaña de inyección masiva, se puede realizar un estudio estadístico que determine la calidad de los vectores de test desde el punto de vista del diagnóstico. Es de esperar que diferentes fallos inyectados compartan la misma firma, de manera que en caso de obtener dicha firma en un test de radiación, sea imposible determinar exactamente el punto de inyección del fallo. A la hora de preparar un test de radiación, es recomendable emplear vectores de test que garanticen que la certidumbre del diagnóstico sea máxima, lo cual es un aporte adicional de la tesis. Esta tesis pretende establecer un procedimiento que permita obtener ¿diccionarios de fallos¿ en los que se establece una correlación entre el punto de inyección y la respuesta del circuito codificada en una firma de pocos bytes. Durante un test de radiación se pueden obtener en tiempo real las firmas generadas por el circuito, que servirán para diagnosticar en cada caso el origen del daño empleando los diccionarios de fallos previamente generados en un emulador hardware. En el supuesto de que la firma generada durante la irradiación no estuviera contenida en un diccionario exhaustivo, se puede decir que el error no ha sido originado por el 5 4 Metodología y Trabajo Realizado modelo de fallo empleado en la generación del diccionario, debiéndose por tanto a un tipo de daño no contemplado (por ejemplo daño físico). La culminación de la tesis es el test de radiación en un acelerador de partículas. La Universidad de Sevilla cuenta con las instalaciones del Centro Nacional de Aceleradores, que puede ser un banco de pruebas idóneo para comprobar la validez de la metodología y comprobar las ventajas e inconvenientes de la misma. 4. Metodología y Trabajo Realizado El plan de trabajo incluyó los siguientes hitos en el orden expuesto: Estudio de la base de conocimiento genérica relacionada con los efectos de la radiación en circuitos electrónicos Análisis del Estado del Arte en técnicas de inyección de fallos en circuitos digitales. Recopilación de normas y estándares relacionados con los test radiación de componentes electrónicos. Estudio simulado de bajo nivel de los efectos de la radiación en tecnologías submicrométricas. Selección de un módulo adecuado para creación de firmas a partir de las salidas de un circuito digital. Adecuación del emulador hardware FT-UNSHADES para la generación de firmas durante las campañas de inyección. Selección de un vehículo de test para el experimento en la microsonda nuclear del CNA. 6 4 Metodología y Trabajo Realizado Realización de campañas de inyección masivas para la generación de diccionarios de fallos sobre diseños digitales y análisis de resultados. Preparación del setup experimental para el acelerador de partículas. Experimento en la microsonda nuclear del CNA y análisis de resultados. El estudio bibliográfico de la base de conocimiento en el campo de los efectos de la radiación sobre circuitos electrónicos ha sido fundamental para poder establecer el ámbito de aplicación de la tesis. El papel de la emulación hardware para inyección de fallos en esta investigación fue crítica y ha sido necesario un estudio de las plataformas existentes para entender qué puede aportar cada herramienta. Para acabar con la documentación, es necesario además recopilar las normas y estándares relacionados con test de radiación de circuitos electrónicos. La simulación de bajo nivel de los efectos de la radiación sobre una determinada tecnología engloba herramientas como SPICE, SRIM y TCAD. Estas simulaciones permiten estimar cuales deben ser las características del haz de iones empleado en un futuro ensayo en el acelerador de partículas. Los resultados de estas simulaciones fueron discutidos con los técnicos del acelerador para estudiar la viabilidad de los parámetros deseados. Un elemento clave en la metodología fue el bloque que debe generar las firmas a partir de las salidas del circuito digital. Es deseable que se trate de un módulo sencillo y que pueda ser implementado en un dispositivo programable sin suponer un consumo excesivo de recursos. El emulador FT-UNSHADES fue adaptado par incorporar el módulo de firmas. Se dispuso de un circuito integrado que servió vehículo de test para un experimento en el CNA. Es necesaria además la descripción VHDL del mismo para su emulación en FT-UNSHADES. No es objeto de esta tesis el desarrollo de este componente, su diseño y fabricación está fuera del alcance de esta tesis. Se gener- 7 4 Metodología y Trabajo Realizado aron diccionarios de fallos del vehículo de tests y de otros diseños digitales y, a partir de estos diccionarios, se han confeccionado estudios estadísticos de diagnóstico. En una fase ulterior, se desarrolló el hardware necesario para el setup experimental. Todo el hardware se probó en el laboratorio, antes de acudir al CNA. El resultado de esta etapa es la configuración del equipamiento de test automático (ATE) que se encargó de introducir estímulos en el chip y monitorizarlo durante el experimento en el acelerador de partículas. Finalmente, se llevó a cabo un experimento en el Centro Nacional de Aceleradores sobre el vehículo de test elegido para completar una prueba de concepto de la metodología propuesta.

    Real-time fault injection using enhanced on-chip debug infrastructures

    Get PDF
    The rapid increase in the use of microprocessor-based systems in critical areas, where failures imply risks to human lives, to the environment or to expensive equipment, significantly increased the need for dependable systems, able to detect, tolerate and eventually correct faults. The verification and validation of such systems is frequently performed via fault injection, using various forms and techniques. However, as electronic devices get smaller and more complex, controllability and observability issues, and sometimes real time constraints, make it harder to apply most conventional fault injection techniques. This paper proposes a fault injection environment and a scalable methodology to assist the execution of real-time fault injection campaigns, providing enhanced performance and capabilities. Our proposed solutions are based on the use of common and customized on-chip debug (OCD) mechanisms, present in many modern electronic devices, with the main objective of enabling the insertion of faults in microprocessor memory elements with minimum delay and intrusiveness. Different configurations were implemented starting from basic Components Off-The-Shelf (COTS) microprocessors, equipped with real-time OCD infrastructures, to improved solutions based on modified interfaces, and dedicated OCD circuitry that enhance fault injection capabilities and performance. All methodologies and configurations were evaluated and compared concerning performance gain and silicon overhead

    An Experimental Study of Reduced-Voltage Operation in Modern FPGAs for Neural Network Acceleration

    Get PDF
    We empirically evaluate an undervolting technique, i.e., underscaling the circuit supply voltage below the nominal level, to improve the power-efficiency of Convolutional Neural Network (CNN) accelerators mapped to Field Programmable Gate Arrays (FPGAs). Undervolting below a safe voltage level can lead to timing faults due to excessive circuit latency increase. We evaluate the reliability-power trade-off for such accelerators. Specifically, we experimentally study the reduced-voltage operation of multiple components of real FPGAs, characterize the corresponding reliability behavior of CNN accelerators, propose techniques to minimize the drawbacks of reduced-voltage operation, and combine undervolting with architectural CNN optimization techniques, i.e., quantization and pruning. We investigate the effect of environmental temperature on the reliability-power trade-off of such accelerators. We perform experiments on three identical samples of modern Xilinx ZCU102 FPGA platforms with five state-of-the-art image classification CNN benchmarks. This approach allows us to study the effects of our undervolting technique for both software and hardware variability. We achieve more than 3X power-efficiency (GOPs/W) gain via undervolting. 2.6X of this gain is the result of eliminating the voltage guardband region, i.e., the safe voltage region below the nominal level that is set by FPGA vendor to ensure correct functionality in worst-case environmental and circuit conditions. 43% of the power-efficiency gain is due to further undervolting below the guardband, which comes at the cost of accuracy loss in the CNN accelerator. We evaluate an effective frequency underscaling technique that prevents this accuracy loss, and find that it reduces the power-efficiency gain from 43% to 25%.Comment: To appear at the DSN 2020 conferenc
    corecore