2 research outputs found

    Degradation Models and Optimizations for CMOS Circuits

    Get PDF
    Die Gewährleistung der Zuverlässigkeit von CMOS-Schaltungen ist derzeit eines der größten Herausforderungen beim Chip- und Schaltungsentwurf. Mit dem Ende der Dennard-Skalierung erhöht jede neue Generation der Halbleitertechnologie die elektrischen Felder innerhalb der Transistoren. Dieses stärkere elektrische Feld stimuliert die Degradationsphänomene (Alterung der Transistoren, Selbsterhitzung, Rauschen, usw.), was zu einer immer stärkeren Degradation (Verschlechterung) der Transistoren führt. Daher erleiden die Transistoren in jeder neuen Technologiegeneration immer stärkere Verschlechterungen ihrer elektrischen Parameter. Um die Funktionalität und Zuverlässigkeit der Schaltung zu wahren, wird es daher unerlässlich, die Auswirkungen der geschwächten Transistoren auf die Schaltung präzise zu bestimmen. Die beiden wichtigsten Auswirkungen der Verschlechterungen sind ein verlangsamtes Schalten, sowie eine erhöhte Leistungsaufnahme der Schaltung. Bleiben diese Auswirkungen unberücksichtigt, kann die verlangsamte Schaltgeschwindigkeit zu Timing-Verletzungen führen (d.h. die Schaltung kann die Berechnung nicht rechtzeitig vor Beginn der nächsten Operation abschließen) und die Funktionalität der Schaltung beeinträchtigen (fehlerhafte Ausgabe, verfälschte Daten, usw.). Um diesen Verschlechterungen der Transistorparameter im Laufe der Zeit Rechnung zu tragen, werden Sicherheitstoleranzen eingeführt. So wird beispielsweise die Taktperiode der Schaltung künstlich verlängert, um ein langsameres Schaltverhalten zu tolerieren und somit Fehler zu vermeiden. Dies geht jedoch auf Kosten der Performanz, da eine längere Taktperiode eine niedrigere Taktfrequenz bedeutet. Die Ermittlung der richtigen Sicherheitstoleranz ist entscheidend. Wird die Sicherheitstoleranz zu klein bestimmt, führt dies in der Schaltung zu Fehlern, eine zu große Toleranz führt zu unnötigen Performanzseinbußen. Derzeit verlässt sich die Industrie bei der Zuverlässigkeitsbestimmung auf den schlimmstmöglichen Fall (maximal gealterter Schaltkreis, maximale Betriebstemperatur bei minimaler Spannung, ungünstigste Fertigung, etc.). Diese Annahme des schlimmsten Falls garantiert, dass der Chip (oder integrierte Schaltung) unter allen auftretenden Betriebsbedingungen funktionsfähig bleibt. Darüber hinaus ermöglicht die Betrachtung des schlimmsten Falles viele Vereinfachungen. Zum Beispiel muss die eigentliche Betriebstemperatur nicht bestimmt werden, sondern es kann einfach die schlimmstmögliche (sehr hohe) Betriebstemperatur angenommen werden. Leider lässt sich diese etablierte Praxis der Berücksichtigung des schlimmsten Falls (experimentell oder simulationsbasiert) nicht mehr aufrechterhalten. Diese Berücksichtigung bedingt solch harsche Betriebsbedingungen (maximale Temperatur, etc.) und Anforderungen (z.B. 25 Jahre Betrieb), dass die Transistoren unter den immer stärkeren elektrischen Felder enorme Verschlechterungen erleiden. Denn durch die Kombination an hoher Temperatur, Spannung und den steigenden elektrischen Feldern bei jeder Generation, nehmen die Degradationphänomene stetig zu. Das bedeutet, dass die unter dem schlimmsten Fall bestimmte Sicherheitstoleranz enorm pessimistisch ist und somit deutlich zu hoch ausfällt. Dieses Maß an Pessimismus führt zu erheblichen Performanzseinbußen, die unnötig und demnach vermeidbar sind. Während beispielsweise militärische Schaltungen 25 Jahre lang unter harschen Bedingungen arbeiten müssen, wird Unterhaltungselektronik bei niedrigeren Temperaturen betrieben und muss ihre Funktionalität nur für die Dauer der zweijährigen Garantie aufrechterhalten. Für letzteres können die Sicherheitstoleranzen also deutlich kleiner ausfallen, um die Performanz deutlich zu erhöhen, die zuvor im Namen der Zuverlässigkeit aufgegeben wurde. Diese Arbeit zielt darauf ab, maßgeschneiderte Sicherheitstoleranzen für die einzelnen Anwendungsszenarien einer Schaltung bereitzustellen. Für fordernde Umgebungen wie Weltraumanwendungen (wo eine Reparatur unmöglich ist) ist weiterhin der schlimmstmögliche Fall relevant. In den meisten Anwendungen, herrschen weniger harsche Betriebssbedingungen (z.B. sorgen Kühlsysteme für niedrigere Temperaturen). Hier können Sicherheitstoleranzen maßgeschneidert und anwendungsspezifisch bestimmt werden, sodass Verschlechterungen exakt toleriert werden können und somit die Zuverlässigkeit zu minimalen Kosten (Performanz, etc.) gewahrt wird. Leider sind die derzeitigen Standardentwurfswerkzeuge für diese anwendungsspezifische Bestimmung der Sicherheitstoleranz nicht gut gerüstet. Diese Arbeit zielt darauf ab, Standardentwurfswerkzeuge in die Lage zu versetzen, diesen Bedarf an Zuverlässigkeitsbestimmungen für beliebige Schaltungen unter beliebigen Betriebsbedingungen zu erfüllen. Zu diesem Zweck stellen wir unsere Forschungsbeiträge als vier Schritte auf dem Weg zu anwendungsspezifischen Sicherheitstoleranzen vor: Schritt 1 verbessert die Modellierung der Degradationsphänomene (Transistor-Alterung, -Selbsterhitzung, -Rauschen, etc.). Das Ziel von Schritt 1 ist es, ein umfassendes, einheitliches Modell für die Degradationsphänomene zu erstellen. Durch die Verwendung von materialwissenschaftlichen Defektmodellierungen werden die zugrundeliegenden physikalischen Prozesse der Degradationsphänomena modelliert, um ihre Wechselwirkungen zu berücksichtigen (z.B. Phänomen A kann Phänomen B beschleunigen) und ein einheitliches Modell für die simultane Modellierung verschiedener Phänomene zu erzeugen. Weiterhin werden die jüngst entdeckten Phänomene ebenfalls modelliert und berücksichtigt. In Summe, erlaubt dies eine genaue Degradationsmodellierung von Transistoren unter gleichzeitiger Berücksichtigung aller essenziellen Phänomene. Schritt 2 beschleunigt diese Degradationsmodelle von mehreren Minuten pro Transistor (Modelle der Physiker zielen auf Genauigkeit statt Performanz) auf wenige Millisekunden pro Transistor. Die Forschungsbeiträge dieser Dissertation beschleunigen die Modelle um ein Vielfaches, indem sie zuerst die Berechnungen so weit wie möglich vereinfachen (z.B. sind nur die Spitzenwerte der Degradation erforderlich und nicht alle Werte über einem zeitlichen Verlauf) und anschließend die Parallelität heutiger Computerhardware nutzen. Beide Ansätze erhöhen die Auswertungsgeschwindigkeit, ohne die Genauigkeit der Berechnung zu beeinflussen. In Schritt 3 werden diese beschleunigte Degradationsmodelle in die Standardwerkzeuge integriert. Die Standardwerkzeuge berücksichtigen derzeit nur die bestmöglichen, typischen und schlechtestmöglichen Standardzellen (digital) oder Transistoren (analog). Diese drei Typen von Zellen/Transistoren werden von der Foundry (Halbleiterhersteller) aufwendig experimentell bestimmt. Da nur diese drei Typen bestimmt werden, nehmen die Werkzeuge keine Zuverlässigkeitsbestimmung für eine spezifische Anwendung (Temperatur, Spannung, Aktivität) vor. Simulationen mit Degradationsmodellen ermöglichen eine Bestimmung für spezifische Anwendungen, jedoch muss diese Fähigkeit erst integriert werden. Diese Integration ist eines der Beiträge dieser Dissertation. Schritt 4 beschleunigt die Standardwerkzeuge. Digitale Schaltungsentwürfe, die nicht auf Standardzellen basieren, sowie komplexe analoge Schaltungen können derzeit nicht mit analogen Schaltungssimulatoren ausgewertet werden. Ihre Performanz reicht für solch umfangreiche Simulationen nicht aus. Diese Dissertation stellt Techniken vor, um diese Werkzeuge zu beschleunigen und somit diese umfangreichen Schaltungen simulieren zu können. Diese Forschungsbeiträge, die sich jeweils über mehrere Veröffentlichungen erstrecken, ermöglichen es Standardwerkzeugen, die Sicherheitstoleranz für kundenspezifische Anwendungsszenarien zu bestimmen. Für eine gegebene Schaltungslebensdauer, Temperatur, Spannung und Aktivität (Schaltverhalten durch Software-Applikationen) können die Auswirkungen der Transistordegradation ausgewertet werden und somit die erforderliche (weder unter- noch überschätzte) Sicherheitstoleranz bestimmt werden. Diese anwendungsspezifische Sicherheitstoleranz, garantiert die Zuverlässigkeit und Funktionalität der Schaltung für genau diese Anwendung bei minimalen Performanzeinbußen

    Instrumentação de FPGAs SRAM para recuperação e prevenção de faltas permanentes visando utilização em aplicações espaciais

    Get PDF
    Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2016.Os dispositivos reprogramáveis Field Programmable Gate Arrays (FPGAs),embora construídos para serem robustos, não são eternos, nem completamenteimunes à ocorrência de faltas, sejam elas transitórias oupermanentes. Considerando que o teste após fabricação deteta todas asfaltas devidas ao processo de produção, em condições normais ao níveldo mar, mesmo com as tecnologias nanométricas recentes, a ocorrênciade faltas permanentes numa FPGA durante o seu previsível ciclo devida é praticamente nula. Já em condições hostis, como no espaço ondeo nível de radiação é elevado (ou mesmo ambientes terrestres comocentrais nucleares, centros de investigação de física nuclear, aceleradoresde partículas, etc.), a ocorrência de faltas permanentes numa FPGAnão pode ser desprezada. Para além da radiação, sendo um dispositivoeletrónico, está igualmente sujeito a envelhecimento (aging). O NegativeBias Temperature Instability (NBTI) e o Positive Bias Temperature Instability(PBTI) são dois dos fatores que provocam esse envelhecimento,e que embora não destruam a funcionalidade dos recursos da FPGA,aumentam os seus tempos de propagação. Este envelhecimento podepor isso também originar faltas permanentes a partir de um determinadoponto do ciclo de vida do sistema implementado numa FPGA. Asolução para esses casos é a substituição da FPGA ou até mesmo daplaca que inclui a mesma. Apesar do facto de que em muitas situaçõesa substituição da FPGA ser considerada uma tarefa simples, em tantasoutras, tais como ambientes aeroespaciais onde o acesso é difícil e/ouperigoso para quem tem de realizar a substituição, esta operação poderáser problemática ou impossível de realizar.Neste contexto, esta tese propõe o desenvolvimento de soluções, para queum sistema implementado numa FPGA possa autonomamente recuperarda ocorrência de faltas permanentes (evitando utilizar recursos dodispositivo que sofreram essas mesmas faltas), e ao mesmo tempo,atenuar o ritmo de envelhecimento do dispositivo devido ao NBTI (eeventualmente também ao PBTI). Para isso, este trabalho foca emdois objetivos principais: (1) O desenvolvimento de um mecanismo emhardware, baseado na Reconfiguração Parcial da FPGA, que suportea implementação de estratégias de recuperação e prevenção de faltaspermanentes (minimizando a evolução do envelhecimento causado peloNBTI). (2) Planear e implementar formas de recuperar ou prevenir daocorrência de faltas permanentes (delay faults), recorrendo ao mecanismodesenvolvido.O mecanismo apresentado passa por novo fluxo gerador de bitstreamsparciais, possíveis de realocar em múltiplas partições reconfiguráveis,uma flexibilidade que ultrapassa a proporcionada pelas ferramentas dereconfiguração dinâmica disponibilizadas pelo fabricante. Das estratégiasimplementadas, uma permite um sistema implementado numa FPGArecuperar de uma falta permanente, sem necessidade de excluir todaa partição. Para atenuação do envelhecimento do dispositivo, outraestratégia altera as partições onde os bitstreams se encontram alocados deuma forma cíclica, de forma a que o máximo de recursos dessas partiçõesnão estejam configurados da mesma forma um longo período de tempo.É proposto ainda um novo sensor de performance para FPGA e quepode permitir medir também o envelhecimento em cada partição. Comele é possível a estratégia de alocar módulos (existentes nos bitstreamsgerados), de modo a uniformizar o envelhecimento e a dissipação depotência pelas várias partições, em função do envelhecimento acumulado,da temperatura atual e da potência consumida por cada módulo.Abstract : FPGA devices although built to be robust, are not everlasting. Theyare not completely invulnerable to the occurrence of faults, whethertemporary or permanent. Whereas the test after manufacturing detectsall faults due to production process, in normal conditions, at sea level,even with the recent nanometric technologies, the manifestation ofpermanent faults in FPGAs during their expected life cycle is consideredto be near zero. However, in hostile conditions, such as in space whereradiation levels are higher (or terrestrial environments such as nuclearpower plants, nuclear physics research centers, particle accelerators, etc.),the rate of permanent faults in an FPGA device can not be neglected.In addition to the radiation, as the FPGA is an electronic device, it isalso susceptible to aging effects. NBTI and PBTI are two of the agingsources and, although they do not damage directly the functionality ofthe FPGA resources, they are responsible for the increase in the device?spropagation times. This aging can therefore also lead to permanentfaults in a certain moment in the life cycle of a system implementedon an FPGA. The solution for such cases is to replace the FPGA oreven the board where it is on. Despite the fact that in many casesreplacing the FPGA can be considered a simple task, in many others,such as in aerospace environments where the access is difficult and /or dangerous for those who have to do the replacement, this operationmay be challenging or even impossible to perform.In this context, this work proposes the development of solutions fora system implemented in an FPGA which can autonomously recoverfrom the manifestation of permanent faults (avoiding use device resourcesthat have suffered these same faults), and at the same timemitigating the rate of aging of the device due to NBTI (and possiblyalso the PBTI). Therefore, this work focuses on two main objectives:(1) The development of a mechanism in hardware, based on the FPGAPartial Reconfiguration mechanism, which supports the implementationof strategies for recovering and prevention of permanent faults(minimizing the evolution of aging caused by NBTI). (2) The planningand implementation of ways to recover or to prevent the occurrence ofpermanent faults (delay faults), using the developed mechanism.The presented mechanism includes a new flow to generate partial bitstreams,which allows to reallocate multiple reconfigurable partitions.This is a feature does not provided by the dynamic reconfiguration toolsdelivered by the manufacturers. The implemented strategies allow asystem implemented in an FPGA to recover from a permanent fault,with no need to exclude the entire partition. For the device aging mitigation,another strategy changes the partitions where the bitstreamsare allocated in a cyclical way, so that the maximum resources of thesepartitions are not configured in the same way for a long period of time.It is further proposed a new performance sensor for FPGA systems,which also may allow the measuting of aging in each partition. Withthis sensor the strategy allows the allocation of modules (existing inthe generated bitstreams) in order to standardize the aging and powerdissipation by the various partitions, as a function of cumulative aging,the current temperature and the power consumed by each module
    corecore