9 research outputs found
Efficient Estimation of Reliability Metrics for Circuits in Deca-Nanometer Nodes
51 σ.Καθώς η τεχνολογία οδηγεί στη κατασκευή τρανζίστορ ολοένα και μικρότερων διαστάσεων, έχουν εμφανιστεί αρκετά φαινόμενα που επηρεάζουν την αξιοπιστία των ολοκληρωμένων κυκλωμάτων. Ένα από αυτά τα φαινόμενα ονομάζεται "Bias Temperature Instability", αποτελεί σημαντικό κίνδυνο για την αξιοπιστία των ολοκληρωμένων κυκλωμάτων και έχει παρατηρηθεί εδώ και πάνω από 30 χρόνια. Το πρώτο μοντέλο που προσπάθησε να εξηγήσει αυτό το φαινόμενο εμφανίστηκε πριν από 30 περίπου χρόνια, βασίστηκε στη διάχυση υδρογόνου και ως εκ τούτου ονομάστηκε "Reaction-Diffusion model". Πριν από μερικά χρόνια δημιουργήθηκε ένα νέο ατομιστικό μοντέλο το οποίο βασίζεται κυρίως στην εμφάνιση ελαττωμάτων στο διηλεκτρικό μεταξύ της πύλης και του καναλιού των FET τρανζίστορ.
Μελετώντας κανείς τη βιβλιογραφία που αφορά στο ατομιστικό αυτό μοντέλο, μπορεί να συναντήσει εργαλεία που προσομοιώνουν με ακρίβεια το μοντέλο αλλά δυστυχώς απαιτούν αρκετό χρόνο για να εκτελεστούν, κάτι το οποίο τα καθιστά απαγορευτικά για εκτενή χρήση. Παράλληλα, υπάρχουν εργαλεία βασισμένα στο μοντέλο της διάχυσης τα οποία βέβαια αδυνατούν να παράξουν σωστά και
λεπτομερή αποτελέσματα, κυρίως σε τεχνολογίες μικρών διαστάσεων. Η παρούσα λοιπόν διπλωματική εργασία παρουσιάζει τα αποτελέσματα ενός νέου και καινοτόμου εργαλείου το οποίο βασίζεται στο ατομιστικό μοντέλο, ωστόσο προσομοιώνει αποδοτικά αλλά και με ακρίβεια το φαινόμενο της γήρανσης. Ένα αντιπροσωπευτικό μονοπάτι στατικής μνήμης (SRAM) θα χρησιμοποιηθεί ως παράδειγμα της λειτουργίας του μοντέλου ενώ παράλληλα θα υπολογισθούν, με βάση τα αποτελέσματα των προσομοιώσεων αυτών, μετρικές, σημαντικές για το χαρακτηρισμό της απόδοσης και αξιοπιστίας του κυκλώματος, ενώ παράλληλα θα μελετηθούν λεπτομερώς και οι σχέσεις που τις συνδέουν.In modern technologies of integrated circuits (IC) and with the downscaling of device dimensions,
various degradation modes constitute major reliability concerns. Bias Temperature Instability (BTI)
is a representative example, posing as a significant reliability threat in Field-Effect Transistor (FET)
technologies and has been known for more than 30 years. At first, the model that tried to explain this
phenomenon was based on the Reaction-Diffusion (RD) theory and was developed nearly 30 years
ago. Recently, an atomistic model has been proposed, that enables the modeling of BTI in modern
technologies.
By observing the amount of software designed to simulate the BTI degradation, tools can be found
that are based on the atomistic theory but are computationally prohibitive when it comes to simulating
complex circuits consisting of a large number of devices. Tools based on the RD model are unable
to accurately capture the BTI-induced degradation, especially in devices with small dimensions. The
current thesis is appropriately positioned since it discusses a novel simulation framework that is efficient
yet highly accurate. A subset of an embedded Static Random Access Memory (SRAM) is used for
verification purposes. The estimation of the functional yield of the circuit over three years of operation
will be examined as well as other reliability metrics, such as defects per million (DPM), mean time to
failure (MTTF) and failures in time (FIT rate). Finally, the interplay between these metrics is discussed
and efficient computation methods are proposed for each one.Μιχαήλ Α. Νόλτση
Performance Variation in Digital Systems : Workload Dependent Modeling and Mitigation
Shrinking of device dimensions has undoubtedly enabled the very large scale integration of transistors on electronic chips. However, it has also brought to surface variation phenomena, that degrade system's performance and threaten functional operation. Hence, the need to capture and describe these mechanisms, as well as effectively mitigate their impact is crucial. To this extent, we will focus on capturing, describing and characterizing variation threats in an efficient and accurate manner. In addition, we will move forward by proposing and developing a novel mitigation scheme that could tackle with performance variability and ensure dependability. First, we will study basic reliability phenomena that cause parametric and functional failures in digital systems. Bias Temperature Instability (BTI), Hot Carrier Injection (HCI), Random Dopand Fluctuation (RDF) are some of the dominant variation threats. After understanding the physics of these phenomena, we will proceed with following (or even developing) accurate and efficient models to describe them. This step is necessary in order to effectively mitigate performance variability later on. After having such models in our disposal, the main target of our research will be to study state-of-the-art (SoTA) mitigation mechanisms of performance variability. Finally, our aim is to propose a novel mitigation scheme that introduces an accurate yet energy-efficient approach to manage performance dependability.status: publishe
Διακύμανση της λειτουργίας ψηφιακών συστημάτων: μοντελοποίηση και αντιμετώπιση
The computer industry is witnessing an unprecedented demand for more functionality and performance and is continuously using silicon components with smaller form factor and feature size. This aggressive downscaling of hardware components has brought about several failure mechanisms that degrade the system’s operation, threatening its dependability. Such failure mechanisms can be the result of the natural occurring variation in the attributes of circuit elements during the fabrication procedure, or can be attributed to the aging and the gradual wearout of the hardware and other variability effects related to space particles and power/ground line voltage variation. The inherent stochastic nature of these failure phenomena contributes to the so-called performance variation of digital systems, in the sense that system behavior and response cannot be fully deterministic and have a dynamic component.In the software layer, computational- and data-intensive applications, user interaction and quality of service conditions also generate persistently varying and unpredictable workloads, deteriorating this effect. While software applications are becoming even more complex and resource-hungry (especially due to the continued “virtualization” that leads to the ubiquitous use of run-time threads and dynamic memory allocation) and since the shrinking of transistor and interconnect dimensions is not expected to end in this decade, we can assume that we have already entered an era of inevitable, strongly dynamic performance variation.Under this highly dynamic context of system operation, ensuring dependability and meeting timing constraints seems challenging. The goal of the current research is to study existing methodologies that mitigate performance variation and develop related schemes that can ultimately ensure and guarantee timing deadlines. For this reason, first the dominant failure mechanisms which create defects is the silicon layer and deteriorate the reliability of the system are presented. A thorough review of the prior art on the subject of reliability mitigation is also shown, in order to realize the current, state-of-the-art mitigation approaches and methodologies. Then, the aforementioned reliability threats need to be captured and modeled while their impact on the system’s performance should be described and estimated. Hence, existing tools are employed, and new ones are suggested, in order to develop a complete framework that effectively evaluates the failure probability of electronic components, focusing especially on the SRAM buffers of NoC routers. Later, a realistic case study of a closed-loop PID controller is presented to mitigate performance variation with a reactive DVFS response. This scheme is compared against the version of a Linux CPU frequency governor in terms of energy consumption and timing response. Moreover, another flavor of this scheme is presented, to perform thermal management. Again this controller is implemented on pure hardware and illustrated with a realistic case study.Next, the aforementioned PID controller is improved to operate on finer granularity, at the thread node level. The concepts of performance and deadline vulnerability factor are introduced to support the formulation of a discrete time control problem while the basis of this new approach utilizes the system scenario methodology; this methodology, along with related terms and definitions, is studied in detail. In addition, a run-time adjustment on this methodology to adapt to performance variability norms is shown, creating an adaptive scenarios scheme and achieving notable energy gains. Still, however, performance variation is managed with a reactive response and no timing guarantees are yet delivered.Finally, proactive DVFS actuations on the thread node level are proposed, using dynamic scenarios to guarantee timelines in a cost-efficient manner. By exploiting the partial predictability of the application behavior, a dynamic scenario approach is developed to enable cost-effective DVFS decisions. Simulation results present significant energy gains compared to previous frequency guardband methods while experimental results on the hardware platform substantiate the effectiveness of our scheme.Η βιομηχανία υπολογιστών βιώνει ολοένα κι αυξανόμενη (ανευ προηγουμένου)ζήτηση για αυξημένη λειτουργικότητα και επίδοση, χρησιμοποιώντας συνεχώς πυριτίο με όλο και μικρότερα μεγέθη χαρακτηριστικών και συντελεστή μορφής. Η επιθετική σμίκρυνση των συνιστωσών υλικού οδήγησε αναπόφευκτα σε νέους μηχανισμούς σφαλμάτων, τα οποία αποτελούν απειλή για την αξιοπιστία και την εύρυθμη λειτουργία του συστήματος. Τα σφάλματα αυτά μπορεί να οφείλονται στιςεύλογες διακυμάνσεις των χαρακτηριστικών και διαστάσεων των στοιχείων του κυκλώματος κατά την κατασκευή, ή να αποδίδονται στη γήρανση και τη σταδιακή φθορά του υλικού. Η εγγενώς στοχαστική φύση αυτών των μηχανισμών είναι η γενεσιουργός αιτία της αποκαλούμενης ‘διακύμανσης επίδοσης’ των ψηφιακών συστημάτων, υπό την έννοια ότι η συμπεριφορά κι απόκριση του συστήματος δενμπορεί να είναι απόλυτα ντετερμινιστική αλλά ενέχει και μια δυναμική συνιστώσα.Στα πλαίσια του δυναμικού αυτού περιβάλλοντος λειτουργίας του συστήματος, η διασφάλιση της αξιοπιστίας και η πλήρωση των χρονικών περιορισμών φαντάζει δύσκολη πρόκληση. Στόχος της παρούσας εργασίας είναι η μελέτη υπαρχουσών μεθοδολογιών για τη μείωση της διακύμανσης επίδοσης και η ανάπτυξη σχετικών μεθόδων που μπορούν να διασφαλίσουν και να εγγυηθούν τους χρονικούς περιορισμούς. Στα πλαίσια αυτά, αρχικά θα παρουσιαστούν εν συντομία οι κυρίαρχοι μηχανισμοί σφαλμάτων που ευθύνονται για αστοχίες σε επίπεδο πυριτίου και επιδεινώνουν την αξιοπιστία του συστήματος. Η ενδελεχής μελέτη της υπάρχουσας βιβλιογραφίας στον τομέα της αξιοπιστίας συστημάτων είναι σημαντική και για την εμπέδωση των σύγχρονων προσεγγίσεων και μεθόδωνελέγχου της αξιοπιστίας. Πιο συγκεκριμένα, θα μελετηθεί το ερευνητικό πεδίο της παραμετρικής αξιοπιστίας, δηλαδή οι τεχνικές προστασίας του συστήματος από ακραίες διακυμάνσεις των παραμέτρων λειτουργίας, ειδικά σε σχέση με τις χρονικές απαιτήσεις.Στη συνέχεια θα παρουσιαστεί ένα ρεαλιστικό σενάριο ενός PID ελεγκτή κλειστού βρόχου για τον περιορισμό της διακύμανσης επίδοσης μέσω μιας αντιδραστικής απόκρισης DVFS. Η ιδέα αυτή έχει μελετηθεί αλλά μόνο σε μικρή κλίμακα πιο συγκεκριμένα, η ενσωμάτωση της σε μια ολοκληρωμένη πλατφόρμα και η επέκτασή της για τη διαχείριση δυναμικού φόρτου εργασίας δεν έχει εξετασθεί. Το μοντέλο αυτό θα συγκριθεί ως προς κατανάλωση ενέργειας και χρονική απόκριση με το μοντέλο βάσης ενός ελεγκτή συχνότητας του λειτουργικού Linux. Επιπλέον θα προταθεί μια διαφοροποιημένη εκδοχή του μοντέλου για τη διαχείριση θερμότητας. Ο ελεγκτής αυτός υλοποιείται και πάλι με πραγματικό υλικό και παρουσιάζεται με ένα ρεαλιστικό σενάριο.Τελικώς, προτείνονται προληπτικοί χειρισμοί DVFS σε επίπεδο thread node, με χρήση δυναμικών σεναρίων για χρονικές εγγυήσεις με οικονομικά αποδοτικό τρόπο. Αξιοποιώντας τη μερική προβλεψιμότητα της συμπεριφοράς κάθε εφαρμογής, αναπτύσσεται μια προσέγγιση δυναμικών σεναρίων και καθίσταται εφικτή η λήψη οικονομικά αποδοτικών αποφάσεων DVFS. Τα αποτελέσματατης προσομοίωσης επιτυγχάνουν σημαντικά ενεργειακά οφέλη σε σχέση με προηγούμενες μεθόδους ελέγχου συχνότητας, ενώ τα πειραματικά αποτελέσματα της υλοποιηθείσας διάταξης καταδεικνύουν την αποτελεσματικότητα του προτεινόμενου μοντέλου
A Closed-Loop Controller to Ensure Performance and Temperature Constraints for Dynamic Applications
status: publishe
Failure probability of a FinFET-based SRAM cell utilizing the most probable failure point
© 2018 Elsevier B.V. Application requirements along with the unceasing demand for ever-higher scale of device integration, has driven technology towards an aggressive downscaling of transistor dimensions. This development is confronted with variability challenges, mainly the growing susceptibility to time-zero and time-dependent variations. To model such threats and estimate their impact on a system's operation, the reliability community has focused largely on Monte Carlo-based simulations and methodologies. When assessing yield and failure probability metrics, an essential part of the process is to accurately capture the lower tail of a distribution. Nevertheless, the incapability of widely-used Monte Carlo techniques to achieve such a task has been identified and recently, state-of-the-art methodologies focusing on a Most Probable Failure Point (MPFP) approach have been presented. However, to strictly prove the correctness of such approaches and utilize them on large scale, an examination of the concavity of the space under study is essential. To this end, we develop an MPFP methodology to estimate the failure probability of a FinFET-based SRAM cell, studying the concavity of the Static Noise Margin (SNM) while comparing the results against a Monte Carlo methodology.status: publishe
HARPA: Tackling physically induced performance variability
Continuously increasing application demands on both High Performance Computing (HPC) and Embedded Systems (ES) are driving the IC manufacturing industry on an everlasting scaling of devices in silicon. Nevertheless, integration and miniaturization of transistors comes with an important and non-negligible trade-off: time-zero and time-dependent performance variability. Increasing guard-bands to battle variability is not scalable, since worst-case design margins are prohibitive for downscaled technology nodes. This paper discusses the FP7-612069-HARPA project of the European Commission which aims to enable next-generation embedded and high-performance heterogeneous many-cores to cost-effectively confront variations by providing Dependable-Performance: correct functionality and timing guarantees throughout the expected lifetime of a platform under thermal, power, and energy constraints. The HARPA novelty is in seeking synergies in techniques that have been considered virtually exclusively in the ES or HPC domains (worst-case guaranteed partly proactive techniques in embedded, and dynamic best-effort reactive techniques in high-performance)
The HARPA Approach to Ensure Dependable Performance
The goal of the HARPA solution is to overcome the performance variability (PV) by enabling next-generation embedded and high-performance platforms using heterogeneous many-core processors to provide cost-effectively dependable performance: the correct functionality and (where needed) timing guarantees throughout the expected lifetime of a platform. This must be accomplished in the presence of cycle-by-cycle performance variability due to time-dependent variations in silicon devices and wires under thermal, power, and energy constraints. The common challenge for both embedded and high-performance systems is to harness the unsustainable increases in design and operational margins and yet provide dependable performance. For example, resources that are statically determined based on worst-case execution time for real-time applications or lower clock frequency to satisfy excessive timing margins in high-performance processors