20 research outputs found

    Techniques for Leakage Power Reduction in Nanoscale Circuits: A Survey

    Get PDF

    A conceptual framework of control, learn, and knowledge for computer power management

    Get PDF
    This conceptual paper observes the human inactivity in computer power management and discovers that; the efficiency of the computer power management (CPM)can be achieved by the eligibility of the human inactivity period. This period reduces the efficiency of CPM. This study examines the self-adaptation(SA) and the knowledge repository (KR)concepts, to model the framework of a new approach in computer power management. The essential elements and features from theseconceptswere adapted and applied as a techniqueto a new implementation of CLK-CPM. As a result, this study has proposed a modelof thetheoretical framework and demonstratesit through its conceptual framework for the technique

    Standby Supply Voltage Minimization for Reliable Nanoscale SRAMs

    Get PDF

    On-Demand Solution to Minimize I-Cache Leakage Energy with Maintaining Performance

    Full text link

    Proposition for a Sequential Accelerator in Future General-Purpose Manycore Processors and the Problem of Migration-Induced Cache Misses

    Get PDF
    International audienceAs the number of transistors on a chip doubles with every technology generation, the number of on-chip cores also increases rapidly, making possible in a foreseeable future to design processors featuring hundreds of general-purpose cores. However, though a large number of cores speeds up parallel code sections, Amdahl's law requires speeding up sequential sections too. We argue that it will become possible to dedicate a substantial fraction of the chip area and power budget to achieve high sequential performance. Current general-purpose processors contain a handful of cores designed to be continuously active and run in parallel. This leads to power and thermal constraints that limit the core's performance. We propose removing these constraints with a {\it sequential accelerator} ({\bf SACC}). A SACC consists of several cores {\it designed} for ultimate sequential performance. These cores cannot run continuously. A single core is active at any time, the rest of the cores are inactive and power-gated. We migrate the execution periodically to another core to spread heat generation uniformly over the whole SACC area, thus addressing the temperature issue. The SACC will be viable only if it yields significant sequential performance. Migration-induced cache misses may limit performance gains. We propose some solutions to mitigate this problem. We also investigate a migration method using thermal sensors, such that the migration interval depends on the ambient temperature and the migration penalty is negligible under normal thermal conditions

    Architectural Improvements for Low-power Processor Cache

    Get PDF
    학위논문 (박사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2013. 8. 전주식.마이크로프로세서는 수행 성능을 증가시키고 소모하는 에너지를 줄이기 위해 연구가 진행되고 있다. 대부분의 경우 수행 성능과 소모 에너지들 간에는 트레이드오프(trade-off) 관계가 성립하여, 소모 에너지를 감소시키면 수행 성능이 낮아지게 된다. 본 논문에서는 프로세서의 구조적 개선을 통해, 수행 성능에 영향을 미치지 않으면서 소모 에너지를 감소시키는 방안과 수행 성능에 큰 영향을 미치는 여러 에너지 감소 방안들을 오버헤드를 최소화하면서 조합하는 방안을 제안한다. 첫 번째로, 수행 성능에 영향을 미치지 않으며 동적 에너지를 감소시키기 위해 선택적 워드 접근 기법을 제안한다. 저장장치 별 저장단위가 다르다는 점에 착안한 이 기법은 주소의 일부분을 캐시 접근 시에 활용하여 저장장치 별로 필요한 부분만을 전달한다. 이 기법을 모의 실험하여 L1 캐시에서 67.5%, L2 캐시에서 27.1%의 동적 에너지 감소를 이끌어 냈다. 정적 에너지까지 고려하면 L1 캐시에서 56.75%의 에너지 감소를 이끌어 냈다. 두 번째로, 수행 성능에 큰 영향을 미치는 필터 캐시, 순차적 캐시 그리고 드라우지 캐시와 논문 전반부에서 제시한 선택적 워드 접근 기법을, 오버헤드를 최소화하면서 조합하는 워드 필터를 사용한 순차적, 선택적 워드 접근 드라우지 캐시를 제안한다. 필터 캐시는 프로세서 레지스터와 L1 캐시 사이에 작은 저장장치를 구현하여 동적 에너지 소모량을 줄이는 기법이다. 해당 기법이 처음 제시되었을 때와 달리 클록 수의 증가로 인해 L1 캐시 접근 시간이 늘어나고, 이로 인해 필터 캐시를 사용할 경우 에너지의 감소와 함께 성능상의 이득까지 볼 수 있다. 이와 함께 기존에 성능상의 손해로 인해 쓰지 못했던 순차적 캐시와 드라우지 캐시와 같은 기법들을 추가적으로 사용할 수 있다. 순차적 캐시는 캐시의 태그 어레이의 적중 여부를 알기 전까지 데이터 어레이를 동작시키지 않는 기법이다. 이는 태그 어레이의 적중 시간만큼 캐시 접근 시간이 길어지는 반면, 적중된 웨이만을 구동시키면 되기 때문에 데이터 어레이의 동적 에너지를 감소시킬 수 있다. 필터 캐시와 같이 사용할 경우, 상대적으로 전력 소모가 적은 태그 어레이를 필터 캐시와 병렬적으로 접근하게 되면 기존 순차적 캐시에서 손해를 보는 태그 어레이 접속 시간을 숨길 수 있다. 드라우지 캐시는 SRAM 셀에 동작전압을 정상 모드(높은 전압)와 저전력 모드(낮은 전압), 두 종류를 공급하고 동작이 발생하지 않는 부분의 전압을 낮추어 공급함으로 캐시의 정적 전력 소모를 줄이는 기법이다. 저전력 모드에 있는 셀에 접근할 경우 낮은 전압을 높은 전압으로 바꾸어주는데 이때 추가적인 접근 시간이 발생한다. 본 논문에서는 해당 셀에 접근하여 전압을 높이는 깨움 비트 전송을 필터 캐시와 L1 캐시 태그 어레이 접속과 병렬적으로 하여 기존 드라우지 캐시에서 발생하게 되는 성능 감소를 막았다. 이와 같이 드라우지 캐시 기법과, 필터 캐시, 순차적 캐시와 선택적 워드 접근 기법을 모두 적용하여 모의 실험한 결과, 전체 프로세서 캐시에서 73.4%의 동적 에너지 감소를, 83.2%의 정적 에너지 감소를, 총 71.7%의 에너지 감소를 이끌어 내었다. 요약하면, 정적 에너지 감소를 위해 드라우지 캐시를 구현하면서 발생하는 추가 시간을 필터 캐시와 순차적 캐시를 이용해 효율적으로 숨기고, 저장 단위 차이를 이용하는 선택적 워드 접근 기법을 추가적으로 구현해 저전력 프로세서 설계를 하였다.The microprocessor is researched to improve the execution performance and reduce the energy consumption. In most cases, the trade-off relationship is established between the energy consumption and execution performance. So if reducing the energy consumption, the execution performance is lowered. In this paper, I propose two low power method by improving the architecture of the processor cache. The one is the method lowering dynamic energy without affecting the execution performance, and the other is the method combined some energy reduction plans which affect a significant impact on execution performance. First, I propose 'Selective Word Reading(SWR)' technique which reduce the dynamic energy of the processor cache without loss of performance. This technique was developed because of the differences between store unit sizes per storage level. In the SWR cache, only the necessary part of a block is activated during the cache access process. For a 32 kB four-way set associative L1 cache, a 32B block size, and four mats per sub-bank, the SWR cache saves dynamic energy by 67.5% without consideration of the leakage energy and by 56.75% with consideration of the leakage energy with no performance degradation and negligible area reduction. Additionally, in a 1MB 16-way set associative L2 cache, a 64B block size, and eight mats per sub-bank, the SWR cache saves dynamic energy by 27.1% for the L2 cache. Second, I propose Sequential-SWR-Drowsy Cache with the Word Filter(SSDF) technique which reduce the entire energy of the processor cache with combining a sequential cache, a selective word reading, a filter cache and a drowsy cache. These techniques are affecting a significant impact on execution performance and I offer the method which can reduce the performance overhead with maximizing the effect of the power consumption. The filter cache is a technique to reduce the dynamic energy consumption that implements a small storage device between the L1 cache and the processor registers. Unlike when it is presented first, by increasing the number of CPU clocks, the access time of the L1 cache is increased and thus, the filter cache, this approach can be seen to advantage of the performance as well as the power consumption. Furthermore, it is possible to use further techniques such as the drowsy cache and the sequential cache without additional damage to the performance. The sequential cache is a technique to delay the operation of the data array until the tag array knows whether it is hit or not. Since the access time of the sequential cache is increased by the tag-array-access time, and to drive only the hit way, so it is possible to reduce the dynamic energy of the data array. When used with the filter cache, if accessed in parallel with the filter cache and the L1 tag array whose power consumption is relatively small, it can hide the tag-array-access time. The drowsy cache supplies the two kind of the operating voltage to the SRAM cell and it makes the cells is placed in two modes – normal mode in high voltage and drowsy mode (low-power mode) in low voltage. And the some cells which access rarely will be placed in drowsy mode, it will decrease the static energy consumption of the cache. If an application want to access the cell of the drowsy mode, at this time that it converts the low voltage to the high voltage, and it will make the additional access time. In this paper, we prevented the degradation of performance by the parallel access of the wake-up call is occurred when the filter cache and the L1 cache tag array is accessed. This technique, SSDF cache, saves 73.4% of the dynamic energy, 83.2% of the static energy and 71.7% of the total cache energy consumption.요 약 i 목 차 iv 그림 목차 vii 표 목차 x 제 1장 서 론 1 1.1 연구 배경 1 1.2 연구 내용 9 1.3 논문 구성 11 제2장 관련 연구 12 2.1 동적 전력 감소 기법 12 2.2 정적 전력 감소 기법 18 2.2.1 내용 미저장 방식 18 2.2.2 내용 저장 방식 19 제 3장 선택적 워드 접근 기법 22 3.1 개발 동기 22 3.2 구현 25 3.2.1 개념적 구현 25 3.2.2 실제적 구현 29 3.3 전력 소모량 계산 34 3.3.1 전력 소모량 수식 34 3.4 워드 버퍼의 고려 38 제 4장 워드 필터를 사용한 순차적·선택적 워드 접근 42 4.1 개발 동기 42 4.2 관련 연구와 제안된 연구의 구현 45 4.2.1 전통적 L1 기준 캐시 45 4.2.2 필터 캐시 47 4.2.3 동시 접근 기술을 사용한 필터 캐시 50 4.2.4 순차적 캐시 51 4.2.5 병렬적 L1 태그 접근 기법과 필터 캐시를 사용한 순차적 캐시 52 4.2.6 드라우지 캐시 54 4.2.7 필터 캐시를 사용한 드라우지 캐시 55 4.2.8 병렬적 동시 접근을 이용한 드라우지·필터 캐시 56 4.2.9 필터 캐시를 사용한 순차적 드라우지 캐시 57 4.2.10 L1 태그에 병렬적 접근과 깨움 동작을 하는 순차적 드라우지·필터 캐시 59 4.3 선택적 워드 접근 기법과의 조합 구현 61 제 5장 성능 평가 및 결과 65 5.1 실험 환경 65 5.2 선택적 워드 접근 기법 실험 결과 69 5.2.1 동적 에너지 감소량 69 5.2.2 정적 에너지를 고려한 상태에서의 에너지 감소 71 5.2.3 워드 버퍼를 가정한 경우 에너지 소모량 74 5.2.4 에너지-지연시간 곱 75 5.3 SSDF 캐시의 실험 결과 76 5.3.1 필터 캐시의 영향 분석 76 5.3.2 드라우지 캐시에 의한 영향 분석 78 5.3.3 SSDF 캐시의 에너지 소모량 79 5.3.3.1 동적 에너지 소모량 79 5.3.3.2 정적 에너지 소모량 81 5.3.3.3 전체 에너지 소모량 82 5.3.3.4 비대칭 SSDF 캐시 83 제 6장 결론 86 참고 문헌 89 Abstract 95Docto

    Subthreshold SRAM Design for Energy Efficient Applications in Nanometric CMOS Technologies

    Get PDF
    Embedded SRAM circuits are vital components in a modern system on chip (SOC) that can occupy up to 90% of the total area. Therefore, SRAM circuits heavily affect SOC performance, reliability, and yield. In addition, most of the SRAM bitcells are in standby mode and significantly contribute to the total leakage current and leakage power consumption. The aggressive demand in portable devices and billions of connected sensor networks requires long battery life. Therefore, careful design of SRAM circuits with minimal power consumption is in high demand. Reducing the power consumption is mainly achieved by reducing the power supply voltage in the idle mode. However, simply reducing the supply voltage imposes practical limitations on SRAM circuits such as reduced static noise margin, poor write margin, reduced number of cells per bitline, and reduced bitline sensing margin that might cause read/write failures. In addition, the SRAM bitcell has contradictory requirements for read stability and writability. Improving the read stability can cause difficulties in a write operation or vice versa. In this thesis, various techniques for designing subthreshold energy-efficient SRAM circuits are proposed. The proposed techniques include improvement in read margin and write margin, speed improvement, energy consumption reduction, new bitcell architecture and utilizing programmable wordline boosting. A programmable wordline boosting technique is exploited on a conventional 6T SRAM bitcell to improve the operational speed. In addition, wordline boosting can reduce the supply voltage while maintaining the operational frequency. The reduction of the supply voltage allows the memory macro to operate with reduced power consumption. To verify the design, a 16-kb SRAM was fabricated using the TSMC 65 nm CMOS technology. Measurement results show that the maximum operational frequency increases up to 33.3% when wordline boosting is applied. Besides, the supply voltage can be reduced while maintaining the same frequency. This allows reducing the energy consumption to be reduced by 22.2%. The minimum energy consumption achieved is 0.536 fJ/b at 400 mV. Moreover, to improve the read margin, a 6T bitcell SRAM with a PMOS access transistor is proposed. Utilizing a PMOS access transistor results in lower zero level degradation, and hence higher read stability. In addition, the access transistor connected to the internal node holding V DD acts as a stabilizer and counterbalances the effect of zero level degradation. In order to improve the writability, wordline boosting is exploited. Wordline boosting also helps to compensate for the lower speed of the PMOS access transistor compared to a NMOS transistor. To verify our design, a 2kb SRAM is fabricated in the TSMC 65 nm CMOS technology. Measurement results show that the maximum operating frequency of the test chip is at 3.34 MHz at 290 mV. The minimum energy consumption is measured as 1.1 fJ/b at 400 mV

    Células SRAM de ultra baixa tensão com polarização de substrato

    Get PDF
    Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-graduação em Engenharia ElétricaEsta dissertação visa o estudo da célula SRAM de 6 transistores, utilizando tecnologia CMOS convencional, operando em ultra baixa tensão de alimentação e conseqüentemente com baixo consumo. Para isso, os transistores MOS deverão operar no regime de inversão fraca. Nesse regime, as correntes dos transistores dependem exponencialmente das tensões aplicadas aos transistores e dos parâmetros tecnológicos. Descasamento entre transistores causados por variações no processo de fabricação afeta diretamente o comportamento dos circuitos. Operando com ultra baixa tensão de alimentação, circuitos digitais têm seus desempenhos significativamente diminuídos. Para reduzir o impacto causado pela redução da alimentação, a utilização de técnicas de polarização de substrato é empregada a fim de melhorar o desempenho dos circuitos. Utilizando circuitos de polarização de substrato também dependentes dos mesmos parâmetros tecnológicos dos circuitos a que serão aplicados, a polarização de substrato ajuda na compensação das variações causadas no processo de fabricação. Neste trabalho, foram estudados circuitos bastante simples para a polarização de substrato dos transistores que formam a célula SRAM. Utilizando simulações, com a tecnologia TSMC 0,18µm, comparativos entre células SRAM utilizando polarização de substrato avaliaram o efeito sobre a SNM (Margem de Ruído Estático) e sobre a velocidade (de estabilização em um nível lógico definido) da célula SRAM. Pela simplicidade e tamanho reduzido, os circuitos de polarização de substrato empregados se mostraram como opções funcionais para melhorar a operação da célula SRAM em ultra baixa tensão de alimentação e sob condições de descasamento

    Circuit and microarchitectural techniques for reducing cache leakage power

    No full text
    To my family, with love and thanks ii Acknowledgements Many people contributed to the success of this work and while I would like to acknowledge individually each by name, I would inevitably leave out deserving friends and relatives. Even the short list contained in these paragraphs is likely incomplete. I apol-ogize in advance for such omission and convey my deepened respect and admiration to all who contributed to the extraordinary experiences I have been fortunate to enjoy. Foremost I thank my family who has been a tremendous source of love, encour-agement, and inspiration. The support from my parents Kyung-Jung Kim and Young-Soon Choi, my lovely wife Seong Hye Hwang, my sister Hee-Sun Kim, and my brother Nam-Gu Kim kept me going not only through this specific task but through my entire life. Espe-cially, I’d like to thank my wife, Seong Hye for her endless love and encouragement. Without her, I might not be able to finish my study. Beyond “family ” support, Trevor Mudge, my advisor, has certainly been a major supporter over the past four years. He has taken care of me like his own son and tried to keep encouraging me whenever I am depressed or disappointed by events. I was very lucky to be his student as soon as I came to the University of Michigan and I owed him too for things including this dissertation and the research papers we wrote together. I also wish to thank the entire dissertation committee members, David Blaauw, Todd Austin, Steve Reinhardt, and Dennis Sylvester, for their insight and guidance
    corecore