47 research outputs found

    Magnetic racetrack memory: from physics to the cusp of applications within a decade

    Get PDF
    Racetrack memory (RTM) is a novel spintronic memory-storage technology that has the potential to overcome fundamental constraints of existing memory and storage devices. It is unique in that its core differentiating feature is the movement of data, which is composed of magnetic domain walls (DWs), by short current pulses. This enables more data to be stored per unit area compared to any other current technologies. On the one hand, RTM has the potential for mass data storage with unlimited endurance using considerably less energy than today's technologies. On the other hand, RTM promises an ultrafast nonvolatile memory competitive with static random access memory (SRAM) but with a much smaller footprint. During the last decade, the discovery of novel physical mechanisms to operate RTM has led to a major enhancement in the efficiency with which nanoscopic, chiral DWs can be manipulated. New materials and artificially atomically engineered thin-film structures have been found to increase the speed and lower the threshold current with which the data bits can be manipulated. With these recent developments, RTM has attracted the attention of the computer architecture community that has evaluated the use of RTM at various levels in the memory stack. Recent studies advocate RTM as a promising compromise between, on the one hand, power-hungry, volatile memories and, on the other hand, slow, nonvolatile storage. By optimizing the memory subsystem, significant performance improvements can be achieved, enabling a new era of cache, graphical processing units, and high capacity memory devices. In this article, we provide an overview of the major developments of RTM technology from both the physics and computer architecture perspectives over the past decade. We identify the remaining challenges and give an outlook on its future

    Design and Code Optimization for Systems with Next-generation Racetrack Memories

    Get PDF
    With the rise of computationally expensive application domains such as machine learning, genomics, and fluids simulation, the quest for performance and energy-efficient computing has gained unprecedented momentum. The significant increase in computing and memory devices in modern systems has resulted in an unsustainable surge in energy consumption, a substantial portion of which is attributed to the memory system. The scaling of conventional memory technologies and their suitability for the next-generation system is also questionable. This has led to the emergence and rise of nonvolatile memory ( NVM ) technologies. Today, in different development stages, several NVM technologies are competing for their rapid access to the market. Racetrack memory ( RTM ) is one such nonvolatile memory technology that promises SRAM -comparable latency, reduced energy consumption, and unprecedented density compared to other technologies. However, racetrack memory ( RTM ) is sequential in nature, i.e., data in an RTM cell needs to be shifted to an access port before it can be accessed. These shift operations incur performance and energy penalties. An ideal RTM , requiring at most one shift per access, can easily outperform SRAM . However, in the worst-cast shifting scenario, RTM can be an order of magnitude slower than SRAM . This thesis presents an overview of the RTM device physics, its evolution, strengths and challenges, and its application in the memory subsystem. We develop tools that allow the programmability and modeling of RTM -based systems. For shifts minimization, we propose a set of techniques including optimal, near-optimal, and evolutionary algorithms for efficient scalar and instruction placement in RTMs . For array accesses, we explore schedule and layout transformations that eliminate the longer overhead shifts in RTMs . We present an automatic compilation framework that analyzes static control flow programs and transforms the loop traversal order and memory layout to maximize accesses to consecutive RTM locations and minimize shifts. We develop a simulation framework called RTSim that models various RTM parameters and enables accurate architectural level simulation. Finally, to demonstrate the RTM potential in non-Von-Neumann in-memory computing paradigms, we exploit its device attributes to implement logic and arithmetic operations. As a concrete use-case, we implement an entire hyperdimensional computing framework in RTM to accelerate the language recognition problem. Our evaluation shows considerable performance and energy improvements compared to conventional Von-Neumann models and state-of-the-art accelerators

    Design of an integrated hybrid plasmonic-photonic device for all-optical switching and reading of spintronic memory

    Full text link
    We introduce a novel integrated hybrid plasmonic-photonic device for all-optical switching and reading of nanoscale ferrimagnet bits. The racetrack memory made of synthetic ferrimagnetic material with a perpendicular magnetic anisotropy is coupled on to a photonic waveguide onto the indium phosphide membrane on silicon platform. The device which is composed of a double V-shaped gold plasmonic nanoantenna coupled with a photonic crystal cavity can enable switching and reading of the magnetization state in nanoscale magnetic bits by enhancing the absorbed energy density and polar magneto-optical Kerr effect (PMOKE) locally beyond the diffraction limit. Using a three-dimensional finite-difference time-domain method, we numerically show that our device can switch and read the magnetization state in targeted bits down to ~100 nm in the presence of oppositely magnetized background regions in the racetrack with widths of 30 to 120 nm, clearly outperforming a bare photonic waveguide. Our hybrid device tackles the challenges of nonlinear absorption in the waveguide, weak PMOKE, and size mismatch between spintronics and integrated photonics. Thus, it provides missing link between the integrated photonics and nanoscale spintronics, expediting the development of ultrafast and energy efficient advanced on-chip applications

    Diseño de Caches L1 utilizando la tecnología emergente Domain Wall Memory

    Full text link
    [ES] Las memorias cache de un microprocesador se implementan habitualmente con tecnología Static Random-Access Memory (SRAM) puesto que es la tecnología electrónica más rápida. Sin embargo, las caches SRAM ocupan un área significativa del microprocesador y además consumen una gran cantidad de energía estática por corrientes de fuga, lo cual resulta en un problema de diseño importante, ya que este consumo aumenta a medida que el tamaño del transistor se encoge en sucesivos nodos tecnológicos. En este sentido, algunos procesadores comerciales de IBM e Intel incluyen el uso de tecnologías alternativas de bajo consumo como embedded Dynamic RAM (eDRAM) en los últimos niveles de cache como L2 o L3. No obstante, eDRAM requiere operaciones de refresco periódicas sobre los datos y además no es tan rápida como SRAM. Estos inconvenientes impiden que eDRAM se pueda utilizar directamente en el primer nivel (L1) de cache. Por otro lado, las tecnologías magnéticas, como la emergente Domain Wall Memory (DWM), están generando un interés creciente porque su consumo estático es nulo, no requieren operaciones de refresco y ofrecen una gran densidad y tiempos de acceso competitivos frente a SRAM. Sin embargo, al almacenar los bits en una cinta magnética, DWM requiere operaciones de desplazamiento de la cinta para alinear los cabezales de acceso con los datos requeridos, lo cual afecta al tiempo de acceso de la cache. Algunos trabajos de investigación recientes han explorado diferentes organizaciones de los datos y políticas de manejo de los cabezales para atenuar este problema, concretamente en caches L2 y L3. En el presente trabajo se explora el uso de la tecnología DWM en caches de datos L1. Para ello, se implementan y validan distintas políticas de manejo de los cabezales del estado-del-arte sobre L1, cuantificando experimentalmente el impacto de cada una de ellas en base a la cantidad de desplazamientos de los datos a través de las cintas. Además, se propone y valida una nueva organización de los datos en la cache que se ajusta a las características y requerimientos de las caches L1. Para ello, se instrumenta un simulador de procesadores ciclo-a-ciclo y se obtienen resultados experimentales mediante la ejecución de un conjunto representativo de aplicaciones científicas. Los resultados experimentales muestran que, entre las políticas de gestión de cabezales del estado-del-arte, la política que mejor se ajusta a L1 es Dynamic Lazy debido a que disminuye el número de operaciones de desplazamiento así como la distancia máxima de desplazamiento en número de bits. Además, la propuesta de organización de los datos en la cache reduce el número de desplazamientos en un 16% frente a una organización de datos convencional. Finalmente, también se ha comprobado de manera empírica que existe una relación inversa entre la capacidad de la cache y la penalización por desplazamiento.[EN] Microprocessor caches are usually implemented with Static Random-Access Memory (SRAM) technology as it is the fastest electronic technology. However, SRAM caches occupy a significant area of the microprocessor and they also consume a large amount of static energy from leakage currents. This results in a major design problem because this consumption increases as the size of the transistor shrinks in successive technology nodes. In this sense, some commercial processors from IBM and Intel include the use of alternative low-power technologies such as embedded Dynamic RAM (eDRAM) in the latest cache levels such as L2 or L3. However, eDRAM requires periodic data refresh operations and is not as fast as SRAM. These drawbacks prevent eDRAM from being used directly on the first-level (L1) cache. On the other hand, magnetic technologies, such as the emerging Domain Wall Memory (DWM), are receiving increasing attention because their static consumption is zero, they do not require refresh operations, and they offer high density and competitive access times compared to SRAM. However, by storing the bits on a magnetic tape, DWM requires tape shifting operations to align the access heads with the required data, which affects the access time of the cache. Recent research has explored different data organizations and head management policies to mitigate this problem, particularly in L2 and L3 caches. This work explores the use of DWM technology in L1 data caches. For this purpose, different head policies from the state-of-the-art are implemented and validated for L1, experimentally quantifying the impact of each of them based on the amount of data shift operations along the tapes. Besides, a new data organization for the cache is proposed and validated, which fits the characteristics and requirements of L1 caches. In order to achieve that, a cycle-accurate microprocessor simulator is instrumented and experimental results are obtained through the execution of a set of representative scientific applications. Experimental results show that, among the state-of-the-art head management policies, the policy that works best on L1 is Dynamic Lazy because it decreases the number of shifting operations as well as the maximum shifting distance in number of bits. In addition, the proposed data organization in the cache reduces the number of shifts by 16% compared to a conventional data organization. Finally, it has also been empirically proven that there is an inverse relation between cache capacity and shift penalty.[CA] Les memòries cau d’un microprocessador s’implementen sovint utilitzant la tecnologia Static Random-Access Memory (SRAM), ja que és la tecnologia electrònica més ràpida. Tot i això, les memòries cau SRAM ocupen una àrea significativa del microprocessador i a més consumeixen una gran quantitat d’energia estàtica per corrents de fuga, el que resulta en un problema de disseny important perquè aquest consum augmenta a mesura que la mida del transitor es redueix en successius nodes tecnològics. En aquest sentit, alguns processadors comercials d’IBM i Intel inclouen l’ús de tecnologies alternatives de baix consum com embedded Dynamic RAM (eDRAM) en els últims nivells de memòria cau com L2 o L3. Això no obstant, eDRAM requereix operacions de refresc periòdiques sobre les dades i a més no és tan ràpida com SRAM. Aquests inconvenients impossibiliten que eDRAM es puga utilitzar directament en el primer nivell (L1) de la memoria cau. Per altra banda, les tecnologies magnètiques, com l’emergent Domain Wall Memory (DWM), estan rebent un creixent interés perquè el seu consum estàtic és nul, no requereixen operacions de refresc i ofereixen una gran densitat i accessos competitius front a SRAM. Tot i això, al enmagatzemar els bits en una cinta magnètica, DWM requereix operacions de desplaçament de la cinta per a alinear els capçals d’accés amb les dades requerides, la qual cosa afecta el temps d’accés a la memòria cau. Alguns treballs d’investigació recents han explorat diferents organitzacions de les dades i polítiques de gestió dels capçals per a reduir aquest problema, particularment en les memòries cau L2 i L3. En el present treball, s’explora l’ús de la tecnologia DWM en memòries cau de dades L1. Per a fer-ho, s’implementen i validen distintes polítiques de gestió dels capçals del estat-del-art sobre L1, quantificant de manera experimental l’impacte de cadascuna d’elles en base a la quantitat de desplaçaments de les dades a través de les cintes. A més, es proposa i valida una nova organització de les dades en la cache que s’ajusta a les característiques i requeriments de les memòries cau L1. Per a això, s’instrumenta un simulador de processadors cicle-a-cicle i s’obtenen resultats experimentals mitjançant l’execució d’un conjunt representatiu d’aplicacions científiques. Els resultats experimentals mostren que, entre les polítiques de gestió dels capçals del estat-del-art, la política que millor s’ajusta a L1 és Dynamic Lazy pel fet que disminueix el nombre d’operacions de desplaçaments així com la distància máxima de desplaçament en nombre de bits. A més, la proposta d’organització de les dades en la memoria cau redueix el nombre de desplaçaments en un 16% front a una organització de dades convencional. Finalment, també s’ha comprovat de manera empírica que existeix una relació inversa entre la capacitat de la memoria cau i la penalització per desplaçament.Tárrega Sánchez, H. (2020). Diseño de Caches L1 utilizando la tecnología emergente Domain Wall Memory. http://hdl.handle.net/10251/150216TFG

    Novel Cache Hierarchies with Photonic Interconnects for Chip Multiprocessors

    Full text link
    [ES] Los procesadores multinúcleo actuales cuentan con recursos compartidos entre los diferentes núcleos. Dos de estos recursos compartidos, la cache de último nivel y el ancho de banda de memoria principal, pueden convertirse en cuellos de botella para el rendimiento. Además, con el crecimiento del número de núcleos que implementan los diseños más recientes, la red dentro del chip también se convierte en un cuello de botella que puede afectar negativamente al rendimiento, ya que las redes tradicionales pueden encontrar limitaciones a su escalabilidad en el futuro cercano. Prácticamente la totalidad de los diseños actuales implementan jerarquías de memoria que se comunican mediante rápidas redes de interconexión. Esta organización es eficaz dado que permite reducir el número de accesos que se realizan a memoria principal y la latencia media de acceso a memoria. Las caches, la red de interconexión y la memoria principal, conjuntamente con otras técnicas conocidas como la prebúsqueda, permiten reducir las enormes latencias de acceso a memoria principal, limitando así el impacto negativo ocasionado por la diferencia de rendimiento existente entre los núcleos de cómputo y la memoria. Sin embargo, compartir los recursos mencionados es fuente de diferentes problemas y retos, siendo uno de los principales el manejo de la interferencia entre aplicaciones. Hacer un uso eficiente de la jerarquía de memoria y las caches, así como contar con una red de interconexión apropiada, es necesario para sostener el crecimiento del rendimiento en los diseños tanto actuales como futuros. Esta tesis analiza y estudia los principales problemas e inconvenientes observados en estos dos recursos: la cache de último nivel y la red dentro del chip. En primer lugar, se estudia la escalabilidad de las tradicionales redes dentro del chip con topología de malla, así como esta puede verse comprometida en próximos diseños que cuenten con mayor número de núcleos. Los resultados de este estudio muestran que, a mayor número de núcleos, el impacto negativo de la distancia entre núcleos en la latencia puede afectar seriamente al rendimiento del procesador. Como solución a este problema, en esta tesis proponemos una de red de interconexión óptica modelada en un entorno de simulación detallado, que supone una solución viable a los problemas de escalabilidad observados en los diseños tradicionales. A continuación, esta tesis dedica un esfuerzo importante a identificar y proponer soluciones a los principales problemas de diseño de las jerarquías de memoria actuales como son, por ejemplo, el sobredimensionado del espacio de cache privado, la existencia de réplicas de datos y rigidez e incapacidad de adaptación de las estructuras de cache. Aunque bien conocidos, estos problemas y sus efectos adversos en el rendimiento pueden ser evitados en procesadores de alto rendimiento gracias a la enorme capacidad de la cache de último nivel que este tipo de procesadores típicamente implementan. Sin embargo, en procesadores de bajo consumo, no existe la posibilidad de contar con tales capacidades y hacer un uso eficiente del espacio disponible es crítico para mantener el rendimiento. Como solución a estos problemas en procesadores de bajo consumo, proponemos una novedosa organización de jerarquía de dos niveles cache que utiliza una red de interconexión óptica. Los resultados obtenidos muestran que, comparado con diseños convencionales, el consumo de energía estática en la arquitectura propuesta es un 60% menor, pese a que los resultados de rendimiento presentan valores similares. Por último, hemos extendido la arquitectura propuesta para dar soporte tanto a aplicaciones paralelas como secuenciales. Los resultados obtenidos con la esta nueva arquitectura muestran un ahorro de hasta el 78 % de energía estática en la ejecución de aplicaciones paralelas.[CA] Els processadors multinucli actuals compten amb recursos compartits entre els diferents nuclis. Dos d'aquests recursos compartits, la memòria d’últim nivell i l'ample de banda de memòria principal, poden convertir-se en colls d'ampolla per al rendiment. A mes, amb el creixement del nombre de nuclis que implementen els dissenys mes recents, la xarxa dins del xip també es converteix en un coll d'ampolla que pot afectar negativament el rendiment, ja que les xarxes tradicionals poden trobar limitacions a la seva escalabilitat en el futur proper. Pràcticament la totalitat dels dissenys actuals implementen jerarquies de memòria que es comuniquen mitjançant rapides xarxes d’interconnexió. Aquesta organització es eficaç ates que permet reduir el nombre d'accessos que es realitzen a memòria principal i la latència mitjana d’accés a memòria. Les caches, la xarxa d’interconnexió i la memòria principal, conjuntament amb altres tècniques conegudes com la prebúsqueda, permeten reduir les enormes latències d’accés a memòria principal, limitant així l'impacte negatiu ocasionat per la diferencia de rendiment existent entre els nuclis de còmput i la memòria. No obstant això, compartir els recursos esmentats és font de diversos problemes i reptes, sent un dels principals la gestió de la interferència entre aplicacions. Fer un us eficient de la jerarquia de memòria i les caches, així com comptar amb una xarxa d’interconnexió apropiada, es necessari per sostenir el creixement del rendiment en els dissenys tant actuals com futurs. Aquesta tesi analitza i estudia els principals problemes i inconvenients observats en aquests dos recursos: la memòria cache d’últim nivell i la xarxa dins del xip. En primer lloc, s'estudia l'escalabilitat de les xarxes tradicionals dins del xip amb topologia de malla, així com aquesta es pot veure compromesa en propers dissenys que compten amb major nombre de nuclis. Els resultats d'aquest estudi mostren que, a major nombre de nuclis, l'impacte negatiu de la distància entre nuclis en la latència pot afectar seriosament al rendiment del processador. Com a solució' a aquest problema, en aquesta tesi proposem una xarxa d’interconnexió' òptica modelada en un entorn de simulació detallat, que suposa una solució viable als problemes d'escalabilitat observats en els dissenys tradicionals. A continuació, aquesta tesi dedica un esforç important a identificar i proposar solucions als principals problemes de disseny de les jerarquies de memòria actuals com son, per exemple, el sobredimensionat de l'espai de memòria cache privat, l’existència de repliques de dades i la rigidesa i incapacitat d’adaptació' de les estructures de memòria cache. Encara que ben coneguts, aquests problemes i els seus efectes adversos en el rendiment poden ser evitats en processadors d'alt rendiment gracies a l'enorme capacitat de la memòria cache d’últim nivell que aquest tipus de processadors típicament implementen. No obstant això, en processadors de baix consum, no hi ha la possibilitat de comptar amb aquestes capacitats, i fer un us eficient de l'espai disponible es torna crític per mantenir el rendiment. Com a solució a aquests problemes en processadors de baix consum, proposem una nova organització de jerarquia de dos nivells de memòria cache que utilitza una xarxa d’interconnexió òptica. Els resultats obtinguts mostren que, comparat amb dissenys convencionals, el consum d'energia estàtica en l'arquitectura proposada és un 60% menor, malgrat que els resultats de rendiment presenten valors similars. Per últim, hem estes l'arquitectura proposada per donar suport tant a aplicacions paral·leles com seqüencials. Els resultats obtinguts amb aquesta nova arquitectura mostren un estalvi de fins al 78 % d'energia estàtica en l’execució d'aplicacions paral·leles.[EN] Current multicores face the challenge of sharing resources among the different processor cores. Two main shared resources act as major performance bottlenecks in current designs: the off-chip main memory bandwidth and the last level cache. Additionally, as the core count grows, the network on-chip is also becoming a potential performance bottleneck, since traditional designs may find scalability issues in the near future. Memory hierarchies communicated through fast interconnects are implemented in almost every current design as they reduce the number of off-chip accesses and the overall latency, respectively. Main memory, caches, and interconnection resources, together with other widely-used techniques like prefetching, help alleviate the huge memory access latencies and limit the impact of the core-memory speed gap. However, sharing these resources brings several concerns, being one of the most challenging the management of the inter-application interference. Since almost every running application needs to access to main memory, all of them are exposed to interference from other co-runners in their way to the memory controller. For this reason, making an efficient use of the available cache space, together with achieving fast and scalable interconnects, is critical to sustain the performance in current and future designs. This dissertation analyzes and addresses the most important shortcomings of two major shared resources: the Last Level Cache (LLC) and the Network on Chip (NoC). First, we study the scalability of both electrical and optical NoCs for future multicoresand many-cores. To perform this study, we model optical interconnects in a cycle-accurate multicore simulation framework. A proper model is required; otherwise, important performance deviations may be observed otherwise in the evaluation results. The study reveals that, as the core count grows, the effect of distance on the end-to-end latency can negatively impact on the processor performance. In contrast, the study also shows that silicon nanophotonics are a viable solution to solve the mentioned latency problems. This dissertation is also motivated by important design concerns related to current memory hierarchies, like the oversizing of private cache space, data replication overheads, and lack of flexibility regarding sharing of cache structures. These issues, which can be overcome in high performance processors by virtue of huge LLCs, can compromise performance in low power processors. To address these issues we propose a more efficient cache hierarchy organization that leverages optical interconnects. The proposed architecture is conceived as an optically interconnected two-level cache hierarchy composed of multiple cache modules that can be dynamically turned on and off independently. Experimental results show that, compared to conventional designs, static energy consumption is improved by up to 60% while achieving similar performance results. Finally, we extend the proposal to support both sequential and parallel applications. This extension is required since the proposal adapts to the dynamic cache space needs of the running applications, and multithreaded applications's behaviors widely differ from those of single threaded programs. In addition, coherence management is also addressed, which is challenging since each cache module can be assigned to any core at a given time in the proposed approach. For parallel applications, the evaluation shows that the proposal achieves up to 78% static energy savings. In summary, this thesis tackles major challenges originated by the sharing of on-chip caches and communication resources in current multicores, and proposes new cache hierarchy organizations leveraging optical interconnects to address them. The proposed organizations reduce both static and dynamic energy consumption compared to conventional approaches while achieving similar performance; which results in better energy efficiency.Puche Lara, J. (2021). Novel Cache Hierarchies with Photonic Interconnects for Chip Multiprocessors [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/165254TESI

    Fusión de los niveles L1 y L2 de la jerarquía de memoria cache utilizando DWM

    Full text link
    [ES] El presente trabajo aborda la necesidad cada vez mayor por parte de la industria de los semiconductores de contar con memorias cache más densas y con un menor consumo energético que las actuales. Debido a que la tecnología actual más utilizada, SRAM, no puede ofrecer estas mejoras, este trabajo propone el uso de las memorias magnéticas DWM (Domain Wall Memory) como tecnología emergente sustitutiva. El presente trabajo aborda principalmente uno de los mayores inconvenientes de DWM como es la latencia variable por acceso a los datos almacenados en una cinta magnética. Este hecho es especialmente crítico en las caches de primer nivel (L1) al encontrarse en el pipeline del procesador y conllevar un impacto directo en el rendimiento del sistema. Para superar este problema, se propone un diseño de cache de datos L1 ascendente. En primer lugar, se diseña una celda de memoria DWM capaz de almacenar múltiples bits y de reducir el impacto de la latencia variable de acceso mediante el uso de múltiples puertos de acceso sobre la cinta, entre otras características. A continuación, se diseña un módulo de cache que integra múltiples celdas DWM, de manera que los conjuntos se organizan de manera entrelazada entre los puertos, favoreciendo la localidad espacial que exhiben las aplicaciones en L1 y por tanto reduciendo la problemática de la latencia variable de acceso. Finalmente, el uso de módulos DWM permite implementar el vector de datos completo de una memoria cache de datos asociativa por conjuntos de nn vías. La alta densidad de DWM permite fusionar los niveles L1 y L2 en un sólo nivel DWM con el objetivo de aumentar el rendimiento frente a un diseño de jerarquía de cache convencional SRAM. La propuesta de cache DWM se implementa y evalúa en el simulador ciclo-a-ciclo Multi2Sim, ampliamente utilizado tanto en la industria como en la academia. Los resultados experimentales muestran que la cache DWM reduce significativamente la penalización media por acceso a memoria, los fallos por kilo-instrucción y los ciclos de parada en el \emph{reorder buffer} frente a un diseño de cache convencional. Todo ello conlleva a una mejora en el rendimiento del sistema de un 10% en la media no sólo frente a un diseño convencional basado en SRAM sino también frente al diseño DWM del estado-del-arte, referido como TapeCache e implementado como parte del presente trabajo.[CA] El present treball aborda la necessitat cada volta més apressant per part de la indús- tria dels semiconductors de trobar memòries cau més denses i amb un menor consum energètic que les actuals. Com que la tecnologia actual més utilitzada, SRAM, no pot oferir aquestes millores, aquest treball propose l’ús de les memòries magnètiques DWM (Domain Wall Memory com a tecnologia de substitució.) Aquest treball tracta principalment un dels majors inconvenients de les DWM, com és la latència variable per accés a les dades emmagatzemades en una cinta magnètica. Aquest fet es especialment crític en les memòries cau de primer nivell (L1) al trovar-se en el pipeline del processador i implicar un impacte directe en el rendiment del sistema. Per a superar aquest problema, es propose un disseny de memòria L1 de dades ascendent. En primer lloc, es dissenya una cel·la de memòria DWM capaç d’emmagatzemar múlti- ples bits i de reduir l’impacte de la latència variable d’accés per mitjà de l’ús de múltiples ports d’accés sobre la cinta, entre altres característiques. A continuació, es dissenya un mòdul de memòria cau que integre múltiples cel·les DWM, de manera que els conjunts s’organitzen de manera entrellaçada entre els ports, afavorint la localitat espacial que ex- hibeixen les aplicacions en L1 i per tant reduint la problemàtica de la latència variable d’accés. Finalment, l’ús de mòduls DWM permet implementar el vector de dades com- pletes d’una memòria cau de dades associatives per conjunts de n vies. L’alta densitat de DWM permet fusionar els nivells L1 i L2 en un només nivell DWM amb l’objectiu d’augmentar el rendiment enfront d’un disseny de jerarquia de memòria cau convencio- nal SRAM. La proposta de memòria cau amb DWM s’implementa i avalue en el simulador cicle- a-cicle Multi2Sim, àmpliament utilitzat tant en la indústria com en l’acadèmia. Els re- sultats experimentals mostren que la memòria cau DWM redueix significativament la penalització mitjana per accés a memòria, les fallades per quilo-instrucció i els cicles de parada en el reorder buffer enfront d’un disseny de memòria convencional. Tot això comporta a una millora en el rendiment del sistema d’un 10% en la mitjana no sols en- front d’un disseny convencional basat en SRAM sinó també enfront del disseny DWM de l’estat-del-art, referit com TapeCache i implementat com a part del present treball.[EN] The present work addresses the growing need of the semiconductor industry for denser cache memories with lower power consumption than the current ones. Since the most widely used current technology, SRAM, cannot offer these improvements, this work proposes the use of DWM (Domain Wall Memory) magnetic memories as a substitute emerging technology. This work mainly addresses one of the major drawbacks of DWM, which is the variable latency for accessing data stored on a magnetic tape. This fact is especially critical in first-level (L1) caches as they are located in the processor pipeline and have a direct impact on the system performance. To overcome this problem, a bottom-up L1 data cache design is proposed. First, it is designed a DWM memory cell capable of storing multiple bits and reducing the impact of the variable access latency by using multiple access ports on the tape, among other features. Next, it is designed a cache module that integrates multiple DWM cells, such that the sets are organized in an interleaved structure between ports, favoring the spatial locality exhibited by applications on L1 and thus reducing the variable access latency issue. Finally, the use of DWM modules allows implementing the complete data array of an associative data cache with n-way sets. The high density of DWM allows merging the L1 and L2 levels into a single DWM level with the goal of increasing performance over a conventional SRAM cache hierarchy design. The proposed DWM cache is implemented and evaluated on the Multi2Sim cycle-accurate simulator, which is widely used in both industry and academia. Experimental results show that the DWM cache significantly reduces the average memory access penalty, misses per kilo-instruction, and stall cycles in the reorder buffer compared to a conventional cache design. This leads to a 10% improvement in the average system performance not only over a conventional SRAM-based design but also over the state-of-the-art DWM design, referred to as TapeCache and implemented as part of this work.Tárrega Sánchez, H. (2021). Fusión de los niveles L1 y L2 de la jerarquía de memoria cache utilizando DWM. Universitat Politècnica de València. http://hdl.handle.net/10251/17701

    Automated wavelength recovery for silicon photonics

    Get PDF
    Thesis (S.M.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2013.Cataloged from PDF version of thesis.Includes bibliographical references.In 2020, 1Tb/s on-/off-chip communication bandwidth and ~100fJ/bit total energy in a point to point link is predicted by Moore's law for high performance computing applications. These requirements are pushing the limits of on-chip silicon CMOS transistors and off-chip VCSELs technology. The major limitation of the current systems is the lack of ability to enable more than a single channel on a single wire/fiber. Silicon photonics, offering a solution on the same platform with CMOS technology, can enable Wavelength Division Multiplexed (WDM) systems. However, Silicon photonics has to overcome the wafer level, fabrication variations and dynamic temperature fluctuations, induced by processor cores with low-energy high-speed resonators. In this work, we offer a solution, called as Automated Wavelength Recovery (AWR), to these limitations. In order to demonstrate AWR, we design and demonstrate high performance active silicon resonators. A microdisk modulator achieved open eye-diagrams at a data rate of 25Gb/s and error-free operation up to 20Gb/s. A thermo-optically tunable microdisk modulator with Low power modulation (1 If/bit) at a data rate of 13-Gb/s, a 5.8-dB extinction ratio, a 1.22-dB insertion loss and a record-low thermal tuning (4.9-[mu].W/GHz) of a high-speed modulator is achieved. We demonstrated a new L-shaped resonant microring (LRM) modulator that achieves 30 Gb/s error-free operation in a compact (< 20 [mu]m²) structure while maintaining single-mode operation, enabling direct WDM across an uncorrupted 5.3 THz FSR. We have introduced heater elements inside a new single mode filter, a LRM filter, successfully. The LRM filter achieved high-efficiency (3.3[mu]W/GHz) and high-speed ([tau]f ~1.6 [mu]s) thermal tuning and maintained signal integrity with record low thru to drop power penalty (<1.1 dB) over the 4 THz FSR and <0.5dB insertion loss. We have integrated a heater driver and adiabatic resonant microring (ARM) filter in a commercial bulk CMOS deep-trench process for the first time. The proposed AWR algorithm is implemented with an ARM multiplexer. An advanced method for AWR is also introduced and demonstrated with passive resonators.by Erman Timurdogan.S.M

    Monolithic electronic-photonic integration in state-of-the-art CMOS processes

    Get PDF
    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2012.This electronic version was submitted by the student author. The certified thesis is available in the Institute Archives and Special Collections.Cataloged from student submitted PDF version of thesis.Includes bibliographical references (p. 388-407).As silicon CMOS transistors have scaled, increasing the density and energy efficiency of computation on a single chip, the off-chip communication link to memory has emerged as the major bottleneck within modern processors. Photonic devices promise to break this bottleneck with superior bandwidth-density and energy-efficiency. Initial work by many research groups to adapt photonic device designs to a silicon-based material platform demonstrated suitable independent performance for such links. However, electronic-photonic integration attempts to date have been limited by the high cost and complexity associated with modifying CMOS platforms suitable for modern high-performance computing applications. In this work, we instead utilize existing state-of-the-art electronic CMOS processes to fabricate integrated photonics by: modifying designs to match the existing process; preparing a design-rule compliant layout within industry-standard CAD tools; and locally-removing the handle silicon substrate in the photonic region through post-processing. This effort has resulted in the fabrication of seven test chips from two major foundries in 28, 45, 65 and 90 nm CMOS processes. Of these efforts, a single die fabricated through a widely available 45nm SOI-CMOS mask-share foundry with integrated waveguides with 3.7 dB/cm propagation loss alongside unmodified electronics with less than 5 ps inverter stage delay serves as a proof-of-concept for this approach. Demonstrated photonic devices include high-extinction carrier-injection modulators, 8-channel wavelength division multiplexing filter banks and low-efficiency silicon germanium photodetectors. Simultaneous electronic-photonic functionality is verified by recording a 600 Mb/s eye diagram from a resonant modulator driven by integrated digital circuits. Initial work towards photonic device integration within the peripheral CMOS flow of a memory process that has resulted in polysilicon waveguide propagation losses of 6.4 dB/cm will also be presented.by Jason S. Orcutt.Ph.D
    corecore