1 research outputs found

    Towards lightweight and high-performance hardware transactional memory

    Get PDF
    Conventional lock-based synchronization serializes accesses to critical sections guarded by the same lock. Using multiple locks brings the possibility of a deadlock or a livelock in the program, making parallel programming a difficult task. Transactional Memory (TM) is a promising paradigm for parallel programming, offering an alternative to lock-based synchronization. TM eliminates the risk of deadlocks and livelocks, while it provides the desirable semantics of Atomicity, Consistency, and Isolation of critical sections. TM speculatively executes a series of memory accesses as a single, atomic, transaction. The speculative changes of a transaction are kept private until the transaction commits. If a transaction can break the atomicity or cause a deadlock or livelock, the TM system aborts the transaction and rolls back the speculative changes. To be effective, a TM implementation should provide high performance and scalability. While implementations of TM in pure software (STM) do not provide desirable performance, Hardware TM (HTM) implementations introduce much smaller overhead and have relatively good scalability, due to their better control of hardware resources. However, many HTM systems support only the transactions that fit limited hardware resources (for example, private caches), and fall back to software mechanisms if hardware limits are reached. These HTM systems, called best-effort HTMs, are not desirable since they force a programmer to think in terms of hardware limits, to use both HTM and STM, and to manage concurrent transactions in HTM and STM. In contrast with best-effort HTMs, unbounded HTM systems support overflowed transactions, that do not fit into private caches. Unbounded HTM systems often require complex protocols or expensive hardware mechanisms for conflict detection between overflowed transactions. In addition, an execution with overflowed transactions is often much slower than an execution that has only regular transactions. This is typically due to restrictive or approximative conflict management mechanism used for overflowed transactions. In this thesis, we study hardware implementations of transactional memory, and make three main contributions. First, we improve the general performance of HTM systems by proposing a scalable protocol for conflict management. The protocol has precise conflict detection, in contrast with often-employed inexact Bloom-filter-based conflict detection, which often falsely report conflicts between transactions. Second, we propose a best-effort HTM that utilizes the new scalable conflict detection protocol, termed EazyHTM. EazyHTM allows parallel commits for all non-conflicting transactions, and generally simplifies transaction commits. Finally, we propose an unbounded HTM that extends and improves the initial protocol for conflict management, and we name it EcoTM. EcoTM features precise conflict detection, and it efficiently supports large as well as small and short transactions. The key idea of EcoTM is to leverage an observation that very few locations are actually conflicting, even if applications have high contention. In EcoTM, each core locally detects if a cache line is non-conflicting, and conflict detection mechanism is invoked only for the few potentially conflicting cache lines.La Sincronizaci贸n tradicional basada en los cerrojos de exclusi贸n mutua (locks) serializa los accesos a las secciones cr铆ticas protegidas este cerrojo. La utilizaci贸n de varios cerrojos en forma concurrente y/o paralela aumenta la posibilidad de entrar en abrazo mortal (deadlock) o en un bloqueo activo (livelock) en el programa, est谩 es una de las razones por lo cual programar en forma paralela resulta ser mucho mas dificultoso que programar en forma secuencial. La memoria transaccional (TM) es un paradigma prometedor para la programaci贸n paralela, que ofrece una alternativa a los cerrojos. La memoria transaccional tiene muchas ventajas desde el punto de vista tanto pr谩ctico como te贸rico. TM elimina el riesgo de bloqueo mutuo y de bloqueo activo, mientras que proporciona una sem谩ntica de atomicidad, coherencia, aislamiento con caracter铆sticas similares a las secciones cr铆ticas. TM ejecuta especulativamente una serie de accesos a la memoria como una transacci贸n at贸mica. Los cambios especulativos de la transacci贸n se mantienen privados hasta que se confirma la transacci贸n. Si una transacci贸n entra en conflicto con otra transacci贸n o sea que alguna de ellas escribe en una direcci贸n que la otra ley贸 o escribi贸, o se entra en un abrazo mortal o en un bloqueo activo, el sistema de TM aborta la transacci贸n y revierte los cambios especulativos. Para ser eficaz, una implementaci贸n de TM debe proporcionar un alto rendimiento y escalabilidad. Las implementaciones de TM en el software (STM) no proporcionan este desempe帽o deseable, en cambio, las mplementaciones de TM en hardware (HTM) tienen mejor desempe帽o y una escalabilidad relativamente buena, debido a su mejor control de los recursos de hardware y que la resoluci贸n de los conflictos as铆 el mantenimiento y gesti贸n de los datos se hace en hardware. Sin embargo, muchos de los sistemas de HTM est谩n limitados a los recursos de hardware disponibles, por ejemplo el tama帽o de las caches privadas, y dependen de mecanismos de software para cuando esos l铆mites son sobrepasados. Estos sistemas HTM, llamados best-effort HTM no son deseables, ya que obligan al programador a pensar en t茅rminos de los l铆mites existentes en el hardware que se esta utilizando, as铆 como en el sistema de STM que se llama cuando los recursos son sobrepasados. Adem谩s, tiene que resolver que transacciones hardware y software se ejecuten concurrentemente. En cambio, los sistemas de HTM ilimitados soportan un numero de operaciones ilimitadas o sea no est谩n restringidos a l铆mites impuestos artificialmente por el hardware, como ser el tama帽o de las caches o buffers internos. Los sistemas HTM ilimitados por lo general requieren protocolos complejos o mecanismos muy costosos para la detecci贸n de conflictos y el mantenimiento de versiones de los datos entre las transacciones. Por otra parte, la ejecuci贸n de transacciones es a menudo mucho m谩s lenta que en una ejecuci贸n sobre un sistema de HTM que este limitado. Esto es debido al que los mecanismos utilizados en el HTM limitado trabaja con conjuntos de datos relativamente peque帽os que caben o est谩n muy cerca del n煤cleo del procesador. En esta tesis estudiamos implementaciones de TM en hardware. Presentaremos tres contribuciones principales: Primero, mejoramos el rendimiento general de los sistemas, al proponer un protocolo escalable para la gesti贸n de conflictos. El protocolo detecta los conflictos de forma precisa, en contraste con otras t茅cnicas basadas en filtros Bloom, que pueden reportar conflictos falsos entre las transacciones. Segundo, proponemos un best-effort HTM que utiliza el nuevo protocolo escalable detecci贸n de conflictos, denominado EazyHTM. EazyHTM permite la ejecuci贸n completamente paralela de todas las transacciones sin conflictos, y por lo general simplifica la ejecuci贸n. Por 煤ltimo, proponemos una extensi贸n y mejora del protocolo inicial para la gesti贸n de conflictos, que llamaremos EcoTM. EcoTM cuenta con detecci贸n de conflictos precisa, eficiente y es compatible tanto con transacciones grandes como con peque帽as. La idea clave de EcoTM es aprovechar la observaci贸n que en muy pocas ubicaciones de memoria aparecen los conflictos entre las transacciones, incluso en aplicaciones tienen muchos conflictos. En EcoTM, cada n煤cleo detecta localmente si la l铆nea es conflictiva, adem谩s existe un mecanismo de detecci贸n de conflictos detallado que solo se activa para las pocas l铆neas de memoria que son potencialmente conflictivas
    corecore