604 research outputs found

    Multilayered Heterogeneous Parallelism Applied to Atmospheric Constituent Transport Simulation

    Get PDF
    Heterogeneous multicore chipsets with many levels of parallelism are becoming increasingly common in high-performance computing systems. Effective use of parallelism in these new chipsets constitutes the challenge facing a new generation of large scale scientific computing applications. This study examines methods for improving the performance of two-dimensional and three-dimensional atmospheric constituent transport simulation on the Cell Broadband Engine Architecture (CBEA). A function offloading approach is used in a 2D transport module, and a vector stream processing approach is used in a 3D transport module. Two methods for transferring incontiguous data between main memory and accelerator local storage are compared. By leveraging the heterogeneous parallelism of the CBEA, the 3D transport module achieves performance comparable to two nodes of an IBM BlueGene/P, or eight Intel Xeon cores, on a single PowerXCell 8i chip. Module performance on two CBEA systems, an IBM BlueGene/P, and an eight-core shared-memory Intel Xeon workstation are given

    Parallel prediction of radio propagation

    Get PDF
    Tese de mestrado. Engenharia Informática e Computação. Cranfield University. School of Engineering. 201

    Optimal Constrained Wireless Emergency Network Antennae Placement

    Get PDF
    With increasing number of mobile devices, newly introduced smart devices, and the Internet of things (IoT) sensors, the current microwave frequency spectrum is getting rapidly congested. The obvious solution to this frequency spectrum congestion is to use millimeter wave spectrum ranging from 6 GHz to 300 GHz. With the use of millimeter waves, we can enjoy very high communication speeds and very low latency. But, this technology also introduces some challenges that we hardly faced before. The most important one among these challenges is the Line of Sight (LOS) requirement. In the emergent concept of smart cities, the wireless emergency network is set to use millimeter waves. We have worked on the problem of efficiently finding a line of sight for such wireless emergency network antennae in minimal time. We devised two algorithms, Sequential Line of Sight (SLOS) and Tiled Line of Sight (TLOS), both perform better than traditional algorithms in terms of execution time. The tiled line of sight algorithm reduces the time required for a single line of sight query from 200 ms for traditional algorithms to mere 1.7 ms on average

    Serious Game Engineering and Lighting Models for the Realistic Emulation of 5G Systems

    Full text link
    [ES] La quinta generación de comunicaciones móviles, 5G, promete ser una revolución tecnológica que vaya más allá de multiplicar la velocidad de transmisión de datos de sus predecesoras. Pretende soportar una gran cantidad de dispositivos y alcanzar latencias muy cercanas a 1 milisegundo. Para satisfacer estos ambiciosos requisitos, se han investigado nuevas tecnologías habilitadoras. Una de ellas es el uso de las bandas de ondas milimétricas (mmW) en las cuales hay una gran cantidad de espectro disponible. Para predecir las características del canal radio y evaluar las prestaciones de la 5G de forma fiable en las bandas mmW se requieren modelos de canal complejos. Concretamente, los modelos de propagación más precisos son los basados en trazado de rayos, pero su alto costo computacional los hacen inviables para la caracterización del canal radio en escenarios complejos. Por otro lado, en los últimos años, la tecnología de videojuegos ha desarrollado potentes herramientas para modelar la propagación de la luz en escenarios superrealistas. Dada la cercanía espectral entre el espectro visible y las ondas mmW, la presente Tesis ha estudiado la aplicación de las herramientas de modelado de propagación de la luz de los motores de juego para el modelado del canal radio en mmW. Esta Tesis propone un modelo de estimación de las pérdidas de propagación en mmW llamado "Modelo de Intensidad de Luz'' (LIM). Usando este modelo, basado en los procesos de iluminación realizados por los motores de juego, los transmisores de señal se sustituyen por focos de luz y la intensidad lumínica recibida en un punto se traduce a potencia de señal en milimétricas a través de una función polinómica sencilla. Una de las ventajas de usar los motores de juego es su gran capacidad y la facilidad que tiene el usuario para crear escenarios superrealistas que representen fielmente la geometría de escenarios donde se quiera evaluar el canal radio. De esta forma se pueden obtener estimaciones precisas de las pérdidas de propagación. La estimación de las pérdidas de propagación con LIM ha sido comparada con campañas de medida en las bandas de 28 GHz y 73 GHz y con otros modelos de propagación. Como resultado, el error de estimación de LIM es menor que los modelos estocásticos actuales y es comparable con el modelo de trazado de rayos. Y, además, el coste computacional de LIM comparado con el trazado de rayos es 130 veces menor, lo que posibilita el uso de LIM en escenarios altamente complejos para la estimación del canal radio en tiempo real. Los motores de juego permiten caracterizar de forma diferente la interacción de los materiales con la luz configurando el mapa de normales de sus superficies y sus funciones de dispersión y reflexión. En esta Tesis se ha determinado la caracterización de varios materiales que mejor se ajusta a medidas de laboratorio realizadas en un escenario controlado en la banda de 28 GHz. El modelo de LIM empleando materiales con esta caracterización óptima reduce más de un 50\% su error de estimación con respecto a la aplicación de LIM con los materiales por defecto, mientras que su coste computacional sigue siendo 26 veces menor que el modelo de trazado de rayos. Finalmente, se ha desarrollado sobre un motor de juego una primera versión de plataforma para la emulación de los sistemas 5G que es el punto de partida para un emulador completo de 5G. Esta plataforma no sólo contiene el modelo de LIM sino que incluye varios casos de uso de la 5G en entornos superrealistas. La plataforma, que se basa en el concepto de "Serious Game Engineering", rompe las limitaciones de los simuladores de redes móviles en cuanto a las capacidades de visualización e interacción del usuario con los componentes de la red en tiempo real.[CA] La cinquena generació de comunicacions mòbils, 5G, promet ser una revolució tecnològica que vaja més enllà de multiplicar la velocitat de transmissió de dades de les seues predecessores. Pretén suportar una gran quantitat de dispositius i aconseguir latències molt pròximes a 1 mil·lisegon. Per a satisfer aquests ambiciosos requisits, s'han investigat noves tecnologies habilitadores. Una d'elles és l'ús de les bandes d'ones mil·limètriques (mmW) en les quals hi ha una gran quantitat d'espectre disponible. Per a predir les característiques del canal ràdio i avaluar les prestacions de la 5G de forma fiable en les bandes mmW es requereixen models de canal complexos. Concretament, els models de propagació més precisos són els basats en traçat de rajos, però el seu alt cost computacional els fan inviables per a la caracterització del canal ràdio en escenaris complexos. D'altra banda, en els últims anys, la tecnologia de videojocs ha desenvolupat potents eines per a modelar la propagació de la llum en escenaris superrealistes. Donada la proximitat espectral entre l'espectre visible i les ones mmW, la present Tesi ha estudiat l'aplicació de les eines de modelatge de propagació de la llum dels motors de joc per al modelatge del canal radie en mmW. Aquesta Tesi proposa un model d'estimació de les pèrdues de propagació en mmW anomenat "Model d'Intensitat de Llum'' (LIM). Usant aquest model, basat en els processos d'il·luminació realitzats pels motors de joc, els transmissors de senyal se substitueixen per focus de llum i la intensitat lumínica rebuda en un punt es tradueix a potència de senyal en mil·limètriques a través d'una funció polinòmica senzilla. Una dels avantatges d'usar els motors de joc és la seua gran capacitat i la facilitat que té l'usuari per a crear escenaris superrealistes que representen fidelment la geometria d'escenaris on es vulga avaluar el canal ràdio. D'aquesta forma es poden obtindre estimacions precises de les pèrdues de propagació. L'estimació de les pèrdues de propagació amb LIM ha sigut comparada amb campanyes de mesura en les bandes de 28~GHz i 73~GHz i amb altres models de propagació. Com a resultat, l'error d'estimació de LIM és menor que els models estocàstics actuals i és comparable amb el model de traçat de rajos. I, a més, el cost computacional de LIM comparat amb el traçat de rajos és 130 vegades menor, la qual cosa possibilita l'ús de LIM en escenaris altament complexos per a l'estimació del canal ràdio en temps real. Els motors de joc permeten caracteritzar de forma diferent la interacció dels materials amb la llum configurant el mapa de normals de les seues superfícies i les seues funcions de dispersió i reflexió. En aquesta Tesi s'ha determinat la caracterització de diversos materials que s'ajusta millor a mesures de laboratori realitzades en un escenari controlat en la banda de 28 GHz. El model de LIM emprant materials amb aquesta caracterització òptima redueix més d'un 50 % el seu error d'estimació respecte a l'aplicació de LIM amb els materials per defecte, mentre que el seu cost computacional continua sent 26 vegades menor que el model de traçat de rajos. Finalment, s'ha desenvolupat sobre un motor de joc una primera versió de plataforma per a l'emulació dels sistemes 5G que és el punt de partida per a un emulador complet de 5G. Aquesta plataforma no solament conté el model de LIM sinó que inclou diversos casos d'ús de la 5G en entorns superrealistes. La plataforma, que es basa en el concepte de "Serious Game Engineering", trenca les limitacions dels simuladors de xarxes mòbils quant a les capacitats de visualització i interacció de l'usuari amb els components de la xarxa en temps real.[EN] The fifth generation of mobile communications, 5G, promises to be a technological revolution that goes beyond multiplying the data transmission speed of its predecessors. It aims to support a large number of devices and reach latencies very close to 1 millisecond. To meet these ambitious requirements, new enabling technologies have been researched. One of these is the use of millimetre-wave bands (mmW) in which a large amount of spectrum is available. Complex channel models are required to predict radio channel characteristics and reliably evaluate 5G performance in the mmW bands. Specifically, the most accurate propagation models are those based on ray tracing, but their high computational cost makes them unfeasible for radio channel characterization in complex scenarios. On the other hand, in recent years, video game technology has developed powerful tools to model the propagation of light in super realistic scenarios. Given the spectral closeness between the visible spectrum and the mmW waves, the present Thesis has studied the application of light propagation modeling tools from game engines for radio channel modeling in mmW. This Thesis proposes a model for estimating propagation losses in mmW called "Light Intensity Model'' (LIM). Using this model, based on the lighting processes performed by the game engines, the signal transmitters are replaced by light sources and the light intensity received at a point is translated into signal strength in mmW through a simple polynomial function. One of the advantages of using the game engines is their great capacity and the ease with which the user can create super realistic scenarios that faithfully represent the geometry of scenarios where the radio channel is to be evaluated. In this way, accurate estimates of propagation losses can be obtained. The estimation of propagation losses with LIM has been compared with measurement campaigns in the 28 GHz and 73 GHz bands and with other propagation models. As a result, the LIM estimation error is smaller than the current stochastic models and is comparable with the ray tracing model. In addition, the computational cost of LIM compared to ray tracing is 130 times lower, allowing the use of LIM in highly complex scenarios for real-time radio channel estimation. The game engines allow to characterize in a different way the interaction of the materials with the light configuring the normal map of their surfaces and their scattering and reflection functions. In this Thesis it has been determined the characterization of several materials that best fits to laboratory measurements made in a controlled scenario in the 28 GHz band. The LIM model using materials with this optimal characterization reduces by more than 50% its estimation error with respect to the application of LIM with default materials, while its computational cost remains 26 times lower than the ray tracing model. Finally, a first version of a platform for the emulation of 5G systems has been developed on a game engine, which is the starting point for a complete 5G emulator. This platform not only contains the LIM model but also includes several 5G use cases in super realistic environments. The platform, which is based on the concept of "`Serious Game Engineering", breaks the limitations of mobile network simulators in terms of visualization capabilities and user interaction with network components in real time.Inca Sánchez, SA. (2019). Serious Game Engineering and Lighting Models for the Realistic Emulation of 5G Systems [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/132695TESI

    Index to NASA Tech Briefs, 1972

    Get PDF
    Abstracts of 1972 NASA Tech Briefs are presented. Four indexes are included: subject, personal author, originating center, and Tech Brief number

    Topology-free immersed boundary method for incompressible turbulence flows: An aerodynamic simulation for 'dirty' CAD geometry

    Full text link
    To design a method to solve the issues of handling 'dirty' and highly complex geometries, the topology-free method combined with the immersed boundary method is presented for viscous and incompressible flows at a high Reynolds number. The method simultaneously employs a ghost-cell technique and distributed forcing technique to impose the boundary conditions. An axis-projected interpolation scheme is used to avoid searching failures during fluid and solid identification. This method yields a topology-free immersed boundary, which particularly suits flow simulations of highly complex geometries. Difficulties generally arise when generating the calculation grid for these scenarios. This method allows dirty data to be handled without any preparatory treatment work to simplify or clean-up the geometry. This method is also applicable to the coherent structural turbulence model employed in this study. The verification cases, used in conjunction with the second-order central-difference scheme, resulted in first-order accuracy at finer resolution, although the coarser resolution retained second-order accuracy. This method is fully parallelized for distributed memory platforms. In this study, the accuracy and fidelity of this method were examined by simulating the flow around the bluff body, past a flat plate, and past dirty spheres. These simulations were compared with experimental data and other established results. Finally, results from the simulation of practical applications demonstrate the ability of the method to model highly complex, non-canonical three-dimensional flows. The countermeasure based on the accurate classification of geometric features has provided a robust and reasonable solution.Comment: 33 pages, 23 figure

    Proceedings of the African Diaspora Conference on Sustainable Development

    Get PDF
    The authors urge the Western donor organizations to facilitate and support the take up of such more sustainable models

    Architectural explorations for streaming accelerators with customized memory layouts

    Get PDF
    El concepto básico de la arquitectura mono-nucleo en los procesadores de propósito general se ajusta bien a un modelo de programación secuencial. La integración de multiples núcleos en un solo chip ha permitido a los procesadores correr partes del programa en paralelo. Sin embargo, la explotación del enorme paralelismo disponible en muchas aplicaciones de alto rendimiento y de los datos correspondientes es difícil de conseguir usando unicamente multicores de propósito general. La aparición de aceleradores tipo streaming y de los correspondientes modelos de programación han mejorado esta situación proporcionando arquitecturas orientadas al proceso de flujos de datos. La idea básica detrás del diseño de estas arquitecturas responde a la necesidad de procesar conjuntos enormes de datos. Estos dispositivos de alto rendimiento orientados a flujos permiten el procesamiento rapido de datos mediante el uso eficiente de computación paralela y comunicación entre procesos. Los aceleradores streaming orientados a flujos, igual que en otros procesadores, consisten en diversos componentes micro-arquitectonicos como por ejemplo las estructuras de memoria, las unidades de computo, las unidades de control, los canales de Entrada/Salida y controles de Entrada/Salida, etc. Sin embargo, los requisitos del flujo de datos agregan algunas características especiales e imponen otras restricciones que afectan al rendimiento. Estos dispositivos, por lo general, ofrecen un gran número de recursos computacionales, pero obligan a reorganizar los conjuntos de datos en paralelo, maximizando la independiencia para alimentar los recursos de computación en forma de flujos. La disposición de datos en conjuntos independientes de flujos paralelos no es una tarea sencilla. Es posible que se tenga que cambiar la estructura de un algoritmo en su conjunto o, incluso, puede requerir la reescritura del algoritmo desde cero. Sin embargo, todos estos esfuerzos para la reordenación de los patrones de las aplicaciones de acceso a datos puede que no sean muy útiles para lograr un rendimiento óptimo. Esto es debido a las posibles limitaciones microarquitectonicas de la plataforma de destino para los mecanismos hardware de prefetch, el tamaño y la granularidad del almacenamiento local, y la flexibilidad para disponer de forma serial los datos en el interior del almacenamiento local. Las limitaciones de una plataforma de streaming de proposito general para el prefetching de datos, almacenamiento y demas procedimientos para organizar y mantener los datos en forma de flujos paralelos e independientes podría ser eliminado empleando técnicas a nivel micro-arquitectonico. Esto incluye el uso de memorias personalizadas especificamente para las aplicaciones en el front-end de una arquitectura streaming. El objetivo de esta tesis es presentar exploraciones arquitectónicas de los aceleradores streaming con diseños de memoria personalizados. En general, la tesis cubre tres aspectos principales de tales aceleradores. Estos aspectos se pueden clasificar como: i) Diseño de aceleradores de aplicaciones específicas con diseños de memoria personalizados, ii) diseño de aceleradores con memorias personalizadas basados en plantillas, y iii) exploraciones del espacio de diseño para dispositivos orientados a flujos con las memorias estándar y personalizadas. Esta tesis concluye con la propuesta conceptual de una Blacksmith Streaming Architecture (BSArc). El modelo de computación Blacksmith permite la adopción a nivel de hardware de un front-end de aplicación específico utilizando una GPU como back-end. Esto permite maximizar la explotación de la localidad de datos y el paralelismo a nivel de datos de una aplicación mientras que proporciona un flujo mayor de datos al back-end. Consideramos que el diseño de estos procesadores con memorias especializadas debe ser proporcionado por expertos del dominio de aplicación en la forma de plantillas.The basic concept behind the architecture of a general purpose CPU core conforms well to a serial programming model. The integration of more cores on a single chip helped CPUs in running parts of a program in parallel. However, the utilization of huge parallelism available from many high performance applications and the corresponding data is hard to achieve from these general purpose multi-cores. Streaming accelerators and the corresponding programing models improve upon this situation by providing throughput oriented architectures. The basic idea behind the design of these architectures matches the everyday increasing requirements of processing huge data sets. These high-performance throughput oriented devices help in high performance processing of data by using efficient parallel computations and streaming based communications. The throughput oriented streaming accelerators ¿ similar to the other processors ¿ consist of numerous types of micro-architectural components including the memory structures, compute units, control units, I/O channels and I/O controls etc. However, the throughput requirements add some special features and impose other restrictions for the performance purposes. These devices, normally, offer a large number of compute resources but restrict the applications to arrange parallel and maximally independent data sets to feed the compute resources in the form of streams. The arrangement of data into independent sets of parallel streams is not an easy and simple task. It may need to change the structure of an algorithm as a whole or even it can require to write a new algorithm from scratch for the target application. However, all these efforts for the re-arrangement of application data access patterns may still not be very helpful to achieve the optimal performance. This is because of the possible micro-architectural constraints of the target platform for the hardware pre-fetching mechanisms, the size and the granularity of the local storage and the flexibility in data marshaling inside the local storage. The constraints of a general purpose streaming platform on the data pre-fetching, storing and maneuvering to arrange and maintain it in the form of parallel and independent streams could be removed by employing micro-architectural level design approaches. This includes the usage of application specific customized memories in the front-end of a streaming architecture. The focus of this thesis is to present architectural explorations for the streaming accelerators using customized memory layouts. In general the thesis covers three main aspects of such streaming accelerators in this research. These aspects can be categorized as : i) Design of Application Specific Accelerators with Customized Memory Layout ii) Template Based Design Support for Customized Memory Accelerators and iii) Design Space Explorations for Throughput Oriented Devices with Standard and Customized Memories. This thesis concludes with a conceptual proposal on a Blacksmith Streaming Architecture (BSArc). The Blacksmith Computing allow the hardware-level adoption of an application specific front-end with a GPU like streaming back-end. This gives an opportunity to exploit maximum possible data locality and the data level parallelism from an application while providing a throughput natured powerful back-end. We consider that the design of these specialized memory layouts for the front-end of the device are provided by the application domain experts in the form of templates. These templates are adjustable according to a device and the problem size at the device's configuration time. The physical availability of such an architecture may still take time. However, simulation framework helps in architectural explorations to give insight into the proposal and predicts potential performance benefits for such an architecture.Postprint (published version

    Architectural explorations for streaming accelerators with customized memory layouts

    Get PDF
    El concepto básico de la arquitectura mono-nucleo en los procesadores de propósito general se ajusta bien a un modelo de programación secuencial. La integración de multiples núcleos en un solo chip ha permitido a los procesadores correr partes del programa en paralelo. Sin embargo, la explotación del enorme paralelismo disponible en muchas aplicaciones de alto rendimiento y de los datos correspondientes es difícil de conseguir usando unicamente multicores de propósito general. La aparición de aceleradores tipo streaming y de los correspondientes modelos de programación han mejorado esta situación proporcionando arquitecturas orientadas al proceso de flujos de datos. La idea básica detrás del diseño de estas arquitecturas responde a la necesidad de procesar conjuntos enormes de datos. Estos dispositivos de alto rendimiento orientados a flujos permiten el procesamiento rapido de datos mediante el uso eficiente de computación paralela y comunicación entre procesos. Los aceleradores streaming orientados a flujos, igual que en otros procesadores, consisten en diversos componentes micro-arquitectonicos como por ejemplo las estructuras de memoria, las unidades de computo, las unidades de control, los canales de Entrada/Salida y controles de Entrada/Salida, etc. Sin embargo, los requisitos del flujo de datos agregan algunas características especiales e imponen otras restricciones que afectan al rendimiento. Estos dispositivos, por lo general, ofrecen un gran número de recursos computacionales, pero obligan a reorganizar los conjuntos de datos en paralelo, maximizando la independiencia para alimentar los recursos de computación en forma de flujos. La disposición de datos en conjuntos independientes de flujos paralelos no es una tarea sencilla. Es posible que se tenga que cambiar la estructura de un algoritmo en su conjunto o, incluso, puede requerir la reescritura del algoritmo desde cero. Sin embargo, todos estos esfuerzos para la reordenación de los patrones de las aplicaciones de acceso a datos puede que no sean muy útiles para lograr un rendimiento óptimo. Esto es debido a las posibles limitaciones microarquitectonicas de la plataforma de destino para los mecanismos hardware de prefetch, el tamaño y la granularidad del almacenamiento local, y la flexibilidad para disponer de forma serial los datos en el interior del almacenamiento local. Las limitaciones de una plataforma de streaming de proposito general para el prefetching de datos, almacenamiento y demas procedimientos para organizar y mantener los datos en forma de flujos paralelos e independientes podría ser eliminado empleando técnicas a nivel micro-arquitectonico. Esto incluye el uso de memorias personalizadas especificamente para las aplicaciones en el front-end de una arquitectura streaming. El objetivo de esta tesis es presentar exploraciones arquitectónicas de los aceleradores streaming con diseños de memoria personalizados. En general, la tesis cubre tres aspectos principales de tales aceleradores. Estos aspectos se pueden clasificar como: i) Diseño de aceleradores de aplicaciones específicas con diseños de memoria personalizados, ii) diseño de aceleradores con memorias personalizadas basados en plantillas, y iii) exploraciones del espacio de diseño para dispositivos orientados a flujos con las memorias estándar y personalizadas. Esta tesis concluye con la propuesta conceptual de una Blacksmith Streaming Architecture (BSArc). El modelo de computación Blacksmith permite la adopción a nivel de hardware de un front-end de aplicación específico utilizando una GPU como back-end. Esto permite maximizar la explotación de la localidad de datos y el paralelismo a nivel de datos de una aplicación mientras que proporciona un flujo mayor de datos al back-end. Consideramos que el diseño de estos procesadores con memorias especializadas debe ser proporcionado por expertos del dominio de aplicación en la forma de plantillas.The basic concept behind the architecture of a general purpose CPU core conforms well to a serial programming model. The integration of more cores on a single chip helped CPUs in running parts of a program in parallel. However, the utilization of huge parallelism available from many high performance applications and the corresponding data is hard to achieve from these general purpose multi-cores. Streaming accelerators and the corresponding programing models improve upon this situation by providing throughput oriented architectures. The basic idea behind the design of these architectures matches the everyday increasing requirements of processing huge data sets. These high-performance throughput oriented devices help in high performance processing of data by using efficient parallel computations and streaming based communications. The throughput oriented streaming accelerators ¿ similar to the other processors ¿ consist of numerous types of micro-architectural components including the memory structures, compute units, control units, I/O channels and I/O controls etc. However, the throughput requirements add some special features and impose other restrictions for the performance purposes. These devices, normally, offer a large number of compute resources but restrict the applications to arrange parallel and maximally independent data sets to feed the compute resources in the form of streams. The arrangement of data into independent sets of parallel streams is not an easy and simple task. It may need to change the structure of an algorithm as a whole or even it can require to write a new algorithm from scratch for the target application. However, all these efforts for the re-arrangement of application data access patterns may still not be very helpful to achieve the optimal performance. This is because of the possible micro-architectural constraints of the target platform for the hardware pre-fetching mechanisms, the size and the granularity of the local storage and the flexibility in data marshaling inside the local storage. The constraints of a general purpose streaming platform on the data pre-fetching, storing and maneuvering to arrange and maintain it in the form of parallel and independent streams could be removed by employing micro-architectural level design approaches. This includes the usage of application specific customized memories in the front-end of a streaming architecture. The focus of this thesis is to present architectural explorations for the streaming accelerators using customized memory layouts. In general the thesis covers three main aspects of such streaming accelerators in this research. These aspects can be categorized as : i) Design of Application Specific Accelerators with Customized Memory Layout ii) Template Based Design Support for Customized Memory Accelerators and iii) Design Space Explorations for Throughput Oriented Devices with Standard and Customized Memories. This thesis concludes with a conceptual proposal on a Blacksmith Streaming Architecture (BSArc). The Blacksmith Computing allow the hardware-level adoption of an application specific front-end with a GPU like streaming back-end. This gives an opportunity to exploit maximum possible data locality and the data level parallelism from an application while providing a throughput natured powerful back-end. We consider that the design of these specialized memory layouts for the front-end of the device are provided by the application domain experts in the form of templates. These templates are adjustable according to a device and the problem size at the device's configuration time. The physical availability of such an architecture may still take time. However, simulation framework helps in architectural explorations to give insight into the proposal and predicts potential performance benefits for such an architecture
    corecore