22 research outputs found
Architecture-Aware Configuration and Scheduling of Matrix Multiplication on Asymmetric Multicore Processors
Asymmetric multicore processors (AMPs) have recently emerged as an appealing
technology for severely energy-constrained environments, especially in mobile
appliances where heterogeneity in applications is mainstream. In addition,
given the growing interest for low-power high performance computing, this type
of architectures is also being investigated as a means to improve the
throughput-per-Watt of complex scientific applications.
In this paper, we design and embed several architecture-aware optimizations
into a multi-threaded general matrix multiplication (gemm), a key operation of
the BLAS, in order to obtain a high performance implementation for ARM
big.LITTLE AMPs. Our solution is based on the reference implementation of gemm
in the BLIS library, and integrates a cache-aware configuration as well as
asymmetric--static and dynamic scheduling strategies that carefully tune and
distribute the operation's micro-kernels among the big and LITTLE cores of the
target processor. The experimental results on a Samsung Exynos 5422, a
system-on-chip with ARM Cortex-A15 and Cortex-A7 clusters that implements the
big.LITTLE model, expose that our cache-aware versions of gemm with asymmetric
scheduling attain important gains in performance with respect to its
architecture-oblivious counterparts while exploiting all the resources of the
AMP to deliver considerable energy efficiency
Implementaci贸n en paralelo de un modelo de transmisi贸n sin谩ptica sobre un cluster heterog茅neo
En este trabajo se presentan los primeros resultados obtenidos por el 谩rea de inform谩tica de la Univ.
Nac. de Gral. Sarmiento, en su proyecto de dise帽o e implementaci贸n de un cluster Linux, de tipo heterog茅neo. Estos resultados se aplicaron en la implementaci贸n en paralelo de una aplicaci贸n desarrollada para el proyecto de investigaci贸n de Sistemas Complejos del 谩rea de f铆sica de dicha Instituci贸n. Como resultado de esta primera etapa se midi贸 la capacidad de c贸mputo del cluster, obteniendo coeficientes que dependen de las caracter铆sticas f铆sicas de cada nodo y que permiten implementar aplicaciones paralelas, de manera est谩tica, aprovechando al m谩ximo el sistema de c贸mputo. El tiempo de ejecuci贸n de esta aplicaci贸n es de unas 20 hs. en su versi贸n serial m谩s simple y en las computadoras m谩s r谩pidas, tiempo que ir谩 creciendo en futuras aplicaciones. Su implementaci贸n en paralelo, utilizando dichos coeficientes, permiti贸 disminuir un 60% el tiempo de ejecuci贸n. Mediante una implementaci贸n en paralelo, con asignaci贸n din谩mica de la carga, se estudi贸 el comportamiento del sistema al momento de balancear c贸mputo y comunicaciones, pensando continuar en el futuro mejorando este comportamiento e integrando este cluster a una colecci贸n de clusters heterog茅neos interconectados a trav茅s de Internet.Eje: Procesamiento distribuido y paralelo (PDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI
Implementaci贸n en paralelo de un modelo de transmisi贸n sin谩ptica sobre un cluster heterog茅neo
En este trabajo se presentan los primeros resultados obtenidos por el 谩rea de inform谩tica de la Univ.
Nac. de Gral. Sarmiento, en su proyecto de dise帽o e implementaci贸n de un cluster Linux, de tipo heterog茅neo. Estos resultados se aplicaron en la implementaci贸n en paralelo de una aplicaci贸n desarrollada para el proyecto de investigaci贸n de Sistemas Complejos del 谩rea de f铆sica de dicha Instituci贸n. Como resultado de esta primera etapa se midi贸 la capacidad de c贸mputo del cluster, obteniendo coeficientes que dependen de las caracter铆sticas f铆sicas de cada nodo y que permiten implementar aplicaciones paralelas, de manera est谩tica, aprovechando al m谩ximo el sistema de c贸mputo. El tiempo de ejecuci贸n de esta aplicaci贸n es de unas 20 hs. en su versi贸n serial m谩s simple y en las computadoras m谩s r谩pidas, tiempo que ir谩 creciendo en futuras aplicaciones. Su implementaci贸n en paralelo, utilizando dichos coeficientes, permiti贸 disminuir un 60% el tiempo de ejecuci贸n. Mediante una implementaci贸n en paralelo, con asignaci贸n din谩mica de la carga, se estudi贸 el comportamiento del sistema al momento de balancear c贸mputo y comunicaciones, pensando continuar en el futuro mejorando este comportamiento e integrando este cluster a una colecci贸n de clusters heterog茅neos interconectados a trav茅s de Internet.Eje: Procesamiento distribuido y paralelo (PDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI
Predicci贸n del c贸mputo paralelo de una aplicaci贸n sobre una colecci贸n de clusters geogr谩ficamente distribuidos
El prop贸sito de este trabajo es implementar en paralelo una aplicaci贸n utilizada para modelizar la transmisi贸n sin谩ptica de neuronas sobre dos cluster geogr谩ficamente distribuidos e interconectados por Internet, con el prop贸sito de disminuir el tiempo empleado en su ejecuci贸n. Ejecutar a distancia utilizando Internet es una tarea compleja, aunque es posible. Nosotros lo demostramos con un modelo de implementaci贸n de dicha aplicaci贸n sobre dos clusters distribuidos ubicados en Espa帽a y Argentina, usando la red Internet como red no dedicada para la interconexi贸n entre ambos. En este trabajo se presenta dicho modelo, con el cual se predice el rendimiento de la aplicaci贸n estimando el valor de la granularidad que hace m谩s eficiente el c贸mputo, debiendo hablar de dos niveles de granularidad, el que se implementar谩 dentro de cada cluster y el que se implementa entre ambos clusters. Los resultados experimentales muestran que se logra m谩s de un 90% de precisi贸n en la predicci贸n y que la mejora en los tiempos de c贸mputo alcanzan un 83% con la colaboraci贸n de ambos clusters.VI Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI
Predicci贸n del c贸mputo paralelo de una aplicaci贸n sobre una colecci贸n de clusters geogr谩ficamente distribuidos
El prop贸sito de este trabajo es implementar en paralelo una aplicaci贸n utilizada para modelizar la transmisi贸n sin谩ptica de neuronas sobre dos cluster geogr谩ficamente distribuidos e interconectados por Internet, con el prop贸sito de disminuir el tiempo empleado en su ejecuci贸n. Ejecutar a distancia utilizando Internet es una tarea compleja, aunque es posible. Nosotros lo demostramos con un modelo de implementaci贸n de dicha aplicaci贸n sobre dos clusters distribuidos ubicados en Espa帽a y Argentina, usando la red Internet como red no dedicada para la interconexi贸n entre ambos. En este trabajo se presenta dicho modelo, con el cual se predice el rendimiento de la aplicaci贸n estimando el valor de la granularidad que hace m谩s eficiente el c贸mputo, debiendo hablar de dos niveles de granularidad, el que se implementar谩 dentro de cada cluster y el que se implementa entre ambos clusters. Los resultados experimentales muestran que se logra m谩s de un 90% de precisi贸n en la predicci贸n y que la mejora en los tiempos de c贸mputo alcanzan un 83% con la colaboraci贸n de ambos clusters.VI Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI