22 research outputs found

    Architecture-Aware Configuration and Scheduling of Matrix Multiplication on Asymmetric Multicore Processors

    Get PDF
    Asymmetric multicore processors (AMPs) have recently emerged as an appealing technology for severely energy-constrained environments, especially in mobile appliances where heterogeneity in applications is mainstream. In addition, given the growing interest for low-power high performance computing, this type of architectures is also being investigated as a means to improve the throughput-per-Watt of complex scientific applications. In this paper, we design and embed several architecture-aware optimizations into a multi-threaded general matrix multiplication (gemm), a key operation of the BLAS, in order to obtain a high performance implementation for ARM big.LITTLE AMPs. Our solution is based on the reference implementation of gemm in the BLIS library, and integrates a cache-aware configuration as well as asymmetric--static and dynamic scheduling strategies that carefully tune and distribute the operation's micro-kernels among the big and LITTLE cores of the target processor. The experimental results on a Samsung Exynos 5422, a system-on-chip with ARM Cortex-A15 and Cortex-A7 clusters that implements the big.LITTLE model, expose that our cache-aware versions of gemm with asymmetric scheduling attain important gains in performance with respect to its architecture-oblivious counterparts while exploiting all the resources of the AMP to deliver considerable energy efficiency

    Implementaci贸n en paralelo de un modelo de transmisi贸n sin谩ptica sobre un cluster heterog茅neo

    Get PDF
    En este trabajo se presentan los primeros resultados obtenidos por el 谩rea de inform谩tica de la Univ. Nac. de Gral. Sarmiento, en su proyecto de dise帽o e implementaci贸n de un cluster Linux, de tipo heterog茅neo. Estos resultados se aplicaron en la implementaci贸n en paralelo de una aplicaci贸n desarrollada para el proyecto de investigaci贸n de Sistemas Complejos del 谩rea de f铆sica de dicha Instituci贸n. Como resultado de esta primera etapa se midi贸 la capacidad de c贸mputo del cluster, obteniendo coeficientes que dependen de las caracter铆sticas f铆sicas de cada nodo y que permiten implementar aplicaciones paralelas, de manera est谩tica, aprovechando al m谩ximo el sistema de c贸mputo. El tiempo de ejecuci贸n de esta aplicaci贸n es de unas 20 hs. en su versi贸n serial m谩s simple y en las computadoras m谩s r谩pidas, tiempo que ir谩 creciendo en futuras aplicaciones. Su implementaci贸n en paralelo, utilizando dichos coeficientes, permiti贸 disminuir un 60% el tiempo de ejecuci贸n. Mediante una implementaci贸n en paralelo, con asignaci贸n din谩mica de la carga, se estudi贸 el comportamiento del sistema al momento de balancear c贸mputo y comunicaciones, pensando continuar en el futuro mejorando este comportamiento e integrando este cluster a una colecci贸n de clusters heterog茅neos interconectados a trav茅s de Internet.Eje: Procesamiento distribuido y paralelo (PDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI

    Implementaci贸n en paralelo de un modelo de transmisi贸n sin谩ptica sobre un cluster heterog茅neo

    Get PDF
    En este trabajo se presentan los primeros resultados obtenidos por el 谩rea de inform谩tica de la Univ. Nac. de Gral. Sarmiento, en su proyecto de dise帽o e implementaci贸n de un cluster Linux, de tipo heterog茅neo. Estos resultados se aplicaron en la implementaci贸n en paralelo de una aplicaci贸n desarrollada para el proyecto de investigaci贸n de Sistemas Complejos del 谩rea de f铆sica de dicha Instituci贸n. Como resultado de esta primera etapa se midi贸 la capacidad de c贸mputo del cluster, obteniendo coeficientes que dependen de las caracter铆sticas f铆sicas de cada nodo y que permiten implementar aplicaciones paralelas, de manera est谩tica, aprovechando al m谩ximo el sistema de c贸mputo. El tiempo de ejecuci贸n de esta aplicaci贸n es de unas 20 hs. en su versi贸n serial m谩s simple y en las computadoras m谩s r谩pidas, tiempo que ir谩 creciendo en futuras aplicaciones. Su implementaci贸n en paralelo, utilizando dichos coeficientes, permiti贸 disminuir un 60% el tiempo de ejecuci贸n. Mediante una implementaci贸n en paralelo, con asignaci贸n din谩mica de la carga, se estudi贸 el comportamiento del sistema al momento de balancear c贸mputo y comunicaciones, pensando continuar en el futuro mejorando este comportamiento e integrando este cluster a una colecci贸n de clusters heterog茅neos interconectados a trav茅s de Internet.Eje: Procesamiento distribuido y paralelo (PDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI

    Predicci贸n del c贸mputo paralelo de una aplicaci贸n sobre una colecci贸n de clusters geogr谩ficamente distribuidos

    Get PDF
    El prop贸sito de este trabajo es implementar en paralelo una aplicaci贸n utilizada para modelizar la transmisi贸n sin谩ptica de neuronas sobre dos cluster geogr谩ficamente distribuidos e interconectados por Internet, con el prop贸sito de disminuir el tiempo empleado en su ejecuci贸n. Ejecutar a distancia utilizando Internet es una tarea compleja, aunque es posible. Nosotros lo demostramos con un modelo de implementaci贸n de dicha aplicaci贸n sobre dos clusters distribuidos ubicados en Espa帽a y Argentina, usando la red Internet como red no dedicada para la interconexi贸n entre ambos. En este trabajo se presenta dicho modelo, con el cual se predice el rendimiento de la aplicaci贸n estimando el valor de la granularidad que hace m谩s eficiente el c贸mputo, debiendo hablar de dos niveles de granularidad, el que se implementar谩 dentro de cada cluster y el que se implementa entre ambos clusters. Los resultados experimentales muestran que se logra m谩s de un 90% de precisi贸n en la predicci贸n y que la mejora en los tiempos de c贸mputo alcanzan un 83% con la colaboraci贸n de ambos clusters.VI Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI

    Predicci贸n del c贸mputo paralelo de una aplicaci贸n sobre una colecci贸n de clusters geogr谩ficamente distribuidos

    Get PDF
    El prop贸sito de este trabajo es implementar en paralelo una aplicaci贸n utilizada para modelizar la transmisi贸n sin谩ptica de neuronas sobre dos cluster geogr谩ficamente distribuidos e interconectados por Internet, con el prop贸sito de disminuir el tiempo empleado en su ejecuci贸n. Ejecutar a distancia utilizando Internet es una tarea compleja, aunque es posible. Nosotros lo demostramos con un modelo de implementaci贸n de dicha aplicaci贸n sobre dos clusters distribuidos ubicados en Espa帽a y Argentina, usando la red Internet como red no dedicada para la interconexi贸n entre ambos. En este trabajo se presenta dicho modelo, con el cual se predice el rendimiento de la aplicaci贸n estimando el valor de la granularidad que hace m谩s eficiente el c贸mputo, debiendo hablar de dos niveles de granularidad, el que se implementar谩 dentro de cada cluster y el que se implementa entre ambos clusters. Los resultados experimentales muestran que se logra m谩s de un 90% de precisi贸n en la predicci贸n y que la mejora en los tiempos de c贸mputo alcanzan un 83% con la colaboraci贸n de ambos clusters.VI Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Inform谩tica (RedUNCI

    Domain Decomposition vs. Master-Slave in Apparently Homogeneous Systems

    Full text link
    corecore