Search CORE

22 research outputs found

Architecture-Aware Configuration and Scheduling of Matrix Multiplication on Asymmetric Multicore Processors

Author: Catalán Sandra
Igual Francisco D.
Mayo Rafael
Quintana-Ortí Enrique S.
Rodríguez-Sánchez Rafael
Publication venue
Publication date: 30/06/2015
Field of study

Asymmetric multicore processors (AMPs) have recently emerged as an appealing technology for severely energy-constrained environments, especially in mobile appliances where heterogeneity in applications is mainstream. In addition, given the growing interest for low-power high performance computing, this type of architectures is also being investigated as a means to improve the throughput-per-Watt of complex scientific applications. In this paper, we design and embed several architecture-aware optimizations into a multi-threaded general matrix multiplication (gemm), a key operation of the BLAS, in order to obtain a high performance implementation for ARM big.LITTLE AMPs. Our solution is based on the reference implementation of gemm in the BLIS library, and integrates a cache-aware configuration as well as asymmetric--static and dynamic scheduling strategies that carefully tune and distribute the operation's micro-kernels among the big and LITTLE cores of the target processor. The experimental results on a Samsung Exynos 5422, a system-on-chip with ARM Cortex-A15 and Cortex-A7 clusters that implements the big.LITTLE model, expose that our cache-aware versions of gemm with asymmetric scheduling attain important gains in performance with respect to its architecture-oblivious counterparts while exploiting all the resources of the AMP to deliver considerable energy efficiency

arXiv.org e-Print Archive

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Crossref

Repositori Institucional de la Universitat Jaume I

Implementación en paralelo de un modelo de transmisión sináptica sobre un cluster heterogéneo

Author: Gaudiani Adriana
Luque Fadón Emilio
Persano Diego
Rexachs del Rosario Dolores
Publication venue
Publication date: 22/10/2012
Field of study

En este trabajo se presentan los primeros resultados obtenidos por el área de informática de la Univ. Nac. de Gral. Sarmiento, en su proyecto de diseño e implementación de un cluster Linux, de tipo heterogéneo. Estos resultados se aplicaron en la implementación en paralelo de una aplicación desarrollada para el proyecto de investigación de Sistemas Complejos del área de física de dicha Institución. Como resultado de esta primera etapa se midió la capacidad de cómputo del cluster, obteniendo coeficientes que dependen de las características físicas de cada nodo y que permiten implementar aplicaciones paralelas, de manera estática, aprovechando al máximo el sistema de cómputo. El tiempo de ejecución de esta aplicación es de unas 20 hs. en su versión serial más simple y en las computadoras más rápidas, tiempo que irá creciendo en futuras aplicaciones. Su implementación en paralelo, utilizando dichos coeficientes, permitió disminuir un 60% el tiempo de ejecución. Mediante una implementación en paralelo, con asignación dinámica de la carga, se estudió el comportamiento del sistema al momento de balancear cómputo y comunicaciones, pensando continuar en el futuro mejorando este comportamiento e integrando este cluster a una colección de clusters heterogéneos interconectados a través de Internet.Eje: Procesamiento distribuido y paralelo (PDP)Red de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Implementación en paralelo de un modelo de transmisión sináptica sobre un cluster heterogéneo

Author: Gaudiani Adriana
Luque Fadón Emilio
Persano Diego
Rexachs del Rosario Dolores
Publication venue
Publication date: 01/10/2003
Field of study

Predicción del cómputo paralelo de una aplicación sobre una colección de clusters geográficamente distribuidos

Author: Dias Júnior Eduardo Argollo de Oliveira
Gaudiani Adriana
Luque Fadón Emilio
Rexachs del Rosario Dolores
Publication venue
Publication date: 30/10/2012
Field of study

El propósito de este trabajo es implementar en paralelo una aplicación utilizada para modelizar la transmisión sináptica de neuronas sobre dos cluster geográficamente distribuidos e interconectados por Internet, con el propósito de disminuir el tiempo empleado en su ejecución. Ejecutar a distancia utilizando Internet es una tarea compleja, aunque es posible. Nosotros lo demostramos con un modelo de implementación de dicha aplicación sobre dos clusters distribuidos ubicados en España y Argentina, usando la red Internet como red no dedicada para la interconexión entre ambos. En este trabajo se presenta dicho modelo, con el cual se predice el rendimiento de la aplicación estimando el valor de la granularidad que hace más eficiente el cómputo, debiendo hablar de dos niveles de granularidad, el que se implementará dentro de cada cluster y el que se implementa entre ambos clusters. Los resultados experimentales muestran que se logra más de un 90% de precisión en la predicción y que la mejora en los tiempos de cómputo alcanzan un 83% con la colaboración de ambos clusters.VI Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Informática (RedUNCI

Servicio de Difusión de la Creación Intelectual

Predicción del cómputo paralelo de una aplicación sobre una colección de clusters geográficamente distribuidos

Author: Dias Júnior Eduardo Argollo de Oliveira
Gaudiani Adriana
Luque Fadón Emilio
Rexachs del Rosario Dolores
Publication venue
Publication date: 01/10/2005
Field of study

Domain Decomposition vs. Master-Slave in Apparently Homogeneous Systems

Author
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/01/2007
Field of study

Crossref