810 research outputs found

    Improving instruction scheduling in GPGPUs

    Get PDF
    GPU architectures have become popular for executing general-purpose programs. Moreover, they are some of the most efficient architectures for machine learning applications which are among the most trendy and demanding applications these days. GPUs rely on having a large number of threads that run concurrently to hide the latency among dependent instructions. This work presents SOCGPU (Simple Out-of-order Core for GPU), a simple out-of-order execution mechanism that does not require register renaming nor scoreboards. It uses a small Instruction Buffer and a tiny Dependence matrix to keep track of dependencies among instructions and avoid data hazards. Evaluations for an Nvidia GTX1080TI-like GPU show that SOCGPU provides a speed-up up to 3.76 in some machine learning programs and 1.58 on average for a variety of benchmarks, while it reduces energy consumption by 17.6%, with only 3.48% area overhead when using the same number of warps as the baseline. Moreover, we show that SOCGPU can reduce the number of concurrently running warps without hardly affecting performance, which can provide significant reductions in area, especially in the register file and the instruction scheduler logic, as well as other hardware structures of the GPU cores

    El producto matricial distribuido en entornos computacionales de alto rendimiento

    Full text link
    [ES] La multiplicación de matrices es una operación fundamental para la resolución de innumerables problemas matemáticos que tienen a esta operación en su base. El coste de esta operación, incluso el algoritmo utilizado, es diferente según la forma particular que tengan las matrices (densas, diagonales, dispersas, ...). En el caso de matrices densas sin estructura conocida a priori, es decir, de matrices generales, esta operación tiene un coste computacional elevado O(n^3). Es por este motivo por el que existen desde hace tiempo algoritmos paralelos diversos según el entorno de computación particular en el que se ejecutan. Entre estos algoritmos tiene especial relevancia el algoritmo SUMMA, diseñado para entornos de memoria distribuida. En este documento, en primer lugar, se lleva a cabo una implementación del algoritmo SUMMA para clusters de ordenadores utilizando la conocida librería MPI, teniendo en cuenta y aprovechando la capacidad multicore de los nodos. En segundo lugar, y aprovechando la experiencia anterior, se implementa el mismo algoritmo para un entorno de computación de alto rendimiento, objetivo real de este trabajo, formado por 4 GPUs interconectadas mediante una red de alta capacidad (NVLink) y utilizando, para ello, la librería NCCL de NVIDIA. Finalmente, el trabajo construye una envoltura C++ que permite una utilización accesible de la librería desarrollada. Además, se ofrece una interfaz Matlab que proporciona la habilidad de utilizar el software desarrollado eficientemente a usuarios no programadores. Se demuestra la eficacia de la solución propuesta mediante un ejemplo real: el cálculo de funciones de matrices basado en la evaluación de polinomios matriciales.[EN] Matrix multiplication is a fundamental operation for solving uncountable mathematical problems that have this operation at their base. The cost of this operation, including the algorithm used, is different depending on the particular structure of the matrices (dense, diagonal, sparse, ...). In the case of dense matrices, with no known structure, that is, of general matrices, this operation has a high computational cost (O(n3)). It is for this reason that parallel algorithms have existed for a long time, being different according to the particular computing environment in which they are executed. Among these algorithms it is specially relevant the SUMMA algorithm, designed for distributed memory environments. In this document, firstly, we build an implementation of the SUMMA algorithm for computer clusters using the MPI library, taking into account and exploiting the multicore capacity of the nodes. Secondly, using the previous experience, we implement a version of the same algorithm for another high-performance computing environment, which is the real objective of this work, featuring 4 GPUs interconnected by a high-speednetwork (NVLink) and using, for this, the NVIDIA NCCL library. Finally, the work builds a C++ wrapper that allows a handy use of the developed library. In addition, it offers a Matlab interface that provides the ability to use the developed software ef¿ciently for non-programmer users. We demonstrate the effectiveness of the proposed solution on a real example: the computation of matrix functions based on the evaluation of matrix polynomials.[CA] La multiplicació de matrius és una operació fonamental per a la resolució d’innombrables problemes matemàtics que tenen a aquesta operació en la seua base. El cost d’aquesta operació, fins i tot l’algorisme utilitzat, és diferent segons la forma particular que tinguen les matrius (denses, diagonals, disperses, . . . ). En el cas de matrius denses sense estructura coneguda a priori, és a dir, de matrius generals, aquesta operació té un cost computacional elevat (O(n 3 )). És per aquest motiu pel qual existeixen des de fa temps algorismes paral·lels diversos segons l’entorn de computació particular en el qual s’executen. Entre aquests algorismes té especial rellevància l’algorisme SUMMA, dissenyat per a entorns de memòria distribuïda. En aquest document, en primer lloc, es porta a terme una implementació de l’algorisme SUMMA per a clústers d’ordinadors utilitzant la coneguda llibreria MPI, tenint en compte i aprofitant la capacitat multicore dels nodes. En segon lloc, i aprofitant l’experiència anterior, s’implementa el mateix algorisme per a un entorn de computació d’alt rendiment, objectiu real del treball, format per 4 GPUs interconnectades mitjançant una xarxa d’alta capacitat (NVLink) i utilitzant, per a això, la llibreria NCCL de NVIDIA. Finalment, el treball construeix un embolcall C++ que permet una utilització accessible de la llibreria desenvolupada. A més, s’ofereix una interfície Matlab que proporciona l’habilitat d’utilitzar el programari desenvolupat eficientment a usuaris no programadors. Es demostra l’eficàcia de la solució proposada mitjançant un exemple real: el càlcul de funcions de matrius basat en l’avaluació de polinomis matricials.Huerta Gañán, R. (2020). El producto matricial distribuido en entornos computacionales de alto rendimiento. http://hdl.handle.net/10251/149579TFG

    Structure and texture of the quark mass matrix

    Full text link
    Starting from a weak basis in which the up (or down) quark matrix is diagonal, we obtain an exact set of equations for the quark mass matrix elements in terms of known observables. We make a numerical analysis of the down (up) quark mass matrix. Using the data available for the quark masses and mixing angles at different energy scales, we found a numerical expression for these matrices. We suggest that it is not possible to have an specific texture from this analysis. We also examine the most general case when the complex phases are introduced in the mass matrix. We find the numerical value for these phases as a function of δ\delta, the CP-violationg phase.Comment: 7 pages, we use the macros of Elsevie

    Implementación de un algoritmo genético para elaborar un conjunto de rutas óptimas para el transporte de la comunidad universitaria desde y hacia el campus principal

    Get PDF
    En la actualidad, varias universidades como la PUCP no cuentan con un sistema de transporte privado para la comunidad universitaria a pesar de que existen propuestas y es un servicio pedido por un sector de la universidad. Los motivos son varios ya que se debe considerar presupuestos, logística y una planeación adecuada de las rutas de servicio. Este último punto es complicado de por sí pues es difícil poder encontrar un conjunto de rutas que cumplan con satisfacer la demanda de una manera óptima. En primer lugar, se debe considerar que, en una ciudad de gran tamaño, realizar cualquier tipo de diseño de rutas es un trabajo que presenta muchos desafíos. Con todas las calles y avenidas a considerar, realizar un diseño de rutas eficiente y óptimo no puede ser una tarea manual. También se debe tomar en cuenta el tamaño de la población que se desea atender. Dentro de una universidad de dimensiones similares a la PUCP, se podría estimar una población de algunos miles de usuarios, los cuales representan un desafío en la tarea de planeación de la ruta pues se debe buscar poder satisfacer a la mayoría de ellos. Al tener una población tan grande, el usar rutas no óptimas podría perjudicar a cientos de usuarios. Finalmente, una vez determinada un conjunto de rutas, se debe también establecer la ubicación de los paraderos. Si se posee información del lugar de residencia de los miembros de la comunidad se puede planear mejor qué zonas requieren mayor cantidad de paraderos y cuales menor número. Las herramientas informáticas han sido usadas para resolver problemas similares en el pasado con mucho éxito. Sin embargo, estas han estado más orientadas al sistema de transporte público general. En la revisión se encontró que el algoritmo PIA (Pair Insertion Algorithm) ha resuelto un problema similar de planeación de rutas de transporte público, pero que estos resultados podrían ser mejorados si se usan como población inicial de otro algoritmo como uno genético. Por esto, se propone para el presente proyecto realizar, utilizando al algoritmo PIA, la Implementación de un algoritmo genético para elaborar un conjunto de rutas óptimas para el transporte de la comunidad universitaria desde y hacia el campus principal.Tesi

    El rol del programa de intervención cambiaria del BCRP en la reducción del riesgo cambiario-crediticio en el Sistema Bancario Peruano

    Get PDF
    Períodos prolongados de dolarización financiera pueden traer una serie de distorsiones en la economía y nos vuelve especialmente susceptibles a choques externos. Es por ello que resulta importante estudiar las acciones que toma el BCRP para controlar los riesgos de un dólar muy protagonista, sobre todo en los balances de los bancos. El objetivo principal de esta investigación es analizar la relación existente entre las intervenciones cambiarias del BCRP y el riesgo cambiario crediticio de las entidades bancarias en el período 1996-2018, sobre todo determinar si las intervenciones ayudan a controlar y reducir este riesgo. Como indicador de riesgo cambiario crediticio se emplea a la tasa de morosidad en moneda extranjera, mientras que las intervenciones cambiarias se representan mediante las operaciones que realiza el BCRP como la compra/venta de dólares y la compra/venta de instrumentos derivados, diferenciando los efectos de las compras del de las ventas. Además, subdividimos la muestra de bancos entre “mayoristas” y “minoristas” para encontrar efectos diferenciados. La estimación la realizamos con un Modelo de Datos de Panel Dinámico a lo Arellano y Bond, pues tenemos datos de varios bancos individuales a lo largo de varios años. Los resultados arrojan cosas interesantes. Primero, la relación del RCC con sus determinantes siempre se da con rezago. Luego, hacer una distinción entre bancos mayoristas y minoristas es importante y significativa: los minoristas sufren de choques más fuertes de morosidad. Por último, las intervenciones cambiarias no parecen explicar mucho del RCC, los otros determinantes macroeconómicos resultan mucho más decisivos.Long periods of financial dollarization can bring a series of distortions in the economy and make us especially susceptible to external shocks. That is why it is important to study the actions taken by the Peruvian Central Bank to control the risks of a very powerful dollar, especially on the banks’ balance sheets. The main objective of this paper is to analyze the relationship between the Peruvian Central Bank exchange rate interventions and the exchange rate credit risk of banks in the period 1996-2018 to determine if the interventions help to control and reduce this risk. As an indicator of exchange rate credit risk, we use the Non-Performing Loans Rate (default rate) in foreign currency, while foreign exchange interventions are represented by the operations carried out by the BCRP such as the purchase/sale of dollars and the purchase/sale of derivative instruments, differentiating the effects of the purchases from the effects of the sales. Furthermore, we subdivided the sample of banks between “Big Banks” and “Retail Banks” to find differentiated effects. We estimated a Dynamic Panel Data Model following Arellano and Bond’s methodology, since we have data from several individual banks over several years. We got some interesting results. First, the relationship of the exchange rate credit risk with its determinants always comes with certain lag. Then, making a distinction between the banks is important and significant: retailers suffer much more from stronger delinquency shocks. Finally, the exchange rate interventions do not seem to explain much of the exchange rate credit risk, the other macroeconomic determinants are much more decisive.Trabajo de investigació

    A Deep Learning Solution for Automatized Interpretation of 12-Lead ECGs

    Full text link
    [EN] A broad variety of algorithms for detection and classification of rhythm and morphology abnormalities in ECG recordings have been proposed in the last years. Although some of them have reported very promising results, they have been mostly validated on short and non-public datasets, thus making their comparison extremely difficult. PhysioNet/CinC Challenge 2020 provides an interesting opportunity to compare these and other algorithms on a wide set of ECG recordings. The present model was created by ¿ELBIT¿ team. The algorithm is based on deep learning, and the segmentation of all beats in the 12-lead ECG recording, generating a new signal for each one by concatenating sequentially the information found in each lead. The resulting signal is then transformed into a 2- D image through a continuous Wavelet transform and inputted to a convolutional neural network. According to the competition guidelines, classification results were evaluated in terms of a class-weighted F-score (Fß) and a generalization of the Jaccard measure (Gß). In average for all training signals, these metrics were 0.933 and 0.811, respectively. Regarding validation on the testing set from the first phase of the challenge, mean values for both performance indices were 0.654 and 0.372, respectivelyThis research has been supported by the grants DPI2017¿83952¿C3 from MINECO/AEI/FEDER EU, SBPLY/17/180501/000411 from Junta de Comunidades de Castilla-La Mancha, AICO/2019/036 from Generalitat Valenciana and FEDER 2018/11744Huerta, A.; Martinez-Rodrigo, A.; Rieta, JJ.; Alcaraz, R. (2020). A Deep Learning Solution for Automatized Interpretation of 12-Lead ECGs. IEEE. 1-4. https://doi.org/10.22489/CinC.2020.305S1

    ECG Quality Assessment via Deep Learning and Data Augmentation

    Full text link
    [EN] Quality assessment of ECG signals acquired with wearable devices is essential to avoid misdiagnosis of some cardiac disorders. For that purpose, novel deep learning algorithms have been recently proposed. However, training of these methods require large amount of data and public databases with annotated ECG samples are limited. Hence, the present work aims at validating the usefulness of a well-known data augmentation approach in this context of ECG quality assessment. Precisely, classification between high- and low-quality ECG excerpts achieved by a common convolutional neural network (CNN) trained on two databases has been compared. On the one hand, 2,000 5 second-length ECG excerpts were initially selected from a freely available database. Half of the segments were extracted from noisy ECG recordings and the other half from high-quality signals. On the other hand, using a data augmentation approach based on time-scale modification, noise addition, and pitch shifting of the original noisy ECG experts, 1,000 additional low-quality intervals were generated. These surrogate noisy signals and the original highquality ones formed the second dataset. The results for both cases were compared using a McNemar test and no statistically significant differences were noticed, thus suggesting that the synthesized noisy signals could be used for reliable training of CNN-based ECG quality indices.Huerta, Á.; Martínez-Rodrigo, A.; Rieta, JJ.; Alcaraz, R. (2021). ECG Quality Assessment via Deep Learning and Data Augmentation. 1-4. https://doi.org/10.22489/CinC.2021.2431

    Simple out of order core for GPGPUs

    Get PDF
    GPU architectures have become popular for executing general-purpose programs which rely on having a large number of threads that run concurrently to hide the latency among dependent instructions. This approach has an important cost/overhead in terms of low data locality due to the increased pressure on the memory hierarchy of the many threads being run concurrently and the extra cost of storing and managing the on-chip state of those many threads. This paper presents SOCGPU (Simple Out-of-order Core for GPU), a simple out-of-order execution mechanism that does not require register renaming nor scoreboards. It uses a small Instruction Buffer and a tiny Dependence matrix to keep track of dependencies among instructions and avoid data hazards. Evaluations for an Nvidia Tesla V100-like GPU show that SOCGPU provides a speed-up of up to 2.3 in some machine learning programs and 1.38 on average for a variety of benchmarks, while it reduces energy consumption by 6.5%, with only 2.4% area overhead.This work has been supported by the CoCoUnit ERC Advanced Grant of the EU’s Horizon 2020 program (grant No 833057), the Spanish State Research Agency (MCIN/AEI) under grant PID2020-113172RB-I00, and the ICREA Academia program.Peer ReviewedPostprint (author's final draft

    Los jueces contadores y administradores generales de alcabalas, tributos y azogues de la Real Hacienda de Nueva España durante el siglo XVII

    Get PDF
    This paper analyses the role played by the general fiscal magistrates, accounting officials and administrators in the operation of New Spain’s Royal Treasury. Thus, we elaborate a concise approach to the jurisdictional dimension of the Spanish tax administration with two case studies as the main subject of our research. Therefore, we scrutinize some keyaspects of the competences, authority and jurisdiction of these fiscal magistrates as part of the Spanish Royal Administration in New Spain.El objetivo del artículo es analizar el papel de los jueces contadores administradores generales de rentas reales en el gobierno del erario regio de Nueva España. A partir de dos estudios de caso elaboraremos una aproximación a la dimensión jurisdiccional del gobierno del real erario novohispano. Con este fin, se estudian las competencias, facultades y jurisdicción que detentaron los jueces contadores de alcabalas y de tributos, servicio real y azogues dentro de la organización de la Real Hacienda novohispana
    corecore