321 research outputs found

    Low-power accelerators for cognitive computing

    Get PDF
    Deep Neural Networks (DNNs) have achieved tremendous success for cognitive applications, and are especially efficient in classification and decision making problems such as speech recognition or machine translation. Mobile and embedded devices increasingly rely on DNNs to understand the world. Smartphones, smartwatches and cars perform discriminative tasks, such as face or object recognition, on a daily basis. Despite the increasing popularity of DNNs, running them on mobile and embedded systems comes with several main challenges: delivering high accuracy and performance with a small memory and energy budget. Modern DNN models consist of billions of parameters requiring huge computational and memory resources and, hence, they cannot be directly deployed on low-power systems with limited resources. The objective of this thesis is to address these issues and propose novel solutions in order to design highly efficient custom accelerators for DNN-based cognitive computing systems. In first place, we focus on optimizing the inference of DNNs for sequence processing applications. We perform an analysis of the input similarity between consecutive DNN executions. Then, based on the high degree of input similarity, we propose DISC, a hardware accelerator implementing a Differential Input Similarity Computation technique to reuse the computations of the previous execution, instead of computing the entire DNN. We observe that, on average, more than 60% of the inputs of any neural network layer tested exhibit negligible changes with respect to the previous execution. Avoiding the memory accesses and computations for these inputs results in 63% energy savings on average. In second place, we propose to further optimize the inference of FC-based DNNs. We first analyze the number of unique weights per input neuron of several DNNs. Exploiting common optimizations, such as linear quantization, we observe a very small number of unique weights per input for several FC layers of modern DNNs. Then, to improve the energy-efficiency of FC computation, we present CREW, a hardware accelerator that implements a Computation Reuse and an Efficient Weight Storage mechanism to exploit the large number of repeated weights in FC layers. CREW greatly reduces the number of multiplications and provides significant savings in model memory footprint and memory bandwidth usage. We evaluate CREW on a diverse set of modern DNNs. On average, CREW provides 2.61x speedup and 2.42x energy savings over a TPU-like accelerator. In third place, we propose a mechanism to optimize the inference of RNNs. RNN cells perform element-wise multiplications across the activations of different gates, sigmoid and tanh being the common activation functions. We perform an analysis of the activation function values, and show that a significant fraction are saturated towards zero or one in popular RNNs. Then, we propose CGPA to dynamically prune activations from RNNs at a coarse granularity. CGPA avoids the evaluation of entire neurons whenever the outputs of peer neurons are saturated. CGPA significantly reduces the amount of computations and memory accesses while avoiding sparsity by a large extent, and can be easily implemented on top of conventional accelerators such as TPU with negligible area overhead, resulting in 12% speedup and 12% energy savings on average for a set of widely used RNNs. Finally, in the last contribution of this thesis we focus on static DNN pruning methodologies. DNN pruning reduces memory footprint and computational work by removing connections and/or neurons that are ineffectual. However, we show that prior pruning schemes require an extremely time-consuming iterative process that requires retraining the DNN many times to tune the pruning parameters. Then, we propose a DNN pruning scheme based on Principal Component Analysis and relative importance of each neuron's connection that automatically finds the optimized DNN in one shot.Les xarxes neuronals profundes (DNN) han aconseguit un èxit enorme en aplicacions cognitives, i són especialment eficients en problemes de classificació i presa de decisions com ara reconeixement de veu o traducció automàtica. Els dispositius mòbils depenen cada cop més de les DNNs per entendre el món. Els telèfons i rellotges intel·ligents, o fins i tot els cotxes, realitzen diàriament tasques discriminatòries com ara el reconeixement de rostres o objectes. Malgrat la popularitat creixent de les DNNs, el seu funcionament en sistemes mòbils presenta diversos reptes: proporcionar una alta precisió i rendiment amb un petit pressupost de memòria i energia. Les DNNs modernes consisteixen en milions de paràmetres que requereixen recursos computacionals i de memòria enormes i, per tant, no es poden utilitzar directament en sistemes de baixa potència amb recursos limitats. L'objectiu d'aquesta tesi és abordar aquests problemes i proposar noves solucions per tal de dissenyar acceleradors eficients per a sistemes de computació cognitiva basats en DNNs. En primer lloc, ens centrem en optimitzar la inferència de les DNNs per a aplicacions de processament de seqüències. Realitzem una anàlisi de la similitud de les entrades entre execucions consecutives de les DNNs. A continuació, proposem DISC, un accelerador que implementa una tècnica de càlcul diferencial, basat en l'alt grau de semblança de les entrades, per reutilitzar els càlculs de l'execució anterior, en lloc de computar tota la xarxa. Observem que, de mitjana, més del 60% de les entrades de qualsevol capa de les DNNs utilitzades presenten canvis menors respecte a l'execució anterior. Evitar els accessos de memòria i càlculs d'aquestes entrades comporta un estalvi d'energia del 63% de mitjana. En segon lloc, proposem optimitzar la inferència de les DNNs basades en capes FC. Primer analitzem el nombre de pesos únics per neurona d'entrada en diverses xarxes. Aprofitant optimitzacions comunes com la quantització lineal, observem un nombre molt reduït de pesos únics per entrada en diverses capes FC de DNNs modernes. A continuació, per millorar l'eficiència energètica del càlcul de les capes FC, presentem CREW, un accelerador que implementa un eficient mecanisme de reutilització de càlculs i emmagatzematge dels pesos. CREW redueix el nombre de multiplicacions i proporciona estalvis importants en l'ús de la memòria. Avaluem CREW en un conjunt divers de DNNs modernes. CREW proporciona, de mitjana, una millora en rendiment de 2,61x i un estalvi d'energia de 2,42x. En tercer lloc, proposem un mecanisme per optimitzar la inferència de les RNNs. Les cel·les de les xarxes recurrents realitzen multiplicacions element a element de les activacions de diferents comportes, sigmoides i tanh sent les funcions habituals d'activació. Realitzem una anàlisi dels valors de les funcions d'activació i mostrem que una fracció significativa està saturada cap a zero o un en un conjunto d'RNNs populars. A continuació, proposem CGPA per podar dinàmicament les activacions de les RNNs a una granularitat gruixuda. CGPA evita l'avaluació de neurones senceres cada vegada que les sortides de neurones parelles estan saturades. CGPA redueix significativament la quantitat de càlculs i accessos a la memòria, aconseguint en mitjana un 12% de millora en el rendiment i estalvi d'energia. Finalment, en l'última contribució d'aquesta tesi ens centrem en metodologies de poda estàtica de les DNNs. La poda redueix la petjada de memòria i el treball computacional mitjançant l'eliminació de connexions o neurones redundants. Tanmateix, mostrem que els esquemes de poda previs fan servir un procés iteratiu molt llarg que requereix l'entrenament de les DNNs moltes vegades per ajustar els paràmetres de poda. A continuació, proposem un esquema de poda basat en l'anàlisi de components principals i la importància relativa de les connexions de cada neurona que optimitza automàticament el DNN optimitzat en un sol tret sense necessitat de sintonitzar manualment múltiples paràmetresPostprint (published version

    Route planning for e-scooters

    Get PDF
    According to Wikipedia; The vehicle routing problem (VRP) is a combinatorial integer programming and optimisation problem that asks ¿What is the optimal set of routes that a fleet of vehicles should travel to deliver to a given set of customers?. Many years have passed since Dantzig and Ramser introduced this problem in 1959. They described a real-world application concerning the delivery of gasoline to service stations and proposed the first mathematical programming formulation and algorithmic approach. But even so, route optimisation is now more important than ever. Large delivery companies invest a lot of their capital in VRP consultancy, knowing the most optimal route to deliver saves you a lot of time and money. This project attempts to solve a route planning problem. This problem is based on the primary notions of a TSP (Travel Salesman Problem). Tries to solve a problem where we are in a city on an e-scooter and we want to visit a number of places in that city in the shortest possible time. To reach all the places that are a goal for you, the battery of the e-scooter has to be considered, as it is decreasing through the distance travelled. So you have to consider if it is worth to deviate from the fastest route to take another e-scooter that has enough battery to reach the next destination, changing e-scooter adds extra time (time in which you change from one e-scooter to another). The goal of the thesis is to design and implement an algorithm solving the problem, i.e. that shows you the fastest route and the time it takes to visit all destinations in the shortest possible time.Según la Wikipedia; El problema de enrutamiento de vehículos (VRP) es un problema combinatorio de programación entera y optimización que se pregunta ¿Cuál es el conjunto óptimo de rutas que debe recorrer una flota de vehículos para entregar a un conjunto dado de clientes?. Han pasado muchos años desde que Dantzig y Ramser introdujeron este problema en 1959. Describieron una aplicación del mundo real relativa a la entrega de gasolina en estaciones de servicio y propusieron la primera formulación de programación matemática y un enfoque algorítmico. Pero aún así, la optimización de rutas es ahora más importante que nunca. Las grandes empresas de reparto invierten gran parte de su capital en la consultoría de VRP, ya que conocer la ruta más óptima para el reparto les ahorra mucho tiempo y dinero. Este proyecto trata de resolver un problema de planificación de rutas. Este problema se basa en las nociones primarias de un TSP (Problema del viajante). Trata de resolver un problema en el que nos encontramos en una ciudad en un e-scooter y queremos visitar una serie de lugares de esa ciudad en el menor tiempo posible. Para llegar a todos los lugares que son un objetivo para ti, hay que tener en cuenta la batería del e-scooter, ya que va disminuyendo con la distancia recorrida. Así que hay que considerar si merece la pena desviarse de la ruta más rápida para coger otro e-scooter que tenga suficiente batería para llegar al siguiente destino, el cambio de e-scooter añade tiempo extra (tiempo en el que se cambia de un e-scooter a otro). El objetivo de la tesis es diseñar e implementar un algoritmo que resuelva el problema, es decir, que le muestre la ruta más rápida y el tiempo que tarda en visitar todos los destinos en el menor tiempo posible.Segons la Viquipèdia; El problema d'enrutament de vehicles (VRP) és un problema combinatori de programació sencera i optimització que es pregunta ¿Quin és el conjunt òptim de rutes que ha de recórrer una flota de vehicles per lliurar a un conjunt donat de clients?. Han passat molts anys des que Dantzig i Ramser van introduir aquest problema en 1959. Van descriure una aplicació del món real relativa al lliurament de gasolina en estacions de servei i van proposar la primera formulació de programació matemàtica i un enfocament algorítmic. Però tot i això, l'optimització de rutes és ara més important que mai. Les grans empreses de repartiment inverteixen gran part del seu capital en consultories de VRP, ja que conèixer la ruta òptima per al repartiment els hi estalvia molt de temps i diners. Aquest projecte tracta de resoldre un problema de planificació de rutes. Aquest problema es basa en les nocions primàries d'un TSP (Problema del viatger). Tracta de resoldre un problema en el qual ens trobem en una ciutat en un e-scooter i volem visitar una sèrie de llocs d'aquesta ciutat en el menor temps possible. Per arribar a tots els llocs que s´on un objectiu per a tu, cal tenir en compte la bateria de l'e-scooter, ja que va disminuint amb la distància recorreguda. Així que cal considerar si val la pena desviar-se de la ruta més ràpida per agafar un altre e-scooter que tingui prou bateria per arribar a la següent destinació, el canvi d' e-scooter afegeix temps extra (temps en el qual es canvia d'un e -scooter a un altre). L'objectiu de la tesi és dissenyar i implementar un algoritme que resolgui el problema, és a dir, que li mostri la ruta mès ràpida i el temps que triga a visitar totes les destinacions en el menor temps possible

    Diseño de un sistema de baliza automática para puertos deportivos

    Get PDF
    Este proyecto se centra en el diseño conceptual de una baliza automática para uso en puertos deportivos. A partir del estado del arte se ha constatado que el mercado actual es inexistente, así pues, partiendo de cero, se han creado dos posibles conceptos. Estos conceptos incluyen un diseño del sistema mecánico, electrónico y de telecomunicaciones. Dicha embarcación de servicios tendrá la función de baliza, la cual estará dentro de puerto y se encargará de ir a buscar embarcaciones y guiarlas hasta su amarre. Todo esto de forma automática. Con tal de realizar un diseño conceptual, primero se estudiará las opciones que presenta el mercado, para posteriormente presentar dos alternativas que puedan cumplir las funciones deseadas. Con la ayuda del programa de diseño asistido Solidworks 2018 se presentan las soluciones conceptuales de ambas propuestas. Para el análisis de la embarcación, a partir del planteamiento de las ecuaciones matemáticas y físicas se realiza una simulación de su funcionamiento. Esta simulación va acompañada de una hoja de cálculo que simula el controlador PID incorporado. Todo esto con el fin de tomar la decisión de cuál de las dos propuestas es la más adecuada para este proyecto y su fin

    DNA-TEQ: An Adaptive Exponential Quantization of Tensors for DNN Inference

    Full text link
    Quantization is commonly used in Deep Neural Networks (DNNs) to reduce the storage and computational complexity by decreasing the arithmetical precision of activations and weights, a.k.a. tensors. Efficient hardware architectures employ linear quantization to enable the deployment of recent DNNs onto embedded systems and mobile devices. However, linear uniform quantization cannot usually reduce the numerical precision to less than 8 bits without sacrificing high performance in terms of model accuracy. The performance loss is due to the fact that tensors do not follow uniform distributions. In this paper, we show that a significant amount of tensors fit into an exponential distribution. Then, we propose DNA-TEQ to exponentially quantize DNN tensors with an adaptive scheme that achieves the best trade-off between numerical precision and accuracy loss. The experimental results show that DNA-TEQ provides a much lower quantization bit-width compared to previous proposals, resulting in an average compression ratio of 40% over the linear INT8 baseline, with negligible accuracy loss and without retraining the DNNs. Besides, DNA-TEQ leads the way in performing dot-product operations in the exponential domain, which saves 66% of energy consumption on average for a set of widely used DNNs.Comment: 8 pages, 8 figures, 5 table

    An Energy-Efficient Near-Data Processing Accelerator for DNNs that Optimizes Data Accesses

    Full text link
    The constant growth of DNNs makes them challenging to implement and run efficiently on traditional compute-centric architectures. Some accelerators have attempted to add more compute units and on-chip buffers to solve the memory wall problem without much success, and sometimes even worsening the issue since more compute units also require higher memory bandwidth. Prior works have proposed the design of memory-centric architectures based on the Near-Data Processing (NDP) paradigm. NDP seeks to break the memory wall by moving the computations closer to the memory hierarchy, reducing the data movements and their cost as much as possible. The 3D-stacked memory is especially appealing for DNN accelerators due to its high-density/low-energy storage and near-memory computation capabilities to perform the DNN operations massively in parallel. However, memory accesses remain as the main bottleneck for running modern DNNs efficiently. To improve the efficiency of DNN inference we present QeiHaN, a hardware accelerator that implements a 3D-stacked memory-centric weight storage scheme to take advantage of a logarithmic quantization of activations. In particular, since activations of FC and CONV layers of modern DNNs are commonly represented as powers of two with negative exponents, QeiHaN performs an implicit in-memory bit-shifting of the DNN weights to reduce memory activity. Only the meaningful bits of the weights required for the bit-shift operation are accessed. Overall, QeiHaN reduces memory accesses by 25\% compared to a standard memory organization. We evaluate QeiHaN on a popular set of DNNs. On average, QeiHaN provides 4.3x4.3x speedup and 3.5x3.5x energy savings over a Neurocube-like accelerator

    ReDy: A Novel ReRAM-centric Dynamic Quantization Approach for Energy-efficient CNN Inference

    Full text link
    The primary operation in DNNs is the dot product of quantized input activations and weights. Prior works have proposed the design of memory-centric architectures based on the Processing-In-Memory (PIM) paradigm. Resistive RAM (ReRAM) technology is especially appealing for PIM-based DNN accelerators due to its high density to store weights, low leakage energy, low read latency, and high performance capabilities to perform the DNN dot-products massively in parallel within the ReRAM crossbars. However, the main bottleneck of these architectures is the energy-hungry analog-to-digital conversions (ADCs) required to perform analog computations in-ReRAM, which penalizes the efficiency and performance benefits of PIM. To improve energy-efficiency of in-ReRAM analog dot-product computations we present ReDy, a hardware accelerator that implements a ReRAM-centric Dynamic quantization scheme to take advantage of the bit serial streaming and processing of activations. The energy consumption of ReRAM-based DNN accelerators is directly proportional to the numerical precision of the input activations of each DNN layer. In particular, ReDy exploits that activations of CONV layers from Convolutional Neural Networks (CNNs), a subset of DNNs, are commonly grouped according to the size of their filters and the size of the ReRAM crossbars. Then, ReDy quantizes on-the-fly each group of activations with a different numerical precision based on a novel heuristic that takes into account the statistical distribution of each group. Overall, ReDy greatly reduces the activity of the ReRAM crossbars and the number of A/D conversions compared to an static 8-bit uniform quantization. We evaluate ReDy on a popular set of modern CNNs. On average, ReDy provides 13\% energy savings over an ISAAC-like accelerator with negligible accuracy loss and area overhead.Comment: 13 pages, 16 figures, 4 Table

    Botes de futbol per entrenadors. Justificació del producte i estudi de la demanda a la Catalunya central

    Get PDF
    Curs 2013-2014El següent treball correspon a un estudi de mercat que parteix de la hipòtesis de que a la Catalunya central hi ha les condicions per crear la demanda d’un nou producte esportiu, unes botes de futbol per entrenadors que garanteixin la comoditat en condicions climatològiques adverses mantenint les seves prestacions tècniques. L’estudi s’ha proposat conèixer les condicions per introduir un nou producte al mercat dels entrenadors de futbol. Es pretén definir les necessitats a cobrir i la predisposició del mercat a adquirir el nou producte. Per fer-ho s’han analitzat mitjançant enquestes i entrevistes a entrenadors de les comarques del Bages, Berguedà, Osona i Solsona. Finalment el document indica que en aquesta zona hi ha una bona predisposició a l’entrada del nou producte ja que cobriria unes necessitats que cap altre producte té en compte actualment.The next project corresponds to a marketing research that starts with the hypothesis that thinks that in the central part of Catalonia are existing the conditions to create the demand of a new sports product, boots for football trainers. The project has been proposed know the conditions for introduce a new product to the football trainers market. Wants to define the needs to cover and the predisposition of the market for introduce the product. In this way, football trainers from El Bages, Berguedà, Osona and Solsona have been analysed using surveys and interviews. Finally, the paper shows that in this area there is a good willingness about the entry of the product into the market, as it covers a need that any other product is not covering at this time

    Desenvolupament dʼun element translineal dʼalt ample de banda per al processat de senyal de MEMS i dels seus circuits associats

    Get PDF
    La realització dʼaquest projecte parteix del mètode de control de lʼestàtica i la dinàmica per actuadors electrostàtics MEMS per posicionament analògic proposat per Daniel Fernández i Jordi Madrenas en el paper “Position, damping and inertia control of parallel-plate electrostatic actuators”. Aquesta implementació sorgeix de lʼestudi de la dependència existent dels paràmetres dinàmics naturals de lʼactuador, és a dir, constant elàstica, amortiguament i massa, i més concretament dels afectes en paràmetres com la freqüència de ressonància, el temps de resposta, etc; que sols són modificables dins uns marges limitats i sempre dins del procés inicial de disseny de lʼactuador. El mètode proposat permet modificar a nivell electrònic els coeficients de lʼequació diferencial del moviment, que en el cas dʼun actuador electrostàtic de plaques paral·leles, tal com ja sʼha anunciat, permetent un ajust dinàmic dels seus paràmetres naturals amb les úniques limitacions que les imposades per la pròpia circuiteria electrònica necessària en la seva implementació. Aquest PFC preten avaluar la implementació del mètode de control mitjançant la utilització dʼelements translineals com a nucli de procés en els seus blocs bàsics. Amb això, una de les particularitats del disseny que es proposa és que es vol que sigui realitzat en mode corrent, aprofitant el principi de translinealitat i amb circuiteria MOS, ja que així aconseguim una simplificació considerable en la implementació dʼoperacions bàsiques tals com les multiplicacions i divisions que amb altres estratègies presenten una complexitat considerable. En el primer capítol es presenta un Mètode de control per actuadors electrostàtics MEMS i el seu diagrama de blocs per implementar-lo. A continuació, sʼestudia com són els elements translineals i com es pot treballar amb ells, per tal de centrar-nos en el següent capítol en lʼimplementació de lʼelement translineal dʼalt ample de banda i la caracterització de cada un dels paràmetres circuitals mitjançant les simulacions per aconseguir el funcionament adequat.Un cop caracteritzats els paràmetres utilitzarem aquest element translineal per dissenyar els operadors matemàtics necessaris per implementar el mètode i simular-ne els seus resultats. Finalment es presenten els layous necessaris per la implementació de lʼelement translineal i dʼalguns dels seus circuits associat

    Gestió de l’estalvi energètic en el sistema elèctric d’un vaixell

    Get PDF
    Estudi d\'eficiència energètic en el sistema elèctric d\'un vaixell existent, mitjançant l\'implementació de nous mètodes. Aquests nous mètodes es tracten de motors més eficients i variadors de freqüència. També es fa una explicació de noves eïnes de normatives energètiques que funcionen a nivell mundial
    corecore