321 research outputs found
Low-power accelerators for cognitive computing
Deep Neural Networks (DNNs) have achieved tremendous success for cognitive applications, and are especially efficient in classification and decision making problems such as speech recognition or machine translation. Mobile and embedded devices increasingly rely on DNNs to understand the world. Smartphones, smartwatches and cars perform discriminative tasks, such as face or object recognition, on a daily basis. Despite the increasing popularity of DNNs, running them on mobile and embedded systems comes with several main challenges: delivering high accuracy and performance with a small memory and energy budget. Modern DNN models consist of billions of parameters requiring huge computational and memory resources and, hence, they cannot be directly deployed on low-power systems with limited resources. The objective of this thesis is to address these issues and propose novel solutions in order to design highly efficient custom accelerators for DNN-based cognitive computing systems.
In first place, we focus on optimizing the inference of DNNs for sequence processing applications. We perform an analysis of the input similarity between consecutive DNN executions. Then, based on the high degree of input similarity, we propose DISC, a hardware accelerator implementing a Differential Input Similarity Computation technique to reuse the computations of the previous execution, instead of computing the entire DNN. We observe that, on average, more than 60% of the inputs of any neural network layer tested exhibit negligible changes with respect to the previous execution. Avoiding the memory accesses and computations for these inputs results in 63% energy savings on average.
In second place, we propose to further optimize the inference of FC-based DNNs. We first analyze the number of unique weights per input neuron of several DNNs. Exploiting common optimizations, such as linear quantization, we observe a very small number of unique weights per input for several FC layers of modern DNNs. Then, to improve the energy-efficiency of FC computation, we present CREW, a hardware accelerator that implements a Computation Reuse and an Efficient Weight Storage mechanism to exploit the large number of repeated weights in FC layers. CREW greatly reduces the number of multiplications and provides significant savings in model memory footprint and memory bandwidth usage. We evaluate CREW on a diverse set of modern DNNs. On average, CREW provides 2.61x speedup and 2.42x energy savings over a TPU-like accelerator.
In third place, we propose a mechanism to optimize the inference of RNNs. RNN cells perform element-wise multiplications across the activations of different gates, sigmoid and tanh being the common activation functions. We perform an analysis of the activation function values, and show that a significant fraction are saturated towards zero or one in popular RNNs. Then, we propose CGPA to dynamically prune activations from RNNs at a coarse granularity. CGPA avoids the evaluation of entire neurons whenever the outputs of peer neurons are saturated. CGPA significantly reduces the amount of computations and memory accesses while avoiding sparsity by a large extent, and can be easily implemented on top of conventional accelerators such as TPU with negligible area overhead, resulting in 12% speedup and 12% energy savings on average for a set of widely used RNNs.
Finally, in the last contribution of this thesis we focus on static DNN pruning methodologies. DNN pruning reduces memory footprint and computational work by removing connections and/or neurons that are ineffectual. However, we show that prior pruning schemes require an extremely time-consuming iterative process that requires retraining the DNN many times to tune the pruning parameters. Then, we propose a DNN pruning scheme based on Principal Component Analysis and relative importance of each neuron's connection that automatically finds the optimized DNN in one shot.Les xarxes neuronals profundes (DNN) han aconseguit un èxit enorme en aplicacions cognitives, i són especialment eficients en problemes de classificació i presa de decisions com ara reconeixement de veu o traducció automàtica. Els dispositius mòbils depenen cada cop més de les DNNs per entendre el món. Els telèfons i rellotges intel·ligents, o fins i tot els cotxes, realitzen diàriament tasques discriminatòries com ara el reconeixement de rostres o objectes. Malgrat la popularitat creixent de les DNNs, el seu funcionament en sistemes mòbils presenta diversos reptes: proporcionar una alta precisió i rendiment amb un petit pressupost de memòria i energia. Les DNNs modernes consisteixen en milions de paràmetres que requereixen recursos computacionals i de memòria enormes i, per tant, no es poden utilitzar directament en sistemes de baixa potència amb recursos limitats. L'objectiu d'aquesta tesi és abordar aquests problemes i proposar noves solucions per tal de dissenyar acceleradors eficients per a sistemes de computació cognitiva basats en DNNs. En primer lloc, ens centrem en optimitzar la inferència de les DNNs per a aplicacions de processament de seqüències. Realitzem una anàlisi de la similitud de les entrades entre execucions consecutives de les DNNs. A continuació, proposem DISC, un accelerador que implementa una tècnica de càlcul diferencial, basat en l'alt grau de semblança de les entrades, per reutilitzar els càlculs de l'execució anterior, en lloc de computar tota la xarxa. Observem que, de mitjana, més del 60% de les entrades de qualsevol capa de les DNNs utilitzades presenten canvis menors respecte a l'execució anterior. Evitar els accessos de memòria i càlculs d'aquestes entrades comporta un estalvi d'energia del 63% de mitjana. En segon lloc, proposem optimitzar la inferència de les DNNs basades en capes FC. Primer analitzem el nombre de pesos únics per neurona d'entrada en diverses xarxes. Aprofitant optimitzacions comunes com la quantització lineal, observem un nombre molt reduït de pesos únics per entrada en diverses capes FC de DNNs modernes. A continuació, per millorar l'eficiència energètica del càlcul de les capes FC, presentem CREW, un accelerador que implementa un eficient mecanisme de reutilització de càlculs i emmagatzematge dels pesos. CREW redueix el nombre de multiplicacions i proporciona estalvis importants en l'ús de la memòria. Avaluem CREW en un conjunt divers de DNNs modernes. CREW proporciona, de mitjana, una millora en rendiment de 2,61x i un estalvi d'energia de 2,42x. En tercer lloc, proposem un mecanisme per optimitzar la inferència de les RNNs. Les cel·les de les xarxes recurrents realitzen multiplicacions element a element de les activacions de diferents comportes, sigmoides i tanh sent les funcions habituals d'activació. Realitzem una anàlisi dels valors de les funcions d'activació i mostrem que una fracció significativa està saturada cap a zero o un en un conjunto d'RNNs populars. A continuació, proposem CGPA per podar dinàmicament les activacions de les RNNs a una granularitat gruixuda. CGPA evita l'avaluació de neurones senceres cada vegada que les sortides de neurones parelles estan saturades. CGPA redueix significativament la quantitat de càlculs i accessos a la memòria, aconseguint en mitjana un 12% de millora en el rendiment i estalvi d'energia. Finalment, en l'última contribució d'aquesta tesi ens centrem en metodologies de poda estàtica de les DNNs. La poda redueix la petjada de memòria i el treball computacional mitjançant l'eliminació de connexions o neurones redundants. Tanmateix, mostrem que els esquemes de poda previs fan servir un procés iteratiu molt llarg que requereix l'entrenament de les DNNs moltes vegades per ajustar els paràmetres de poda. A continuació, proposem un esquema de poda basat en l'anàlisi de components principals i la importància relativa de les connexions de cada neurona que optimitza automàticament el DNN optimitzat en un sol tret sense necessitat de sintonitzar manualment múltiples paràmetresPostprint (published version
Route planning for e-scooters
According to Wikipedia; The vehicle routing problem (VRP) is a combinatorial integer programming and optimisation problem that asks ¿What is the optimal set of routes that a fleet of vehicles should travel to deliver to a given set of customers?. Many years have passed since Dantzig and Ramser introduced this problem in 1959. They described a real-world application concerning the delivery of gasoline to service stations and proposed the first mathematical programming formulation and algorithmic approach. But even so, route optimisation is now more important than ever. Large delivery companies invest a lot of their capital in VRP consultancy, knowing the most optimal route to deliver saves you a lot of time and money. This project attempts to solve a route planning problem. This problem is based on the primary notions of a TSP (Travel Salesman Problem). Tries to solve a problem where we are in a city on an e-scooter and we want to visit a number of places in that city in the shortest possible time. To reach all the places that are a goal for you, the battery of the e-scooter has to be considered, as it is decreasing through the distance travelled. So you have to consider if it is worth to deviate from the fastest route to take another e-scooter that has enough battery to reach the next destination, changing e-scooter adds extra time (time in which you change from one e-scooter to another). The goal of the thesis is to design and implement an algorithm solving the problem, i.e. that shows you the fastest route and the time it takes to visit all destinations in the shortest possible time.Según la Wikipedia; El problema de enrutamiento de vehículos (VRP) es un problema combinatorio de programación entera y optimización que se pregunta ¿Cuál es el conjunto óptimo de rutas que debe recorrer una flota de vehículos para entregar a un conjunto dado de clientes?. Han pasado muchos años desde que Dantzig y Ramser introdujeron este problema en 1959. Describieron una aplicación del mundo real relativa a la entrega de gasolina en estaciones de servicio y propusieron la primera formulación de programación matemática y un enfoque algorítmico. Pero aún así, la optimización de rutas es ahora más importante que nunca. Las grandes empresas de reparto invierten gran parte de su capital en la consultoría de VRP, ya que conocer la ruta más óptima para el reparto les ahorra mucho tiempo y dinero. Este proyecto trata de resolver un problema de planificación de rutas. Este problema se basa en las nociones primarias de un TSP (Problema del viajante). Trata de resolver un problema en el que nos encontramos en una ciudad en un e-scooter y queremos visitar una serie de lugares de esa ciudad en el menor tiempo posible. Para llegar a todos los lugares que son un objetivo para ti, hay que tener en cuenta la batería del e-scooter, ya que va disminuyendo con la distancia recorrida. Así que hay que considerar si merece la pena desviarse de la ruta más rápida para coger otro e-scooter que tenga suficiente batería para llegar al siguiente destino, el cambio de e-scooter añade tiempo extra (tiempo en el que se cambia de un e-scooter a otro). El objetivo de la tesis es diseñar e implementar un algoritmo que resuelva el problema, es decir, que le muestre la ruta más rápida y el tiempo que tarda en visitar todos los destinos en el menor tiempo posible.Segons la Viquipèdia; El problema d'enrutament de vehicles (VRP) és un problema combinatori de programació sencera i optimització que es pregunta ¿Quin és el conjunt òptim de rutes que ha de recórrer una flota de vehicles per lliurar a un conjunt donat de clients?. Han passat molts anys des que Dantzig i Ramser van introduir aquest problema en 1959. Van descriure una aplicació del món real relativa al lliurament de gasolina en estacions de servei i van proposar la primera formulació de programació matemàtica i un enfocament algorítmic. Però tot i això, l'optimització de rutes és ara més important que mai. Les grans empreses de repartiment inverteixen gran part del seu capital en consultories de VRP, ja que conèixer la ruta òptima per al repartiment els hi estalvia molt de temps i diners. Aquest projecte tracta de resoldre un problema de planificació de rutes. Aquest problema es basa en les nocions primàries d'un TSP (Problema del viatger). Tracta de resoldre un problema en el qual ens trobem en una ciutat en un e-scooter i volem visitar una sèrie de llocs d'aquesta ciutat en el menor temps possible. Per arribar a tots els llocs que s´on un objectiu per a tu, cal tenir en compte la bateria de l'e-scooter, ja que va disminuint amb la distància recorreguda. Així que cal considerar si val la pena desviar-se de la ruta més ràpida per agafar un altre e-scooter que tingui prou bateria per arribar a la següent destinació, el canvi d' e-scooter afegeix temps extra (temps en el qual es canvia d'un e -scooter a un altre). L'objectiu de la tesi és dissenyar i implementar un algoritme que resolgui el problema, és a dir, que li mostri la ruta mès ràpida i el temps que triga a visitar totes les destinacions en el menor temps possible
Diseño de un sistema de baliza automática para puertos deportivos
Este proyecto se centra en el diseño conceptual de una baliza automática para uso en puertos deportivos. A partir del estado del arte se ha constatado que el mercado actual es inexistente, así pues, partiendo de cero, se han creado dos posibles conceptos. Estos conceptos incluyen un diseño del sistema mecánico, electrónico y de telecomunicaciones.
Dicha embarcación de servicios tendrá la función de baliza, la cual estará dentro de puerto y se encargará de ir a buscar embarcaciones y guiarlas hasta su amarre. Todo esto de forma automática.
Con tal de realizar un diseño conceptual, primero se estudiará las opciones que presenta el mercado, para posteriormente presentar dos alternativas que puedan cumplir las funciones deseadas. Con la ayuda del programa de diseño asistido Solidworks 2018 se presentan las soluciones conceptuales de ambas propuestas.
Para el análisis de la embarcación, a partir del planteamiento de las ecuaciones matemáticas y físicas se realiza una simulación de su funcionamiento. Esta simulación va acompañada de una hoja de cálculo que simula el controlador PID incorporado. Todo esto con el fin de tomar la decisión de cuál de las dos propuestas es la más adecuada para este proyecto y su fin
DNA-TEQ: An Adaptive Exponential Quantization of Tensors for DNN Inference
Quantization is commonly used in Deep Neural Networks (DNNs) to reduce the
storage and computational complexity by decreasing the arithmetical precision
of activations and weights, a.k.a. tensors. Efficient hardware architectures
employ linear quantization to enable the deployment of recent DNNs onto
embedded systems and mobile devices. However, linear uniform quantization
cannot usually reduce the numerical precision to less than 8 bits without
sacrificing high performance in terms of model accuracy. The performance loss
is due to the fact that tensors do not follow uniform distributions. In this
paper, we show that a significant amount of tensors fit into an exponential
distribution. Then, we propose DNA-TEQ to exponentially quantize DNN tensors
with an adaptive scheme that achieves the best trade-off between numerical
precision and accuracy loss. The experimental results show that DNA-TEQ
provides a much lower quantization bit-width compared to previous proposals,
resulting in an average compression ratio of 40% over the linear INT8 baseline,
with negligible accuracy loss and without retraining the DNNs. Besides, DNA-TEQ
leads the way in performing dot-product operations in the exponential domain,
which saves 66% of energy consumption on average for a set of widely used DNNs.Comment: 8 pages, 8 figures, 5 table
An Energy-Efficient Near-Data Processing Accelerator for DNNs that Optimizes Data Accesses
The constant growth of DNNs makes them challenging to implement and run
efficiently on traditional compute-centric architectures. Some accelerators
have attempted to add more compute units and on-chip buffers to solve the
memory wall problem without much success, and sometimes even worsening the
issue since more compute units also require higher memory bandwidth. Prior
works have proposed the design of memory-centric architectures based on the
Near-Data Processing (NDP) paradigm. NDP seeks to break the memory wall by
moving the computations closer to the memory hierarchy, reducing the data
movements and their cost as much as possible. The 3D-stacked memory is
especially appealing for DNN accelerators due to its high-density/low-energy
storage and near-memory computation capabilities to perform the DNN operations
massively in parallel. However, memory accesses remain as the main bottleneck
for running modern DNNs efficiently.
To improve the efficiency of DNN inference we present QeiHaN, a hardware
accelerator that implements a 3D-stacked memory-centric weight storage scheme
to take advantage of a logarithmic quantization of activations. In particular,
since activations of FC and CONV layers of modern DNNs are commonly represented
as powers of two with negative exponents, QeiHaN performs an implicit in-memory
bit-shifting of the DNN weights to reduce memory activity. Only the meaningful
bits of the weights required for the bit-shift operation are accessed. Overall,
QeiHaN reduces memory accesses by 25\% compared to a standard memory
organization. We evaluate QeiHaN on a popular set of DNNs. On average, QeiHaN
provides speedup and energy savings over a Neurocube-like
accelerator
ReDy: A Novel ReRAM-centric Dynamic Quantization Approach for Energy-efficient CNN Inference
The primary operation in DNNs is the dot product of quantized input
activations and weights. Prior works have proposed the design of memory-centric
architectures based on the Processing-In-Memory (PIM) paradigm. Resistive RAM
(ReRAM) technology is especially appealing for PIM-based DNN accelerators due
to its high density to store weights, low leakage energy, low read latency, and
high performance capabilities to perform the DNN dot-products massively in
parallel within the ReRAM crossbars. However, the main bottleneck of these
architectures is the energy-hungry analog-to-digital conversions (ADCs)
required to perform analog computations in-ReRAM, which penalizes the
efficiency and performance benefits of PIM. To improve energy-efficiency of
in-ReRAM analog dot-product computations we present ReDy, a hardware
accelerator that implements a ReRAM-centric Dynamic quantization scheme to take
advantage of the bit serial streaming and processing of activations. The energy
consumption of ReRAM-based DNN accelerators is directly proportional to the
numerical precision of the input activations of each DNN layer. In particular,
ReDy exploits that activations of CONV layers from Convolutional Neural
Networks (CNNs), a subset of DNNs, are commonly grouped according to the size
of their filters and the size of the ReRAM crossbars. Then, ReDy quantizes
on-the-fly each group of activations with a different numerical precision based
on a novel heuristic that takes into account the statistical distribution of
each group. Overall, ReDy greatly reduces the activity of the ReRAM crossbars
and the number of A/D conversions compared to an static 8-bit uniform
quantization. We evaluate ReDy on a popular set of modern CNNs. On average,
ReDy provides 13\% energy savings over an ISAAC-like accelerator with
negligible accuracy loss and area overhead.Comment: 13 pages, 16 figures, 4 Table
Botes de futbol per entrenadors. Justificació del producte i estudi de la demanda a la Catalunya central
Curs 2013-2014El següent treball correspon a un estudi de mercat que parteix de la hipòtesis de que a la Catalunya central hi ha les condicions per crear la demanda d’un nou producte esportiu, unes botes de futbol per entrenadors que garanteixin la comoditat en condicions climatològiques adverses mantenint les seves prestacions tècniques.
L’estudi s’ha proposat conèixer les condicions per introduir un nou producte al mercat dels entrenadors de futbol. Es pretén definir les necessitats a cobrir i la predisposició del mercat a adquirir el nou producte. Per fer-ho s’han analitzat mitjançant enquestes i entrevistes a entrenadors de les comarques del Bages, Berguedà, Osona i Solsona.
Finalment el document indica que en aquesta zona hi ha una bona predisposició a l’entrada del nou producte ja que cobriria unes necessitats que cap altre producte té en compte actualment.The next project corresponds to a marketing research that starts with the hypothesis that thinks that in the central part of Catalonia are existing the conditions to create the demand of a new sports product, boots for football trainers.
The project has been proposed know the conditions for introduce a new product to the football trainers market. Wants to define the needs to cover and the predisposition of the market for introduce the product. In this way, football trainers from El Bages, Berguedà, Osona and Solsona have been analysed using surveys and interviews.
Finally, the paper shows that in this area there is a good willingness about the entry of the product into the market, as it covers a need that any other product is not covering at this time
Desenvolupament dʼun element translineal dʼalt ample de banda per al processat de senyal de MEMS i dels seus circuits associats
La realització dʼaquest projecte parteix del mètode de control de lʼestàtica i la dinàmica
per actuadors electrostàtics MEMS per posicionament analògic proposat per Daniel
Fernández i Jordi Madrenas en el paper “Position, damping and inertia control of
parallel-plate electrostatic actuators”. Aquesta implementació sorgeix de lʼestudi de la dependència existent dels paràmetres
dinàmics naturals de lʼactuador, és a dir, constant elàstica, amortiguament i massa, i
més concretament dels afectes en paràmetres com la freqüència de ressonància, el
temps de resposta, etc; que sols són modificables dins uns marges limitats i sempre
dins del procés inicial de disseny de lʼactuador.
El mètode proposat permet modificar a nivell electrònic els coeficients de lʼequació
diferencial del moviment, que en el cas dʼun actuador electrostàtic de plaques
paral·leles, tal com ja sʼha anunciat, permetent un ajust dinàmic dels seus paràmetres
naturals amb les úniques limitacions que les imposades per la pròpia circuiteria
electrònica necessària en la seva implementació.
Aquest PFC preten avaluar la implementació del mètode de control mitjançant la
utilització dʼelements translineals com a nucli de procés en els seus blocs bàsics. Amb
això, una de les particularitats del disseny que es proposa és que es vol que sigui
realitzat en mode corrent, aprofitant el principi de translinealitat i amb circuiteria MOS, ja
que així aconseguim una simplificació considerable en la implementació dʼoperacions
bàsiques tals com les multiplicacions i divisions que amb altres estratègies presenten
una complexitat considerable.
En el primer capítol es presenta un Mètode de control per actuadors electrostàtics
MEMS i el seu diagrama de blocs per implementar-lo. A continuació, sʼestudia com són
els elements translineals i com es pot treballar amb ells, per tal de centrar-nos en el
següent capítol en lʼimplementació de lʼelement translineal dʼalt ample de banda i la
caracterització de cada un dels paràmetres circuitals mitjançant les simulacions per
aconseguir el funcionament adequat.Un cop caracteritzats els paràmetres utilitzarem aquest element translineal per
dissenyar els operadors matemàtics necessaris per implementar el mètode i simular-ne
els seus resultats.
Finalment es presenten els layous necessaris per la implementació de lʼelement
translineal i dʼalguns dels seus circuits associat
Gestió de l’estalvi energètic en el sistema elèctric d’un vaixell
Estudi d\'eficiència energètic en el sistema elèctric d\'un vaixell existent, mitjançant l\'implementació de nous mètodes. Aquests nous mètodes es tracten de motors més eficients i variadors de freqüència. També es fa una explicació de noves eïnes de normatives energètiques que funcionen a nivell mundial
- …