110 research outputs found

    Cellular Nonlinear Networks: optimized implementation on FPGA and applications to robotics

    Get PDF
    L'objectiu principal d'aquesta tesi consisteix a estudiar la factibilitat d'implementar un sensor càmera CNN amb plena funcionalitat basat en FPGA de baix cost adequat per a aplicacions en robots mòbils. L'estudi dels fonaments de les xarxes cel•lulars no lineals (CNNs) i la seva aplicació eficaç en matrius de portes programables (FPGAs) s'ha complementat, d'una banda amb el paral•lelisme que s'estableix entre arquitectura multi-nucli de les CNNs i els eixams de robots mòbils, i per l'altre banda amb la correlació dinàmica de CNNs i arquitectures memristive. A més, els memristors es consideren els substituts dels futurs dispositius de memòria flash per la seva capacitat d'integració d'alta densitat i el seu consum d'energia prop de zero. En el nostre cas, hem estat interessats en el desenvolupament d’FPGAs que han deixat de ser simples dispositius per a la creació ràpida de prototips ASIC per esdevenir complets dispositius reconfigurables amb integració de la memòria i els elements de processament general. En particular, s'han explorat com les arquitectures implementades CNN en FPGAs poden ser optimitzades en termes d’àrea ocupada en el dispositiu i el seu consum de potència. El nostre objectiu final ens ah portat a implementar de manera eficient una CNN-UM amb complet funcionament a un baix cost i baix consum sobre una FPGA amb tecnología flash. Per tant, futurs estudis sobre l’arquitectura eficient de la CNN sobre la FPGA i la interconnexió amb els robots comercials disponibles és un dels objectius d'aquesta tesi que se seguiran en les línies de futur exposades en aquest treball.El objetivo principal de esta tesis consiste en estudiar la factibilidad de implementar un sensor cámara CNN con plena funcionalidad basado en FPGA de bajo coste adecuado para aplicaciones en robots móviles. El estudio de los fundamentos de las redes celulares no lineales (CNNs) y su aplicación eficaz en matrices de puertas programables (FPGAs) se ha complementado, por un lado con el paralelismo que se establece entre arquitectura multi -núcleo de las CNNs y los enjambres de robots móviles, y por el otro lado con la correlación dinámica de CNNs y arquitecturas memristive. Además, los memristors se consideran los sustitutos de los futuros dispositivos de memoria flash por su capacidad de integración de alta densidad y su consumo de energía cerca de cero. En nuestro caso, hemos estado interesados en el desarrollo de FPGAs que han dejado de ser simples dispositivos para la creación rápida de prototipos ASIC para convertirse en completos dispositivos reconfigurables con integración de la memoria y los elementos de procesamiento general. En particular, se han explorado como las arquitecturas implementadas CNN en FPGAs pueden ser optimizadas en términos de área ocupada en el dispositivo y su consumo de potencia. Nuestro objetivo final nos ah llevado a implementar de manera eficiente una CNN-UM con completo funcionamiento a un bajo coste y bajo consumo sobre una FPGA con tecnología flash. Por lo tanto, futuros estudios sobre la arquitectura eficiente de la CNN sobre la FPGA y la interconexión con los robots comerciales disponibles es uno de los objetivos de esta tesis que se seguirán en las líneas de futuro expuestas en este trabajo.The main goal of this thesis consists in studying the feasibility to implement a full-functionality CNN camera sensor based on low-cost FPGA device suitable for mobile robotic applications. The study of Cellular Nonlinear Networks (CNNs) fundamentals and its efficient implementation on Field Programmable Gate Arrays (FPGAs) has been complemented, on one side with the parallelism established between multi-core CNN architecture and swarm of mobile robots, and on the other side with the dynamics correlation of CNNs and memristive architectures. Furthermore, memristors are considered the future substitutes of flash memory devices because of its capability of high density integration and its close to zero power consumption. In our case, we have been interested in the development of FPGAs that have ceased to be simple devices for ASIC fast prototyping to become complete reconfigurable devices embedding memory and processing elements. In particular, we have explored how the CNN architectures implemented on FPGAs can be optimized in terms of area occupied on the device or power consumption. Our final accomplishment has been implementing efficiently a fully functional reconfigurable CNN-UM on a low-cost low-power FPGA based on flash technology. Therefore, further studies on an efficient CNN architecture on FPGA and interfacing it with commercially-available robots is one of the objectives of this thesis that will be followed in the future directions exposed in this work

    A scalable multi-core architecture with heterogeneous memory structures for Dynamic Neuromorphic Asynchronous Processors (DYNAPs)

    Full text link
    Neuromorphic computing systems comprise networks of neurons that use asynchronous events for both computation and communication. This type of representation offers several advantages in terms of bandwidth and power consumption in neuromorphic electronic systems. However, managing the traffic of asynchronous events in large scale systems is a daunting task, both in terms of circuit complexity and memory requirements. Here we present a novel routing methodology that employs both hierarchical and mesh routing strategies and combines heterogeneous memory structures for minimizing both memory requirements and latency, while maximizing programming flexibility to support a wide range of event-based neural network architectures, through parameter configuration. We validated the proposed scheme in a prototype multi-core neuromorphic processor chip that employs hybrid analog/digital circuits for emulating synapse and neuron dynamics together with asynchronous digital circuits for managing the address-event traffic. We present a theoretical analysis of the proposed connectivity scheme, describe the methods and circuits used to implement such scheme, and characterize the prototype chip. Finally, we demonstrate the use of the neuromorphic processor with a convolutional neural network for the real-time classification of visual symbols being flashed to a dynamic vision sensor (DVS) at high speed.Comment: 17 pages, 14 figure

    Implementations Of Novel Cellular Nonlinear And Cellular Logic Networks And Their Applications

    Get PDF
    Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015Thesis (PhD) -- İstanbul Technical University, Institute of Science and Technology, 2015Bu tez, doğrusal olmayan sistemler ailesinden gevşemeli osilatörler, lojik osilatörler, zaman gecikmeli kaotik osilatörler; bu sistemlerden kurulan ağlar, bunların elektronik gerçeklemeleri ve uygulama alanlarında katkılar sunmaktadır. Tez, iki hipotezi tartışır. Tezde, doğrusal olmayan dalga yayılımı için ortam olan iki boyutlu hücresel doğrusal olmayan ağlar, iki boyutlu hareket planlama problemlerinde hedefin gelecekteki durumlarını öngörmeye yarayan öznitelikler ürettiği gösterilmiştir. Ayrıca, zaman gecikmeli sistemlerde kullanılan, ürettiği ikili sembol dizileri gerçek rastgele bit dizisi olan, en az bir tane iki seviyeli çıkış veren geribesleme fonksiyonu vardır. İki hipotezli bu doktora çalışmasında, hücresel gevşemeli osilatör ağ uygulamaları ve zaman-gecikmeli kaotik osilatör gerçeklemeleri ağırlıklı araştırma sahaları olmuştur. Elde edilen çıktıların çoğu bu iki başlık altında toplanmıştır ve iki hipotez test edilmiştir. Gevşemeli osilatörler ile ilişkili çalışmalar doktora başlangıcından sonuna kadar geçen süreye yayılmıştır. Başlangıçta hedeflenen yeni bir hücresel gevşemeli osilatör ağ modeline başarıyla ulaşılmıştır. Zaman gecikmeli kaotik sistemler ile ilişkili çalışmalar ise tez çalışmalarına sonradan dahil olmuş, sürenin orta ve son kısmında yoğun olarak yürütülmüştür. Özetin devamında, tezin yazım organizasyonuna göre ana bölümler ve alt bölümler kısaca anlatılacak ve aralarındaki ilişki sunulacaktır. Giriş bölümünü takip eden ilk bölüm olan 'Hücreler' bölümünde beş osilatör modeli sunulmaktadır. İlk osilatör (Osilatör 1) çalışmalara referans olan gevşemeli osilatördür ve modelinde bir parça parça doğrusal fonksiyon bulunmaktadır. Bu fonksiyon, iki mutlak değer fonksiyonu ile gerçekleştirilebilir. Osilatör 2, yeni bir gevşemeli osilatör modelidir ve bu doktoranın orjinal önermelerindendir. Model yalnızca bir tane işaret (signum) fonksiyonu barındırır. Osilatör 3 ise lojik osilatör olmakla birlikte, Osilatör 1 ve 2'ye ait dinamik davranışın taklidini yapmaktadır. Kısaca, gevşemeli osilatörde mevcut iki durum deği ̧skeninin birbirine yakın (tepe) değerlerde bulunduğu, biri pozitif diğeri negatif iki tepe durum, ve bunlar arasında farklı yörüngeler üzerinden gerçekle ̧sen iki geçi ̧s durumu, Osilatör 3'teki dört durum ile modellenmi ̧stir. Lojik osilatörün, gev ̧semeli osilatöre davranı ̧ssal olarak benzetilerek sentezlenmesi tezin literatüre katkılarındandır. Osilatör 4 ise yeni bir zaman gecikmeli kaotik sistemi, önerdiği iki seviyeli çıkış veren bir doğrusal olmayan fonksiyon ile sunar. Modelinde bulunan doğrusal olmayan fonksiyonun seviye sayısı sistematik şekilde arttırılarak çok sarmallı çekici üreten kaotik model elde edilmiştir. Osilatör 5 olarak anılacak olan bu modelde doğrusal olmayan fonksiyonun genelleştirilmesi verilir. Yeni önerilen doğrusal olmayan foksiyonları ile hem Osilatör 4 modeli hem de Osilatör 5 modeli tezin literatüre katkılarındandır. Üçüncü ana bölüm olan 'Ağlar'da, beş osilatörden ilk dördü kullanılmakta ve farklı iki tip ağ kurulmaktadır. Osilatör 1, 2 ve 3 ile hücresel doğrusal olmayan ağlar oluşturulmuş, Ağ 1, 2 ve 3 isimleri verilmiştir. Dördüncü osilatör (kaotik zaman gecikmeli osilatör) ile farklı bir tip ağ kurulmuştur. Ağ 1 referans modeldir ve tezde bilgilendirme amacıyla bulunur. Her üç ağ üzerinde, doğrusal olmayan dalgalardan, otodalga ve yürüyen dalganın üretilmesi ve yayılması gösterilmiştir. Ağ 2 ve Ağ 3 için otodalga ve yürüyen dalgaları üreten bağlantı kuralları ve parametreler tezde önerilen yeniliklerdendir. Üç ağda aranan ilerleme, ardı ardına ve lokasyonu değişen kaynak ile üretilen yürüyen dalgaların, 2 boyutlu uzayda iç içe geçmiş ve Doppler Etkisini ortaya çıkarmış dalga çeperleri oluşturmasıdır. Çalışmalarda üç ağda da Doppler Etkisinin gözlenmesi başarılmıştır. Ağların hücreleri otonom osilasyon yapan dinamikte iken otodalga yayılmakta, tezde açıklanan kurallar ile çift kararlı (bistable) dinamiğe sahip kılındıklarında ise yürüyen dalga yayılabilmektedir. Ağ 1, 2 ve 3, beş farklı metrik ile karşılaştırılmıştır. Karşılaştırma esnasında hücreler çift kararlı davranışa ayarlanmış, yürüyen dalga yayılmıştır. Metrik 1, dalga çeperi geçiş periyodu olan d büyüklüğünün çözünürlüğüdür. Ağ 3 neredeyse 2 değere nicelenmiş d üretebilir, Ağ 2 dört farklı değerde, Ağ 1 çok daha fazla değerde d üretebilir. Tez, Doppler Etkisinin sonucu olarak kaynak hareketi ile ilişkilenen d değişkeninin analizini uygulama kısmında kullanır. Dolayısıyla, d'nin niceleme seviyesindeki fazlalık, analiz işleminde sonuçların keskinliğini etkiler. Metrik 2 elektronik gerçekleme karmaşıklığıdır. Ağ 3'ün lojik devre olması sebebiyle, modele uygun gerçekleme az sayıda transistor ile mümkündür. Ağ 1 ve 2 ise sürekli zamanlı modellere sahip olduğundan analog devre olarak gerçeklenebilir. Modele uygun, yüksek doğrulukta çalışacak, gerçeklemenin karşılaştırıcı, toplayıcı, integre edici, kuvvetlendirici, çoklayıcı gibi bileşenleri çok sayıda transistor gerektirir. Ağ 1 gerçeklemesi, daha karmaşık olan doğrusal olmayan fonksiyonu sebebi ile Ağ 2 gerçeklemesinden karmaşık olacaktır. Metrik 3 uzaysal-zamansal çalışma bölgesinde ağ üzerinde yayılan dalga çeperlerinin yayılma hızıdır. Sürekli zaman modelli Ağ 1 ve Ağ 2'de hız saniye birim zamanda değerlendirilirken, ayrık zamanlı Ağ 3'te hız iterasyon adımına göre değerlendirilmektedir. Ancak, modellerin sayısal yöntemler ile çözümü, her üçünü de ayrık zamanlı ve karşılaştırılabilir hale getirir. Buna göre Ağ 3 en hızlı dalga yayılan ağdır. Ağ 2'de de Ağ 1'e göre daha hızlı dalga yayılır. Metrik 4, ağdaki hücrelerin (1 ve 2'de) eyer noktaları arasındaki hareketlerinde geçen süre ve (3'te) tepe durumlar arasındaki hareketlerinde geçen süredir. Metrik 3'teki gibi, yeni durumuna en hızlı yerleşen hücreler Ağ 3'tekiler, daha yavaş yerleşenler Ağ 2'dekiler, ve en yavaş yerleşenler Ağ 1'dekilerdir. Yerleşme hızı, giriş işareti ile yeni dalga yaratma sıklığını üstten sınırlandıran bir büyüklük olarak değerlendirilmelidir. Yayılan dalga çeperlerinin eğriliği Metrik 5'tir. Ağ 3'te yayılan yürüyen dalga ve otodalga çeperleri dörtgen şeklindedir. Ağ 2'te otodalgalar dörtgen şekilde yayılırken, yürüyen dalga için parametre araştırmasında, uygulanan bir ofset ile sistem dinamiği sekizgen dalga çeperi üretecek hale getirilmiştir. Ağ 1 çember şekle sahip dalga formları yayabilmesi sayesinde diğer ikisine göre uygulamalarda avantajlı konuma gelmektedir. Ağlar ana bölümünün içerdiği son ağ bir boyutlu, tek yönlü bağlantıya sahip zaman gecikmeli hücrelerden kurulu ağdır. Bu ağ, kaotik osilatörler arasında sezgisel (anticipating) senkronizasyonun kurulabildiğini göstermektedir. Takip eden ana bölümde Hücreler ve Ağlar bölümünden modellerin bir kısmının gerçeklemesi için yapılan çalışmalar sunulmaktadır. Ağ 1'in ileri Euler metodu ile ayrıklaştırılmış hali sayısal sistem olarak tasarlanmış ve seçilen Sahada Programlanabilir Kapı Dizisi (Field Programmable Gate Array, FPGA) üzerinde gerçeklenmiştir. Yapılan gerçeklemede, 2008'de gerçeklenen kayan nokta sayı formatıyla çalışan aritmetik devreler yerine sabit nokta aritmetiği kullanılmıştır. Devrenin çalışma performansı ve FPGA üzerinde kapladığı alan açısından referans tasarım ile karşılaştırması sunulmuştur. Ayrıca, Grafik İşleme Birimi (Graphics Processing Unit, GPU) üzerinde yine Ağ 1 modeline ilişkin benzetim sonuçları elde edilmiştir ve gerek Merkezi İşlem Birimi (Central Processing Unit, CPU) üzerinde çalışan benzetimlerden, gerek FPGA gerçeklemelerinden daha yüksek performans elde edilmiştir. Ağ 3'ün gerçeklemesi FPGA'larda var olan ve günümüzde hala geliştirilmekte olan bir özelliğin ağ gerçeklemesine katkısı incelenerek yapılmıştır. Dinamik Kısmi Yeniden Yapılandırma (Dynamic Partial Reconfiguration, DPR) adlı bu özellik, ile sayısal devrenin bir kısmı çalışırken diğer bir kısmı değiştirilebilir. Bu özellik, Ağ 3'ün bazı hücrelerinin çalışma esnasında değiştirilmesi sağlanacak şekilde kullanılmıştır. Elde edilen sonuçlara göre, FPGA alanından tasarruf sağlanmış fakat öte yandan yalnızca özelliğin aktif tutulmasını sağlayan ek alan tüketimi sorunu da tespit edilmiştir. Bu doktora çalışmasındaki elektronik gerçeklemelerin çoğunluğu zaman gecikmeli sistemler (Osilatör 4, 5) ve ağları (Ağ 4) için yapılmıştır. İki seviyeli doğrusal olmayan fonksiyonla önerilen yeni modelin en büyük avantajı gecikme hattının gerçeklenmesinde görülür. Sayısal devre elemanlarından DEĞİL kapısı (evirici tampon, inverting buffer) ve tutucular, özellikle D tipi tutucu (flip-flop) ile ikili işaretler geciktirilebilir. Senkron tutucular ile yapılan gerçeklemede örneklemeli (sampled-data) sistem modeli kullanılması uygun olur. Bu ana başlık altında anlatılan gerçeklemenin ilki hem DEĞİL kapısı gibi asenkron cevap verebilen (saat işaretsiz) hem de tutucu dizisi kadar uzun gecikme süresi sağlayabilen bir gecikme hattı yapı taşıdır. Tezde, Asenkron Gecikme Çiftleyici (Asynchronous Delay Doubler, ADD) adı verilen bu yeni devre ile iç içe kullanım sayesinde üstel artan gecikme süreleri elde edilebilmiş, bu sayede zaman sabiti büyük olan ayrık analog integrator devrenin ihtiyaç duyduğu uzun gecikme sağlanabilmiştir. Osilatör 4'ün analog integrator, D tipi tutucu gecikme hattı gerçeklemesi; analog integrator, ADD gecikme hattı gerçeklemesi; sayısal integrator, DEĞİL kapısı gecikme hattı gerçeklemesi aynı ana bölümde alt bölümler olarak sunulmaktadır. Bunları Osilatör 5'in analog integrator, D tipi tutucu gecikme hattı gerçeklemesi; Ağ 4'ün analog integrator, D tipi tutucu gecikme hattı geçeklemesi ve yine Ağ 4'ün sayısal integrator, D tipi tutucu gecikme hattı gerçeklemesi takip eder. Sonuçlardan önceki son bölüm olan 'Uygulamalar' ana bölümü, iki bölümden oluşur. İlkinde Ağ 1, kestirim yapılmaksızın geribeslemeli hareket planlama algoritmasında kullanılır. Ardından Doopler Etkisini ve onunla üretilen yeni özniteliği kullanan öngörülü geribeslemeli hareket planlama algoritması sunulmaktadır. Öngörülü planlama tezin içerdiği yeniliklerdendir. Geribeslemeli hareket planı, ayrıklaştırılmış uzayda uzayın her ayrık parçası için bir hareket vektörünün hesaplanmış olduğu plandır. Uzayın, ayrıklaştırılmış olması sebebiyle hücresel doğrusal olmayan ağlarla modellenmesi mümkün olur. Bu ağlar üzerinde dalga hedef noktadan doğar. Dalga yayıldıkça, çeperin ulaştığı hücreler geliş açısını tespit ve kayıt ederek geribeslemeli hareket planı oluşturur. Bu yöntemde geribesleme ifadesinden kasıt, planlama için yayılan dalganın tüm ağa dağılması dolayısıyla modellenen fiziksel dünyanın tüm noktaları için çözümün bulunmuş olması, bu sayede hedefe giden yolların tek seferde, tüm hücreler için aynı anda tespit edilmesidir. Üretilen sonucu kullanan sistem rota üzerinde hata yapsa da elde edilen çözüm sayesinde yeniden hesaplamaya gerek kalmaksızın hedefe doğru ilerlemesi mümkün olmaktadır. 'Uygulamalar'daki bir diğer alt bölümde de zaman gecikmeli Osilatör 4'ün rasgele bit dizisi üretiminde kullanımı konusunda elde edilen araştırma sonuçları verilmiştir. Önerilen kaotik sistemlerin gecikme hattından çıkan bit dizisi rasgele sayı olarak kabul edilir ve NIST'in istatistiksel test ortamıyla dizi sınanır. Uygun düşük hızda yapılan örnekleme sonucunda testi başarıyla geçen bit dizileri elde edilebilektedir. Ayrıca sezgisel senkronizasyon sağlayan ağ ile Osilatör 4 tabanlı rastgele bit üreticisinin gelecekte üretteceği değerlerin önceden tespit edilebildiği gösterilmiştir. Tez boyunca yürütülen çalışmalarda, yeni modeller, yenilikçi gerçeklemeler ve yeni uygulamalara ulaşılmıştır. Her ne kadar tez organizasyonu, hücreler, ağlar, gerçeklemeler ve uygulamalar bölümleriyle yapılmış olsa da içeriği oluşturan çalışmalar, farklı alt bölümlerin bir arada ele alındığı şekilde yürütülmüştür. Bu sebeple, tez çalışması boyunca yayınlanmış olan veya hakem değerlendirmesinde bulunan bildiri ve makaleler farklı alt bölümlerden parçalar ihtiva etmektedir. Çalışma süresince 8 uluslararası konferans bildirisi sunulmuş, 5 dergi makalesi ve 1 kitap bölümü yayınlanmıştır. Ayrıca henüz hakemlik süreci tamamlanmayan 1 dergi makalesi mevcuttur.This thesis is a consistent and coherent reorganization of studies on two topics of nonlinear systems. First topic includes Relaxation Oscillators and logic oscillators with similar behavior which are locally coupled and the resulting Cellular Nonlinear Networks (CNN) are utilized for a predictive motion planning algorithm. Nonlinear waves, especially autowave and traveling wave, have been studied and their system model, coupling schemes, parameters, and inputs generating both types of nonlinear waves are explained. The research covers two implementations of selected CNN and compares their digital circuit (FPGA prototyping), CPU simulation and GPU simulation performances. The research is focused on the Doppler Effect occurrence of the propagated nonlinear waves. A novel nonlinear wave propagation based feedback motion planning algorithm which utilizes the Doppler Effect and generates a prediction for the future state of target object has been proposed. The comparisons which reveals the effect of Doppler Effect are reported. The results prove that a tracker even slower than the target may catch it using the proposed algorithm. This new method of motion planning needs two layers of oscillator based CNNs. Two types of relaxation oscillators (one of them is a new model) and the logic oscillator have been tested for the algorithm. Novel models of chaotic time-delay systems are introduced in the thesis as the second topic. The proposed binary output nonlinearity makes the oscillator generate a mono-scroll chaotic attractor. This thesis also proposes a generalization of the binary output nonlinear function, which is a quantized output nonlinearity. The generalized nonlinearity yields a multi-scroll attractor. Both systems are modelled as sampled-data models, because the binary delay lines are constructed by digital components (D-type flip-flops). The research on implementations of these oscillators has been expanded with binary inverting buffers (NOT gates) and asynchronous digital state machines. These systems successfully generate true random bit sequences without the need for post-processing. Up-to-date NIST's statistical test suite is used for the tests of bit sequences and successful throughput rates are reported. The jitter on the NOT gate based delay line is utilized as physical noise and all-digital implementation supported by the jitter also passed the statistical tests. The thesis merges research parts and reorganize the outputs under four titles: cells, networks, implementations and applications.DoktoraPh

    Aspects of algorithms and dynamics of cellular paradigms

    Get PDF
    Els paradigmes cel·lulars, com les xarxes neuronals cel·lulars (CNN, en anglès) i els autòmats cel·lulars (CA, en anglès), són una eina excel·lent de càlcul, al ser equivalents a una màquina universal de Turing. La introducció de la màquina universal CNN (CNN-UM, en anglès) ha permès desenvolupar hardware, el nucli computacional del qual funciona segons la filosofia cel·lular; aquest hardware ha trobat aplicació en diversos camps al llarg de la darrera dècada. Malgrat això, encara hi ha moltes preguntes a obertes sobre com definir els algoritmes d'una CNN-UM i com estudiar la dinàmica dels autòmats cel·lulars. En aquesta tesis es tracten els dos problemes: primer, es demostra que es possible acotar l'espai dels algoritmes per a la CNN-UM i explorar-lo gràcies a les tècniques genètiques; i segon, s'expliquen els fonaments de l'estudi dels CA per mitjà de la dinàmica no lineal (segons la definició de Chua) i s'il·lustra com aquesta tècnica ha permès trobar resultats innovadors.Los paradigmas celulares, como las redes neuronales celulares (CNN, eninglés) y los autómatas celulares (CA, en inglés), son una excelenteherramienta de cálculo, al ser equivalentes a una maquina universal deTuring. La introducción de la maquina universal CNN (CNN-UM, eninglés) ha permitido desarrollar hardware cuyo núcleo computacionalfunciona según la filosofía celular; dicho hardware ha encontradoaplicación en varios campos a lo largo de la ultima década. Sinembargo, hay aun muchas preguntas abiertas sobre como definir losalgoritmos de una CNN-UM y como estudiar la dinámica de los autómatascelular. En esta tesis se tratan ambos problemas: primero se demuestraque es posible acotar el espacio de los algoritmos para la CNN-UM yexplorarlo gracias a técnicas genéticas; segundo, se explican losfundamentos del estudio de los CA por medio de la dinámica no lineal(según la definición de Chua) y se ilustra como esta técnica hapermitido encontrar resultados novedosos.Cellular paradigms, like Cellular Neural Networks (CNNs) and Cellular Automata (CA) are an excellent tool to perform computation, since they are equivalent to a Universal Turing machine. The introduction of the Cellular Neural Network - Universal Machine (CNN-UM) allowed us to develop hardware whose computational core works according to the principles of cellular paradigms; such a hardware has found application in a number of fields throughout the last decade. Nevertheless, there are still many open questions about how to define algorithms for a CNN-UM, and how to study the dynamics of Cellular Automata. In this dissertation both problems are tackled: first, we prove that it is possible to bound the space of all algorithms of CNN-UM and explore it through genetic techniques; second, we explain the fundamentals of the nonlinear perspective of CA (according to Chua's definition), and we illustrate how this technique has allowed us to find novel results

    Split and Shift Methodology: Overcoming Hardware Limitations on Cellular Processor Arrays for Image Processing

    Get PDF
    Na era multimedia, o procesado de imaxe converteuse nun elemento de singular importancia nos dispositivos electrónicos. Dende as comunicacións (p.e. telemedicina), a seguranza (p.e. recoñecemento retiniano) ou control de calidade e de procesos industriais (p.e. orientación de brazos articulados, detección de defectos do produto), pasando pola investigación (p.e. seguimento de partículas elementais) e diagnose médica (p.e. detección de células estrañas, identificaciónn de veas retinianas), hai un sinfín de aplicacións onde o tratamento e interpretación automáticas de imaxe e fundamental. O obxectivo último será o deseño de sistemas de visión con capacidade de decisión. As tendencias actuais requiren, ademais, a combinación destas capacidades en dispositivos pequenos e portátiles con resposta en tempo real. Isto propón novos desafíos tanto no deseño hardware como software para o procesado de imaxe, buscando novas estruturas ou arquitecturas coa menor area e consumo de enerxía posibles sen comprometer a funcionalidade e o rendemento

    Energy-Efficient Recurrent Neural Network Accelerators for Real-Time Inference

    Full text link
    Over the past decade, Deep Learning (DL) and Deep Neural Network (DNN) have gone through a rapid development. They are now vastly applied to various applications and have profoundly changed the life of hu- man beings. As an essential element of DNN, Recurrent Neural Networks (RNN) are helpful in processing time-sequential data and are widely used in applications such as speech recognition and machine translation. RNNs are difficult to compute because of their massive arithmetic operations and large memory footprint. RNN inference workloads used to be executed on conventional general-purpose processors including Central Processing Units (CPU) and Graphics Processing Units (GPU); however, they have un- necessary hardware blocks for RNN computation such as branch predictor, caching system, making them not optimal for RNN processing. To accelerate RNN computations and outperform the performance of conventional processors, previous work focused on optimization methods on both software and hardware. On the software side, previous works mainly used model compression to reduce the memory footprint and the arithmetic operations of RNNs. On the hardware side, previous works also designed domain-specific hardware accelerators based on Field Pro- grammable Gate Arrays (FPGA) or Application Specific Integrated Circuits (ASIC) with customized hardware pipelines optimized for efficient pro- cessing of RNNs. By following this software-hardware co-design strategy, previous works achieved at least 10X speedup over conventional processors. Many previous works focused on achieving high throughput with a large batch of input streams. However, in real-time applications, such as gaming Artificial Intellegence (AI), dynamical system control, low latency is more critical. Moreover, there is a trend of offloading neural network workloads to edge devices to provide a better user experience and privacy protection. Edge devices, such as mobile phones and wearable devices, are usually resource-constrained with a tight power budget. They require RNN hard- ware that is more energy-efficient to realize both low-latency inference and long battery life. Brain neurons have sparsity in both the spatial domain and time domain. Inspired by this human nature, previous work mainly explored model compression to induce spatial sparsity in RNNs. The delta network algorithm alternatively induces temporal sparsity in RNNs and can save over 10X arithmetic operations in RNNs proven by previous works. In this work, we have proposed customized hardware accelerators to exploit temporal sparsity in Gated Recurrent Unit (GRU)-RNNs and Long Short-Term Memory (LSTM)-RNNs to achieve energy-efficient real-time RNN inference. First, we have proposed DeltaRNN, the first-ever RNN accelerator to exploit temporal sparsity in GRU-RNNs. DeltaRNN has achieved 1.2 TOp/s effective throughput with a batch size of 1, which is 15X higher than its related works. Second, we have designed EdgeDRNN to accelerate GRU-RNN edge inference. Compared to DeltaRNN, EdgeDRNN does not rely on on-chip memory to store RNN weights and focuses on reducing off-chip Dynamic Random Access Memory (DRAM) data traffic using a more scalable architecture. EdgeDRNN have realized real-time inference of large GRU-RNNs with submillisecond latency and only 2.3 W wall plug power consumption, achieving 4X higher energy efficiency than commercial edge AI platforms like NVIDIA Jetson Nano. Third, we have used DeltaRNN to realize the first-ever continuous speech recognition sys- tem with the Dynamic Audio Sensor (DAS) as the front-end. The DAS is a neuromorphic event-driven sensor that produces a stream of asyn- chronous events instead of audio data sampled at a fixed sample rate. We have also showcased how an RNN accelerator can be integrated with an event-driven sensor on the same chip to realize ultra-low-power Keyword Spotting (KWS) on the extreme edge. Fourth, we have used EdgeDRNN to control a powered robotic prosthesis using an RNN controller to replace a conventional proportional–derivative (PD) controller. EdgeDRNN has achieved 21 μs latency of running the RNN controller and could maintain stable control of the prosthesis. We have used DeltaRNN and EdgeDRNN to solve these problems to prove their value in solving real-world problems. Finally, we have applied the delta network algorithm on LSTM-RNNs and have combined it with a customized structured pruning method, called Column-Balanced Targeted Dropout (CBTD), to induce spatio-temporal sparsity in LSTM-RNNs. Then, we have proposed another FPGA-based accelerator called Spartus, the first RNN accelerator that exploits spatio- temporal sparsity. Spartus achieved 9.4 TOp/s effective throughput with a batch size of 1, the highest among present FPGA-based RNN accelerators with a power budget around 10 W. Spartus can complete the inference of an LSTM layer having 5 million parameters within 1 μs

    Adaptive Intelligent Systems for Extreme Environments

    Get PDF
    As embedded processors become powerful, a growing number of embedded systems equipped with artificial intelligence (AI) algorithms have been used in radiation environments to perform routine tasks to reduce radiation risk for human workers. On the one hand, because of the low price, commercial-off-the-shelf devices and components are becoming increasingly popular to make such tasks more affordable. Meanwhile, it also presents new challenges to improve radiation tolerance, the capability to conduct multiple AI tasks and deliver the power efficiency of the embedded systems in harsh environments. There are three aspects of research work that have been completed in this thesis: 1) a fast simulation method for analysis of single event effect (SEE) in integrated circuits, 2) a self-refresh scheme to detect and correct bit-flips in random access memory (RAM), and 3) a hardware AI system with dynamic hardware accelerators and AI models for increasing flexibility and efficiency. The variances of the physical parameters in practical implementation, such as the nature of the particle, linear energy transfer and circuit characteristics, may have a large impact on the final simulation accuracy, which will significantly increase the complexity and cost in the workflow of the transistor level simulation for large-scale circuits. It makes it difficult to conduct SEE simulations for large-scale circuits. Therefore, in the first research work, a new SEE simulation scheme is proposed, to offer a fast and cost-efficient method to evaluate and compare the performance of large-scale circuits which subject to the effects of radiation particles. The advantages of transistor and hardware description language (HDL) simulations are combined here to produce accurate SEE digital error models for rapid error analysis in large-scale circuits. Under the proposed scheme, time-consuming back-end steps are skipped. The SEE analysis for large-scale circuits can be completed in just few hours. In high-radiation environments, bit-flips in RAMs can not only occur but may also be accumulated. However, the typical error mitigation methods can not handle high error rates with low hardware costs. In the second work, an adaptive scheme combined with correcting codes and refreshing techniques is proposed, to correct errors and mitigate error accumulation in extreme radiation environments. This scheme is proposed to continuously refresh the data in RAMs so that errors can not be accumulated. Furthermore, because the proposed design can share the same ports with the user module without changing the timing sequence, it thus can be easily applied to the system where the hardware modules are designed with fixed reading and writing latency. It is a challenge to implement intelligent systems with constrained hardware resources. In the third work, an adaptive hardware resource management system for multiple AI tasks in harsh environments was designed. Inspired by the “refreshing” concept in the second work, we utilise a key feature of FPGAs, partial reconfiguration, to improve the reliability and efficiency of the AI system. More importantly, this feature provides the capability to manage the hardware resources for deep learning acceleration. In the proposed design, the on-chip hardware resources are dynamically managed to improve the flexibility, performance and power efficiency of deep learning inference systems. The deep learning units provided by Xilinx are used to perform multiple AI tasks simultaneously, and the experiments show significant improvements in power efficiency for a wide range of scenarios with different workloads. To further improve the performance of the system, the concept of reconfiguration was further extended. As a result, an adaptive DL software framework was designed. This framework can provide a significant level of adaptability support for various deep learning algorithms on an FPGA-based edge computing platform. To meet the specific accuracy and latency requirements derived from the running applications and operating environments, the platform may dynamically update hardware and software (e.g., processing pipelines) to achieve better cost, power, and processing efficiency compared to the static system

    Local Binary Patterns in Focal-Plane Processing. Analysis and Applications

    Get PDF
    Feature extraction is the part of pattern recognition, where the sensor data is transformed into a more suitable form for the machine to interpret. The purpose of this step is also to reduce the amount of information passed to the next stages of the system, and to preserve the essential information in the view of discriminating the data into different classes. For instance, in the case of image analysis the actual image intensities are vulnerable to various environmental effects, such as lighting changes and the feature extraction can be used as means for detecting features, which are invariant to certain types of illumination changes. Finally, classification tries to make decisions based on the previously transformed data. The main focus of this thesis is on developing new methods for the embedded feature extraction based on local non-parametric image descriptors. Also, feature analysis is carried out for the selected image features. Low-level Local Binary Pattern (LBP) based features are in a main role in the analysis. In the embedded domain, the pattern recognition system must usually meet strict performance constraints, such as high speed, compact size and low power consumption. The characteristics of the final system can be seen as a trade-off between these metrics, which is largely affected by the decisions made during the implementation phase. The implementation alternatives of the LBP based feature extraction are explored in the embedded domain in the context of focal-plane vision processors. In particular, the thesis demonstrates the LBP extraction with MIPA4k massively parallel focal-plane processor IC. Also higher level processing is incorporated to this framework, by means of a framework for implementing a single chip face recognition system. Furthermore, a new method for determining optical flow based on LBPs, designed in particular to the embedded domain is presented. Inspired by some of the principles observed through the feature analysis of the Local Binary Patterns, an extension to the well known non-parametric rank transform is proposed, and its performance is evaluated in face recognition experiments with a standard dataset. Finally, an a priori model where the LBPs are seen as combinations of n-tuples is also presentedSiirretty Doriast

    Annals of Scientific Society for Assembly, Handling and Industrial Robotics

    Get PDF
    This Open Access proceedings present a good overview of the current research landscape of industrial robots. The objective of MHI Colloquium is a successful networking at academic and management level. Thereby the colloquium is focussing on a high level academic exchange to distribute the obtained research results, determine synergetic effects and trends, connect the actors personally and in conclusion strengthen the research field as well as the MHI community. Additionally there is the possibility to become acquainted with the organizing institute. Primary audience are members of the scientific association for assembly, handling and industrial robots (WG MHI)
    corecore