13 research outputs found

    Szacowanie wykorzystania zasob贸w i rozmieszczenia rdzeni przy realizacji algorytm贸w zdominowanych danymi w MPSoC opartych na NoC

    No full text
    In this paper we propose a technique for estimating the number of NoC-based MPSoCs resources (measured in FPGA LUTs) needed for realizing an arbitrary data-dominated algorithm given in the SystemC language. This technique utilizes Control Data Flow Graphs describing the functionality of the code. In order to map the cores into the target chip we use the Bottom-Left-Decreasing algorithm for solving the 2D Rectangular Strip Packing problem. We illustrate the proposed technique with a lossless audio FLAC codec.W artykule zaproponowano technik臋 szacowania zasob贸w potrzebnych do realizacji wielordzeniowych uk艂ad贸w MPSoC opartych na sieciach wewn膮trzuk艂adowych NoC (ang. Networks on Chip) realizuj膮cych dowolny algorytm zdominowany danymi. Algorytm ten jest wyra偶ony za pomoc膮 kodu w j臋zyku opisu systemu SystemC. Jako miar臋 powierzchni przyj臋to liczb臋 tablic look-up-table (LUT) uk艂ad贸w typu FPGA, do kt贸rych wej艣ciowe algorytmy zostaj膮 odwzorowywane. Proponowana technika wykorzystuje diagram przep艂ywu danych i kontroli (ang. Control Data Flow Graph, CDFG), opisuj膮cy funkcjonalno艣膰 kodu. Nast臋pnie dla w臋z艂贸w tego diagramu dokonuje si臋 prostej estymacji wymaganych zasob贸w w zale偶no艣ci od typu danego w臋z艂a i rozmiaru danych, na kt贸rych w臋ze艂 przeprowadza obliczenia. Proponowana technika zosta艂a zilustrowana przyk艂adem bezstratnego kodeka FLAC. Zaprezentowane wyniki bada艅 eksperymentalnych pokazuj膮 dok艂adno艣膰 od 99.3% do 57%, co jest zbli偶one do wynik贸w innych zespo艂贸w badawczych, np. [2, 4]. W celu odwzorowania rdzeni do docelowego uk艂adu u偶yto zach艂annego algorytmu Bottom-Left-Decreasing do rozwi膮zania dwuwymiarowego problemu pokrycia paska. Badania przeprowadzono dla r贸偶nych ogranicze艅 maksymalnej wysoko艣ci paska; w artykule przedstawiono wizualizacje najlepszego i najgorszego przypadku

    Formal verification of automatically parallelised processes

    No full text
    W artykule przedstawiono technik臋 formalnej weryfikacji system贸w sprz臋towo-programowych opisanych za pomoc膮 j臋zyka opisu system贸w SystemC. Formalnej weryfikacji dokonuje si臋 z wykorzystaniem logiki temporalnej CTL i asercji. Przedstawiono formu艂y CTL dla systemu z jedn膮 sekcj膮 r贸wnoleg艂膮. Badania eksperymentalne wykaza艂y liniowy wzrost liczby formu艂 i liniowy przyrost czasu dzia艂ania programu automatycznie wstawiaj膮cego asercj臋, przez co prezentowane podej艣cie nadaje si臋 do zastosowa艅 przemys艂owych.In this paper, we present a formal verification technique of software/hardware systems given in the SystemC system description language. The verification is performed using temporal logic CTL and assertions. We enumerate the CTL formulas generated from a system with a single parallel section. Experimental results present a linear growth of a number of formulas and linear growth of the execution time of the developed tool that automatically inserts CTL assertions. Consequently, the proposed approach is suitable for industrial applications

    Liniowa optymalizacja wielo艣cie偶kowego routingu w sieciach wewn膮trzuk艂adowych

    No full text
    In this paper, a technique for determining required link band-width of a multi-path routing algorithm dedicated to Network on Chip (NoC) is presented. The proposed algorithm is based on the linear programming and allows us to avoid deadlocks and contentions in case of Tapeworm routing used for data-dominated streaming multimedia applications realized in Multi Processor Systems on Chip. The proposed approach is illustrated with an example of features extraction module for the Automatic Speech Recognition (ASR) system.W artykule opisano technik臋 okre艣lania wymaganej przepustowo艣ci 艂膮czy sieci wewn膮trzuk艂adowej z routingiem wielo艣cie偶kowym. Zaproponowany algorytm bazuje na programowaniu liniowym i umo偶liwia unikanie blokad w routingu typu Tapeworm, wykorzystywanego dla multimedialnych aplikacji zdominowanych przez dane realizowanych w uk艂adach typu MPSoC. Autorski algorytm routingu Tapeworm dla niekt贸rych aplikacji multimedialnych okazuje si臋 by膰 wydajniejszy od XY, powszechnie u偶ywanego algorytmu routingu w NoC. Zaproponowane podej艣cie zosta艂o zilustrowane przyk艂adem modu艂u ekstrakcji cech w systemie automatycznego rozpoznawania mowy. Klasyczny diagram takiego modu艂u zosta艂 przedstawiony na rys. 1. W celu okre艣lenia marszrut pomi臋dzy rdzeniami realizuj膮cymi funkcjonalno艣ci poszczeg贸lnych blok贸w tego modu艂u zosta艂a zaadaptowana technika znana z tradycyjnych sieci komputerowych, opisana m.in. w [8]. W artykule zaproponowano spos贸b wyboru 艣cie偶ek mi臋dzy rdzeniem 藕r贸d艂owym i docelowym, opisano spos贸b okre艣lania ogranicze艅, a tak偶e zaproponowano funkcj臋 celu uwzgl臋dniaj膮c膮 d艂ugo艣膰 艣cie偶ki. Do wyszukiwania optymalnej przepustowo艣ci 艂膮czy wykorzystano algorytm przypominaj膮cy wyszukiwanie binarne. Badania eksperymentalne, w ramach kt贸rych zaimplementowano opisany modu艂 w j臋zyku SystemC, a tak偶e wykorzystano komercyjne narz臋dzie do rozwi膮zywania problemu programowania liniowego, potwierdzaj膮 skuteczno艣膰 i efektywno艣膰 opisywanego podej艣cia

    Sie膰 wewn膮trzuk艂adowa wykorzystuj膮ca transmisj臋 rozpraszania kodowego CDMA przeznaczona do zastosowa艅 przetwarzania strumieni danych

    No full text
    In this paper an analysis of the CDMA-based transmission in Network on Chip (NoC) is presented. In order to realize CDMA transmission scheme between IP cores in the NoC, dedicated encoders and decoders using Walsh codes are proposed. To check the possibility of implementing CDMA NoC, a parametrization stage of audio analysis system was adapted to the NoC structure as a set of 14 independent blocks. The system was implemented with use of the ImpulseC hardware description language on an FPGA platform (Xilinx Virtex-5). The obtained results and the requirements needed to realize the CDMA scheme in the hardware show that a higher number of transmitted bits does not lead to any benefits over bus-based transmission.W pracy zosta艂a przedstawiona analiza wykorzystania transmisja strumieni danych mi臋dzy blokami IP w strukturze sieci wewn膮trzuk艂adowej (NoC) z u偶yciem rozpraszania kodowego CDMA. Poniewa偶 typowe rozwi膮zania 艂膮czenia blok贸w w systemach MPSoCs oparte o sieci wewn膮trzuk艂adowe wykorzystuj膮 routing typu wormhole, cz臋sto pojawia si臋 problem zwi膮zany z dost臋pem do wsp贸lnych zasob贸w. W artykule podj臋to pr贸b臋 zmiany mechanizmu transmisyjnego w celu okre艣lenia mo偶liwo艣ci poprawy takiej sytuacji. Proponowane podej艣cie wykorzystuje transmisj臋 CDMA z zastosowaniem kod贸w Walsha. W celu relizacji zada艅 transmisyjnych opracowane zosta艂y dedykowane uk艂ady kodera i dekodera CDMA wykorzystywane do komunikacji mi臋dzy blokami przetwarzaj膮cymi. Do oceny i weryfikacji proponowanego rozwi膮zania zdecydowano si臋 na u偶ycie modu艂u parametryzacji sygna艂贸w akustycznych (rys. 2), pracuj膮cego na strumieniach danych. Blok ten przetwarza strumie艅 akustyczny dziel膮c go na r贸wnej d艂ugo艣ci ramki i dla ka偶dej z nich wyznacza ponad 100 deskryptor贸w. Zaproponowane rozwi膮zanie zosta艂o zaimplementowane w uk艂adzie FPGA z rodziny Virtex 5 wykorzystuj膮c j臋zyk opisu sprz臋tu ImpulseC. W wyniku przeprowadzonej analizy wydajno艣ci transmisyjnej i narzutu spowodowanego specyfik膮 rozpraszania kodowego uzyskano wyniki gorsze ni偶 w przypadku tradycyjnej transmisji wykorzystuj膮cej magistrale. Ponadto, konieczno艣膰 stosowania globalnej synchronizacji oraz w wielu sytuacjach r贸wnie偶 globalnego routingu powoduje, 偶e transmisja CDMA w sieciach NoC nie stanowi konkurencji do rozwi膮za艅 magistralowych dedykowanych przetwarzaniu danych strumieniowych

    Implementacja algorytmu por贸wnywania binarnych obraz贸w PPMA na poziomie systemowym

    No full text
    In this paper, we describe Partial Point Matching Algorithm (PPMA) for binary images matching and provide some information about a developed SystemC system-level hardware implementation model. We present some data obtained from a cycle accurate simulator taking into account computation and routing delays of a target FPGA chip and compare it with its software counterparts.W artykule opisano algorytm cz臋艣ciowego dopasowywania z u偶yciem punkt贸w do por贸wnywania obraz贸w binarnych i przedstawiono opracowany model na poziomie systemowym w j臋zyku SystemC. Zaprezentowano dane otrzymane z symulatora pracuj膮cego na poziomie dok艂adno艣ci co do cyklu zegarowego, bior膮cego pod uwag臋 op贸藕nienia bramek i rutingu, oraz por贸wnano go z jego programowym odpowiednikiem

    Wykorzystanie paradygmatu sieci wewn膮trzuk艂adowych do dekodera mowy iLBC

    No full text
    In modern hardware multimedia solutions, such as set-top boxes, there exists a trend of implementing numerous codecs in a single device. In this paper, we describe our attitude to mapping a set of decoder stages to a regular mesh structure, which consists of two techniques for decreasing number of cores and assigning IP blocks to NoC nodes.We wsp贸艂czesnych rozwi膮zaniach sprz臋towych, takich jak STB (ang. set-top box), mo偶na zauwa偶y膰 trend implementowania wielu kodek贸w w pojedynczym urz膮dzeniu. W niniejszym artykule zosta艂o opisane podej艣cie odwzorowania zbioru funkcjonalnie niezale偶nych etap贸w dekodera iLBC do regularnej struktury sprz臋towej, na kt贸re sk艂adaj膮 si臋 dwa algorytmy pozwalaj膮ce zmniejszy膰 liczb臋 blok贸w i przypisa膰 te bloki do w臋z艂贸w sieci wewn膮trzuk艂adowej

    Wielordzeniowe dekodowanie strumieni d藕wi臋kowych opartych o architektur臋 sieci wewn膮trzuk艂adowych

    No full text
    A heuristic core mapping dedicated to multi-path routing algorithm for mesh Network on Chip dedicated to popular stream-based audio decoder algorithms is proposed. The processing units performing stages of a number of decoders are mapped into 2D mesh nodes in order to balance and minimize the bandwidths of the structure links. The experimental results confirming the benefits of the proposed approach are provided.W artykule przedstawiono heurystyczny algorytm odwzorowywania aplikacji zdominowanych przez dane do struktury dwuwymiarowej sieci wewn膮trzuk艂adowej. Jednostki przetwarzaj膮ce s膮 odwzorowywane do sieci NoC w spos贸b zmniejszaj膮cy i wyr贸wnuj膮cy przepustowo艣ci magistral wewn膮trzuk艂adowych. Do wyznaczania tras u偶yto wielo艣cie偶kowego algorytmu routingu

    Wielordzeniowa realizacja koder贸w mowy wykorzystuj膮ca sie膰 NoC

    No full text
    We analyzed a binary-tree based Network on Chip (NoC) architecture application for data transfer in real-time regime. In typical multimedia algorithms their links are not balanced using typical architectures, so we propose a simple algorithm for IP core mapping that significantly improves the link usage balance. The described experimental results show that the proposed architecture is characterized with lower target chip area and the yielded transfers are comparable with mesh architecture.W artykule zosta艂a przeanalizowana mo偶liwo艣膰 zastosowania sieci wewn膮trzuk艂adowych (ang. Network on Chip, NoC) o architekturze drzewa binarnego do transmisji danych w czasie rzeczywistym dla algorytm贸w zdominowanych przez dane. Poniewa偶 w typowych algorytmach multimedialnych po艂膮czenia tradycyjnych NoC nie s膮 wykorzystywane w spos贸b r贸wnomierny, wyb贸r odpowiedniej architektury jest krytyczny dla efektywno艣ci transmisji danych i w rezultacie dla czasu realizacji oblicze艅. W artykule zaproponowano prosty algorytm mapowania blok贸w IP, kt贸ry w znacznym stopniu poprawia r贸wnomierno艣膰 wykorzystania po艂膮cze艅 mi臋dzy rdzeniami. Zaprezentowane wyniki bada艅 eksperymentalnych pokazuj膮, 偶e dla zaproponowanej architektury rozmiar docelowego uk艂adu b臋dzie mniejszy, a transfery por贸wnywalne z najpopularniejsz膮 obecnie architektur膮 typu siatki. Uzyskane rezultaty mog膮 pos艂u偶y膰 do budowy adaptacyjnego algorytmu mapowania algorytm贸w do struktur sprz臋towych z uwzgl臋dnieniem szeregu specyficznych ogranicze艅 algorytm贸w operuj膮cych na danych przesy艂anych w czasie rzeczywistym

    Sprz臋towe przyspieszenie klasyfikacji danych multimedialnych

    No full text
    In this paper, experimental results of a proposed hardware acceleration of feature extraction and data classifiers for multimedia are presented. This hardware is based on multi-core architecture connected with a mesh Network on Chip (NoC). The cores in the system execute both data classifiers and feature extraction for audio and image data. Using various meta heuristics the system is optimized with regards to different data communication criteria. The system was implemented on an FPGA platform with use of ImpulseC hardware description language.W artykule zosta艂y zeprezentowane wyniki eksperymentalne dotycz膮ce sprz臋towego przyspieszania ekstrakcji cech i klasyfikacji danych multimedialnych. Opracowane rozwi膮zanie sprz臋towe bazuje na architekturze wielordzeniowej, w kt贸rej ka偶dy blok realizuje przypisan膮 mu statycznie funkcjonalno艣膰. Rdzenie po艂膮czone s膮 ze sob膮 za pomoc膮 sieci wewn膮trzuk艂adowej (ang. Network on Chip, NoC) o architekturze siatki. W artykule opisano pokr贸tce autorskie oprogramowanie s艂u偶膮ce do generowania kodu sieci wewn膮trzuk艂adowej. Graficzny interfejs u偶ytkownika zosta艂 zaprezentowany na rys. 1. Narz臋dzie ma za zadanie dokonywa膰 odwzorowania wybranych funkcjonalno艣ci do poszczeg贸lnych rdzeni z wykorzystaniem takich meta-heurystyk jak algorytmy genetyczne, symulowane wy偶arzanie, poszukiwanie losowe czy algorytmu gradientowego. Jako kryterium optymalizacji mo偶na wybra膰 minimalizacj臋 ca艂kowitego przesy艂u danych, minimalizacj臋 maksymalnej liczby danych transmitowanych przez pojedyncze 艂膮cze, a tak偶e minimalizacj臋 odchylenia standardowego rozmiaru strumieni transmitowanych przez poszczeg贸lne 艂膮cza. Przyk艂adowe wyniki optymalizacji losowej dla sieci wewn膮trzuk艂adowej zosta艂y przedstawione w tab. 1, natomiast wyniki optymalizacji dla sieci wewn膮trzuk艂adowej wykorzystuj膮cej inne podej艣cia - w tab. 2. Dla systemu zoptymalizowanego w ten spos贸b zosta艂 wygnerowany opisuj膮cy go kod w j臋zyku ImpulseC, kt贸ry nast臋pnie pos艂u偶y艂 do syntezy sprz臋towej na uk艂adzie FPGA z rodziny Xilinx Virtex 5. Zaj臋to艣膰 uk艂adu XC5VSX50T dla trzech wykorzystanych klasyfikator贸w zosta艂a przedstawiona na rys. 3. Z kolei tab. 3 przedstawia liczb臋 zasob贸w wykorzystanych przez narz臋dzie syntezy wysokiego poziomu dla tych klasyfikator贸w. Technika przedstawiona w publikacji umo偶liwia okre艣lenie warunk贸w i ogranicze艅 implementacji sprz臋towej systemu s艂u偶膮cego klasyfikacji danych multimedialnych

    Routing wielo艣cie偶kowy w sieciach wewn膮trzuk艂adowych dla algorytm贸w

    No full text
    In this paper a multi-path routing algorithm dedicated to Network on Chip (NoC) together with its implementation is presented. The proposed algorithm is based on the Ford-Fulkerson method and is aimed at data-dominated multimedia applications realized in Multi Processor Systems on Chip. The efficiency of the proposed technique is compared with the state-of-the-art NoC routing. Our implementation utilizing virtual channels allows us to obtain promising results in some popular multimedia codecs.W artykule zosta艂 przedstawiony wielo艣cie偶kowy routing przeznaczony do sieci wewn膮trzuk艂adowych (ang. Network on Chip, NoC) wraz z jego implementacj膮. Proponowany algorytm zosta艂 oparty na metodzie Forda-Fulkersona i jest przeznaczony do multimedialnych aplikacji strumieniowych zdominowanych przez dane, realizowanych w wieloprocesorowych systemach jednouk艂adowych (ang. Multi Processor Systems on Chip, MPSoC). Efektywno艣膰 prezentowanej techniki zosta艂a por贸wnana z najpopularniejszym algorytmem routingu u偶ywanym w NoC - XY. Badania eksperymentalne wykaza艂y, 偶e w niekt贸rych przypadkach uzyskano znacz膮c膮 popraw臋 czasu transmisji. Przedstawiona implementacja algorytmu wykorzystuje kana艂y wirtualne i, chocia偶 wymaga wykonania dodatkowych oblicze艅, umo偶liwi艂a otrzymanie obiecuj膮cych wynik贸w dla niekt贸rych popularnych kodek贸w Multimedialnych, natomiast dla innych uzyskano nieco gorsze wyniki. St膮d trudno jednoznacznie wnioskowa膰 o wy偶szo艣ci wielo艣cie偶kowych mechanizm贸w routingu nad tradycyjnymi jedno艣cie偶kowymi. Routing typu tapeworm nale偶y zatem postrzega膰 jako alternatywn膮 propozycj臋 routingu przeznaczon膮 dla strumieniowych algorytm贸w realizowanych w NoC, kt贸ra poszerza przestrze艅 poszukiwa艅 korzystnej realizacji uk艂adowej. W niekt贸rych przypadkach jej stosowanie znacznie polepsza wyniki, czasami za艣 lepiej zastosowa膰 tradycyjne podej艣cie. W chwili obecnej autorzy nie s膮 w stanie zidentyfikowa膰 cech wsp贸lnych algorytm贸w, kt贸re s膮 korzystnie realizowalne z wykorzystaniem proponowanej techniki
    corecore