Search CORE

13 research outputs found

Szacowanie wykorzystania zasobów i rozmieszczenia rdzeni przy realizacji algorytmów zdominowanych danymi w MPSoC opartych na NoC

Author: Dondziak P.
Dziurzański P.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2010
Field of study

In this paper we propose a technique for estimating the number of NoC-based MPSoCs resources (measured in FPGA LUTs) needed for realizing an arbitrary data-dominated algorithm given in the SystemC language. This technique utilizes Control Data Flow Graphs describing the functionality of the code. In order to map the cores into the target chip we use the Bottom-Left-Decreasing algorithm for solving the 2D Rectangular Strip Packing problem. We illustrate the proposed technique with a lossless audio FLAC codec.W artykule zaproponowano technikę szacowania zasobów potrzebnych do realizacji wielordzeniowych układów MPSoC opartych na sieciach wewnątrzukładowych NoC (ang. Networks on Chip) realizujących dowolny algorytm zdominowany danymi. Algorytm ten jest wyrażony za pomocą kodu w języku opisu systemu SystemC. Jako miarę powierzchni przyjęto liczbę tablic look-up-table (LUT) układów typu FPGA, do których wejściowe algorytmy zostają odwzorowywane. Proponowana technika wykorzystuje diagram przepływu danych i kontroli (ang. Control Data Flow Graph, CDFG), opisujący funkcjonalność kodu. Następnie dla węzłów tego diagramu dokonuje się prostej estymacji wymaganych zasobów w zależności od typu danego węzła i rozmiaru danych, na których węzeł przeprowadza obliczenia. Proponowana technika została zilustrowana przykładem bezstratnego kodeka FLAC. Zaprezentowane wyniki badań eksperymentalnych pokazują dokładność od 99.3% do 57%, co jest zbliżone do wyników innych zespołów badawczych, np. [2, 4]. W celu odwzorowania rdzeni do docelowego układu użyto zachłannego algorytmu Bottom-Left-Decreasing do rozwiązania dwuwymiarowego problemu pokrycia paska. Badania przeprowadzono dla różnych ograniczeń maksymalnej wysokości paska; w artykule przedstawiono wizualizacje najlepszego i najgorszego przypadku

Biblioteka Nauki - repozytorium artykuÅÃ³w

Formal verification of automatically parallelised processes

Author: Dziurzański P.
Karpicki M.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2006
Field of study

W artykule przedstawiono technikę formalnej weryfikacji systemów sprzętowo-programowych opisanych za pomocą języka opisu systemów SystemC. Formalnej weryfikacji dokonuje się z wykorzystaniem logiki temporalnej CTL i asercji. Przedstawiono formuły CTL dla systemu z jedną sekcją równoległą. Badania eksperymentalne wykazały liniowy wzrost liczby formuł i liniowy przyrost czasu działania programu automatycznie wstawiającego asercję, przez co prezentowane podejście nadaje się do zastosowań przemysłowych.In this paper, we present a formal verification technique of software/hardware systems given in the SystemC system description language. The verification is performed using temporal logic CTL and assertions. We enumerate the CTL formulas generated from a system with a single parallel section. Experimental results present a linear growth of a number of formulas and linear growth of the execution time of the developed tool that automatically inserts CTL assertions. Consequently, the proposed approach is suitable for industrial applications

Biblioteka Nauki - repozytorium artykuÅÃ³w

Liniowa optymalizacja wielościeżkowego routingu w sieciach wewnątrzukładowych

Author: Dziurzański P.
Mąka T.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2012
Field of study

In this paper, a technique for determining required link band-width of a multi-path routing algorithm dedicated to Network on Chip (NoC) is presented. The proposed algorithm is based on the linear programming and allows us to avoid deadlocks and contentions in case of Tapeworm routing used for data-dominated streaming multimedia applications realized in Multi Processor Systems on Chip. The proposed approach is illustrated with an example of features extraction module for the Automatic Speech Recognition (ASR) system.W artykule opisano technikę określania wymaganej przepustowości łączy sieci wewnątrzukładowej z routingiem wielościeżkowym. Zaproponowany algorytm bazuje na programowaniu liniowym i umożliwia unikanie blokad w routingu typu Tapeworm, wykorzystywanego dla multimedialnych aplikacji zdominowanych przez dane realizowanych w układach typu MPSoC. Autorski algorytm routingu Tapeworm dla niektórych aplikacji multimedialnych okazuje się być wydajniejszy od XY, powszechnie używanego algorytmu routingu w NoC. Zaproponowane podejście zostało zilustrowane przykładem modułu ekstrakcji cech w systemie automatycznego rozpoznawania mowy. Klasyczny diagram takiego modułu został przedstawiony na rys. 1. W celu określenia marszrut pomiędzy rdzeniami realizującymi funkcjonalności poszczególnych bloków tego modułu została zaadaptowana technika znana z tradycyjnych sieci komputerowych, opisana m.in. w [8]. W artykule zaproponowano sposób wyboru ścieżek między rdzeniem źródłowym i docelowym, opisano sposób określania ograniczeń, a także zaproponowano funkcję celu uwzględniającą długość ścieżki. Do wyszukiwania optymalnej przepustowości łączy wykorzystano algorytm przypominający wyszukiwanie binarne. Badania eksperymentalne, w ramach których zaimplementowano opisany moduł w języku SystemC, a także wykorzystano komercyjne narzędzie do rozwiązywania problemu programowania liniowego, potwierdzają skuteczność i efektywność opisywanego podejścia

Biblioteka Nauki - repozytorium artykuÅÃ³w

Sieć wewnątrzukładowa wykorzystująca transmisję rozpraszania kodowego CDMA przeznaczona do zastosowań przetwarzania strumieni danych

Author: Dziurzański P.
Mąka T.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2014
Field of study

In this paper an analysis of the CDMA-based transmission in Network on Chip (NoC) is presented. In order to realize CDMA transmission scheme between IP cores in the NoC, dedicated encoders and decoders using Walsh codes are proposed. To check the possibility of implementing CDMA NoC, a parametrization stage of audio analysis system was adapted to the NoC structure as a set of 14 independent blocks. The system was implemented with use of the ImpulseC hardware description language on an FPGA platform (Xilinx Virtex-5). The obtained results and the requirements needed to realize the CDMA scheme in the hardware show that a higher number of transmitted bits does not lead to any benefits over bus-based transmission.W pracy została przedstawiona analiza wykorzystania transmisja strumieni danych między blokami IP w strukturze sieci wewnątrzukładowej (NoC) z użyciem rozpraszania kodowego CDMA. Ponieważ typowe rozwiązania łączenia bloków w systemach MPSoCs oparte o sieci wewnątrzukładowe wykorzystują routing typu wormhole, często pojawia się problem związany z dostępem do wspólnych zasobów. W artykule podjęto próbę zmiany mechanizmu transmisyjnego w celu określenia możliwości poprawy takiej sytuacji. Proponowane podejście wykorzystuje transmisję CDMA z zastosowaniem kodów Walsha. W celu relizacji zadań transmisyjnych opracowane zostały dedykowane układy kodera i dekodera CDMA wykorzystywane do komunikacji między blokami przetwarzającymi. Do oceny i weryfikacji proponowanego rozwiązania zdecydowano się na użycie modułu parametryzacji sygnałów akustycznych (rys. 2), pracującego na strumieniach danych. Blok ten przetwarza strumień akustyczny dzieląc go na równej długości ramki i dla każdej z nich wyznacza ponad 100 deskryptorów. Zaproponowane rozwiązanie zostało zaimplementowane w układzie FPGA z rodziny Virtex 5 wykorzystując język opisu sprzętu ImpulseC. W wyniku przeprowadzonej analizy wydajności transmisyjnej i narzutu spowodowanego specyfiką rozpraszania kodowego uzyskano wyniki gorsze niż w przypadku tradycyjnej transmisji wykorzystującej magistrale. Ponadto, konieczność stosowania globalnej synchronizacji oraz w wielu sytuacjach również globalnego routingu powoduje, że transmisja CDMA w sieciach NoC nie stanowi konkurencji do rozwiązań magistralowych dedykowanych przetwarzaniu danych strumieniowych

Biblioteka Nauki - repozytorium artykuÅÃ³w

Implementacja algorytmu porównywania binarnych obrazów PPMA na poziomie systemowym

Author: Dziurzański P.
Frejlichowski D.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2007
Field of study

In this paper, we describe Partial Point Matching Algorithm (PPMA) for binary images matching and provide some information about a developed SystemC system-level hardware implementation model. We present some data obtained from a cycle accurate simulator taking into account computation and routing delays of a target FPGA chip and compare it with its software counterparts.W artykule opisano algorytm częściowego dopasowywania z użyciem punktów do porównywania obrazów binarnych i przedstawiono opracowany model na poziomie systemowym w języku SystemC. Zaprezentowano dane otrzymane z symulatora pracującego na poziomie dokładności co do cyklu zegarowego, biorącego pod uwagę opóźnienia bramek i rutingu, oraz porównano go z jego programowym odpowiednikiem

Biblioteka Nauki - repozytorium artykuÅÃ³w

Wykorzystanie paradygmatu sieci wewnątrzukładowych do dekodera mowy iLBC

Author: Dziurzański P.
Mąka T.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2007
Field of study

In modern hardware multimedia solutions, such as set-top boxes, there exists a trend of implementing numerous codecs in a single device. In this paper, we describe our attitude to mapping a set of decoder stages to a regular mesh structure, which consists of two techniques for decreasing number of cores and assigning IP blocks to NoC nodes.We współczesnych rozwiązaniach sprzętowych, takich jak STB (ang. set-top box), można zauważyć trend implementowania wielu kodeków w pojedynczym urządzeniu. W niniejszym artykule zostało opisane podejście odwzorowania zbioru funkcjonalnie niezależnych etapów dekodera iLBC do regularnej struktury sprzętowej, na które składają się dwa algorytmy pozwalające zmniejszyć liczbę bloków i przypisać te bloki do węzłów sieci wewnątrzukładowej

Biblioteka Nauki - repozytorium artykuÅÃ³w

Wielordzeniowe dekodowanie strumieni dźwiękowych opartych o architekturę sieci wewnątrzukładowych

Author: Dziurzański P.
Mąka T.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2008
Field of study

A heuristic core mapping dedicated to multi-path routing algorithm for mesh Network on Chip dedicated to popular stream-based audio decoder algorithms is proposed. The processing units performing stages of a number of decoders are mapped into 2D mesh nodes in order to balance and minimize the bandwidths of the structure links. The experimental results confirming the benefits of the proposed approach are provided.W artykule przedstawiono heurystyczny algorytm odwzorowywania aplikacji zdominowanych przez dane do struktury dwuwymiarowej sieci wewnątrzukładowej. Jednostki przetwarzające są odwzorowywane do sieci NoC w sposób zmniejszający i wyrównujący przepustowości magistral wewnątrzukładowych. Do wyznaczania tras użyto wielościeżkowego algorytmu routingu

Biblioteka Nauki - repozytorium artykuÅÃ³w

Wielordzeniowa realizacja koderów mowy wykorzystująca sieć NoC

Author: Dziurzański P.
Mąka T.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2010
Field of study

We analyzed a binary-tree based Network on Chip (NoC) architecture application for data transfer in real-time regime. In typical multimedia algorithms their links are not balanced using typical architectures, so we propose a simple algorithm for IP core mapping that significantly improves the link usage balance. The described experimental results show that the proposed architecture is characterized with lower target chip area and the yielded transfers are comparable with mesh architecture.W artykule została przeanalizowana możliwość zastosowania sieci wewnątrzukładowych (ang. Network on Chip, NoC) o architekturze drzewa binarnego do transmisji danych w czasie rzeczywistym dla algorytmów zdominowanych przez dane. Ponieważ w typowych algorytmach multimedialnych połączenia tradycyjnych NoC nie są wykorzystywane w sposób równomierny, wybór odpowiedniej architektury jest krytyczny dla efektywności transmisji danych i w rezultacie dla czasu realizacji obliczeń. W artykule zaproponowano prosty algorytm mapowania bloków IP, który w znacznym stopniu poprawia równomierność wykorzystania połączeń między rdzeniami. Zaprezentowane wyniki badań eksperymentalnych pokazują, że dla zaproponowanej architektury rozmiar docelowego układu będzie mniejszy, a transfery porównywalne z najpopularniejszą obecnie architekturą typu siatki. Uzyskane rezultaty mogą posłużyć do budowy adaptacyjnego algorytmu mapowania algorytmów do struktur sprzętowych z uwzględnieniem szeregu specyficznych ograniczeń algorytmów operujących na danych przesyłanych w czasie rzeczywistym

Biblioteka Nauki - repozytorium artykuÅÃ³w

Sprzętowe przyspieszenie klasyfikacji danych multimedialnych

Author: Dziurzański P.
Forczmański P.
Mąka T.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2014
Field of study

In this paper, experimental results of a proposed hardware acceleration of feature extraction and data classifiers for multimedia are presented. This hardware is based on multi-core architecture connected with a mesh Network on Chip (NoC). The cores in the system execute both data classifiers and feature extraction for audio and image data. Using various meta heuristics the system is optimized with regards to different data communication criteria. The system was implemented on an FPGA platform with use of ImpulseC hardware description language.W artykule zostały zeprezentowane wyniki eksperymentalne dotyczące sprzętowego przyspieszania ekstrakcji cech i klasyfikacji danych multimedialnych. Opracowane rozwiązanie sprzętowe bazuje na architekturze wielordzeniowej, w której każdy blok realizuje przypisaną mu statycznie funkcjonalność. Rdzenie połączone są ze sobą za pomocą sieci wewnątrzukładowej (ang. Network on Chip, NoC) o architekturze siatki. W artykule opisano pokrótce autorskie oprogramowanie służące do generowania kodu sieci wewnątrzukładowej. Graficzny interfejs użytkownika został zaprezentowany na rys. 1. Narzędzie ma za zadanie dokonywać odwzorowania wybranych funkcjonalności do poszczególnych rdzeni z wykorzystaniem takich meta-heurystyk jak algorytmy genetyczne, symulowane wyżarzanie, poszukiwanie losowe czy algorytmu gradientowego. Jako kryterium optymalizacji można wybrać minimalizację całkowitego przesyłu danych, minimalizację maksymalnej liczby danych transmitowanych przez pojedyncze łącze, a także minimalizację odchylenia standardowego rozmiaru strumieni transmitowanych przez poszczególne łącza. Przykładowe wyniki optymalizacji losowej dla sieci wewnątrzukładowej zostały przedstawione w tab. 1, natomiast wyniki optymalizacji dla sieci wewnątrzukładowej wykorzystującej inne podejścia - w tab. 2. Dla systemu zoptymalizowanego w ten sposób został wygnerowany opisujący go kod w języku ImpulseC, który następnie posłużył do syntezy sprzętowej na układzie FPGA z rodziny Xilinx Virtex 5. Zajętość układu XC5VSX50T dla trzech wykorzystanych klasyfikatorów została przedstawiona na rys. 3. Z kolei tab. 3 przedstawia liczbę zasobów wykorzystanych przez narzędzie syntezy wysokiego poziomu dla tych klasyfikatorów. Technika przedstawiona w publikacji umożliwia określenie warunków i ograniczeń implementacji sprzętowej systemu służącego klasyfikacji danych multimedialnych

Biblioteka Nauki - repozytorium artykuÅÃ³w

Routing wielościeżkowy w sieciach wewnątrzukładowych dla algorytmów

Author: Chojnacki B.
Dziurzański P.
Mąka T.
Publication venue: Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Publication date: 01/01/2011
Field of study

In this paper a multi-path routing algorithm dedicated to Network on Chip (NoC) together with its implementation is presented. The proposed algorithm is based on the Ford-Fulkerson method and is aimed at data-dominated multimedia applications realized in Multi Processor Systems on Chip. The efficiency of the proposed technique is compared with the state-of-the-art NoC routing. Our implementation utilizing virtual channels allows us to obtain promising results in some popular multimedia codecs.W artykule został przedstawiony wielościeżkowy routing przeznaczony do sieci wewnątrzukładowych (ang. Network on Chip, NoC) wraz z jego implementacją. Proponowany algorytm został oparty na metodzie Forda-Fulkersona i jest przeznaczony do multimedialnych aplikacji strumieniowych zdominowanych przez dane, realizowanych w wieloprocesorowych systemach jednoukładowych (ang. Multi Processor Systems on Chip, MPSoC). Efektywność prezentowanej techniki została porównana z najpopularniejszym algorytmem routingu używanym w NoC - XY. Badania eksperymentalne wykazały, że w niektórych przypadkach uzyskano znaczącą poprawę czasu transmisji. Przedstawiona implementacja algorytmu wykorzystuje kanały wirtualne i, chociaż wymaga wykonania dodatkowych obliczeń, umożliwiła otrzymanie obiecujących wyników dla niektórych popularnych kodeków Multimedialnych, natomiast dla innych uzyskano nieco gorsze wyniki. Stąd trudno jednoznacznie wnioskować o wyższości wielościeżkowych mechanizmów routingu nad tradycyjnymi jednościeżkowymi. Routing typu tapeworm należy zatem postrzegać jako alternatywną propozycję routingu przeznaczoną dla strumieniowych algorytmów realizowanych w NoC, która poszerza przestrzeń poszukiwań korzystnej realizacji układowej. W niektórych przypadkach jej stosowanie znacznie polepsza wyniki, czasami zaś lepiej zastosować tradycyjne podejście. W chwili obecnej autorzy nie są w stanie zidentyfikować cech wspólnych algorytmów, które są korzystnie realizowalne z wykorzystaniem proponowanej techniki

Biblioteka Nauki - repozytorium artykuÅÃ³w