University for Business and Technology in Kosovo

UBT Knowledge Center
Theses and Dissertations

Student Work

Winter 12-2015

Programimi Paralel Me GPU
Kujtim Kërqeli
University for Business and Technology - UBT

Follow this and additional works at: https://knowledgecenter.ubt-uni.net/etd
Part of the Computer Sciences Commons

Recommended Citation
Kërqeli, Kujtim, "Programimi Paralel Me GPU" (2015). Theses and Dissertations. 1183.
https://knowledgecenter.ubt-uni.net/etd/1183

This Thesis is brought to you for free and open access by the Student Work at UBT Knowledge Center. It has been
accepted for inclusion in Theses and Dissertations by an authorized administrator of UBT Knowledge Center. For
more information, please contact knowledge.center@ubt-uni.net.

Programi për Shkenca Kompjuterike dhe Inxhinierise

Programimi Paralel Me GPU

Shkalla Bachelor

Kujtim Kërqeli

Dhjetor 2015
Prishtinë

Programi për Shkenca Kompjuterike dhe Inxhinierise

Punim Diplome
Viti akademik 2012/13

Kujtim Kërqeli
Programimi Paralel Me GPU
Mentori:
Dr.sc.Bertan Karahoda

Dhjetor 2015

Ky punim është përpiluar dhe dorëzuar në përmbushjen e kërkesave të
pjesshme për Shkallën Bachelor

i

Përmbajtja:
1

Hyrje ................................................................................................................................................... 2

2

Programimi paralel ............................................................................................................................. 3
2.1

Historia programuese e GPU-s ....................................................................................................... 3

2.2

Zhvillimi i Tubacioneve Grafike .................................................................................................... 3

2.3

Zhvillimi i grafiqeve real-time të programueshëm ......................................................................... 7

2.4

Grafiqet e unifikuara dhe procesorët llogaritës .............................................................................. 8

2.5 GPGPU: Një hap i ndërmjem ......................................................................................................... 9
2.5.1
Programimi me GPU ............................................................................................................ 9
2.6

GPU-t si kompjuter paralelë......................................................................................................... 10

2.7

Arkitektura e GPU-së moderne .................................................................................................... 13

2.8

Gjuhët programuese paralele dhe modelet ................................................................................... 14

3

Deklarimi i Problemit ....................................................................................................................... 16

4

Metodologjia ..................................................................................................................................... 18

5

Platforma për procesim paralel ......................................................................................................... 19
5.1 Programimi në CUDA.................................................................................................................. 19
5.1.1
Paralelizimi i të dhënave..................................................................................................... 19
5.1.2
Struktura e programeve në CUDA...................................................................................... 20
5.1.3
Shembulli i shumëzimit të matricave.................................................................................. 22
5.1.4
Memoriet device dhe transferimi i të dhënave .................................................................... 25
5.1.5
Funksionet Kernel dhe Threading....................................................................................... 31
5.2 CUDA threads .............................................................................................................................. 37
5.2.1
Përdorimi i blockIdx dhe threadIdx .................................................................................... 41
5.2.2
Sinkronizimi i thread-ave ................................................................................................... 46
5.2.3
Caktimi i thread-ave ........................................................................................................... 47
5.2.4
Planifikimi i threadave........................................................................................................ 49
5.3 Memoriet e CUDA-s .................................................................................................................... 50
5.3.1
Rëndësia e çasjes në memorie ............................................................................................ 50
5.3.2
Tipet e memories CUDA .................................................................................................... 52
5.3.3
Strategjia për reduktimin trafikut në memorien globale ..................................................... 56
5.3.4
Memoria si faktor limitues për paralelizëm ........................................................................ 64
5.4 Debugging në CUDA ................................................................................................................... 65
5.4.1
Instalimi i Nvidia CUDA me Visual Studio 2010 .............................................................. 65

6

Përmbledhje ...................................................................................................................................... 69

7

Referencat: ........................................................................................................................................ 70

ii

Figurat:
Figura 4: Fixed-funksioni i Grafiqeve NVIDIA GeForce ............................................................................ 4
Figura 5: Shembulli i hartës së botës ............................................................................................................ 6
Figura 6: Shembull i operacioneve të ndryshme .......................................................................................... 7
Figura 7: Shembull i procesorit të ndarë vertex dhe atij fragment në grafiqet e programueshëm ................ 8
Figura 8: Vargu i bashkuar i procesorëve të programueshëm në grafikën e GeForce 8800 GTX ................ 9
Figura 1: Dallimi i performancës në mes GPU-s dhe CPU-s gjatë viteve .................................................. 11
Figura 2: CPU-të dhe GPU-të kanë filozofi krejtësisht të ndryshëm të dizajnimit .................................... 11
Figura 3: Arkitektura e GPU-s me mundësi të CUDA programimit .......................................................... 14
Figura 9: Paralelizimi i të dhënave në shumëzimin e matricave ................................................................ 20
Figura 10: Ekzekutimi i një CUDA programi ............................................................................................ 21
Figura 11: Funksioni kryesor i shembullit të shumëzimit të matricave ...................................................... 22
Figura 12: Funksion i thjeshtë i shumëzimit të matricave vetëm me host kodin ........................................ 23
Figura 13: Vendosja e elementeve të vargjeve dy-dimenzionale në atë lineare ........................................ 24
Figura 14: Korrigjimi i host kodit të MatrixMultiplication() ku dërgon shumëzimin e matricës në device
.................................................................................................................................................................... 25
Figura 15: Pasqyra e modelit të memories së CUDA device..................................................................... 26
Figura 16: Funksionet API të CUDA-s për menagjim memories globale .................................................. 26
Figura 17: Funksionet API të CUDA-s për transferim të të dhënave midis memorieve ............................ 28
Figura 18: Funksioni i korrigjuar MatrixMultiplication() .......................................................................... 30
Figura 19: Funksioni kernel i shumëzimit të matricave ............................................................................. 32
Figura 20: Organizimi i CUDA thread-ave ................................................................................................ 35
Figura 21: Shembulli i host kodit që nis një kernel .................................................................................... 36
Figura 22: Pasqyra e organizimit të CUDA thread-ave .............................................................................. 38
Figura 23: Shembull multidimenzional i organizimit të rrjetit së CUDA-s ................................................ 40
Figura 24: Shumëzimi i matricave duke përdorur blloqe të shumta me pllakëzim të Pd ........................... 42
Figura 25: Shembull i thjeshtëzuar i përdorimit të blloqeve të shumtë për llogaritjen e Pd ....................... 43
Figura 26: Veprimet e shumëzimit të matricave të një blloku thread-ash .................................................. 44
Figura 27: Kerneli i korrigjuar i shumëzimit të matricave duke përdorur blloqe të shumëfishtë ............... 45
Figura 28: Korrigjimi i host kodit për nisjen e kernel-it të korrigjuar ........................................................ 45
Figura 29: Transparent scalabilty për programet në CUDA të lejuar nga mungesa e sinkronizimit të
pengesave mes blloqeve ............................................................................................................................. 47
Figura 30: Caktimi i thread blloqeve në streaming multiprocesorët (SMs) ................................................ 48
Figura 31: Blloqet e ndara në ëarps për programimin në thread ................................................................. 49
Figura 32: Kerneli për shumëzim të matricave duke përdorur blloqe të shumta ....................................... 51
Figura 33: Pasqyrim i pajisjes së modelit të memories CUDA .................................................................. 52
Figura 34: Një shembull i vogël i shumëzimit të matricave duke përdorur blloqe të shumta .................... 57
Figura 35: Çasjet e kryer nga thread-at e bllokut(0,0) në memorien globale ............................................. 57
Figura 36: Pllakëzimi i Md dhe Nd për shfrytëzimin e memories së përbashkët ....................................... 59
Figura 37: Fazat ekzekutuese të shumëzimit pllakëzor të matricave .......................................................... 59
Figura 38: Kerneli i shumëzimit pllakëzor të matricave duke përdorur memorien e përbashkët ............... 61
Figura 39: Kalkulimi i indekseve të matricës në shumëzimin pllakëzor .................................................... 63

Tabelat:
Tabela 1 : Shtesat e CUDA-s në deklarimet e C funksioeve.......................................................................32
Tabela 2: Tipet e ndryshoreve në CUDA.....................................................................................................54

iii

1 Hyrje
Mikroprocesorët të bazuar në një njësi qendrore procesuese (CPU), si ato të familjes
Intel Pentium dhe asaj AMD Opteron, kanë shënuar ngritje të performancës si dhe ulje
të shpenzimeve në aplikacionet kompjuterike për më shumë se dy dekada. Këta
mikroprocesorë sollën GFlops në desktop dhe qindra GFlops për serverët grumbullues
(Cluster Servers). Ky zhvillim performues i lartë ka lejuar aplikacionet softuerike të
kenë më shumë funksionalitet, si dhe të arrijnë rezultate më të dobishme.
Gjatë kësaj kohe shumica e zhvilluesve të softuerit janë mbështëtur tek zhvillimi i
harduerit për ta rritur shpejtësinë e aplikacionit të tyre, pra softueri i njëjtë punonte më
shpejtë kur avancohej procesori apo paraqitej gjeneratë e re e procesorëve. Sidoqoftë ky
avancim është ngadalësuar qysh nga viti 2003 përshkak të konsumimit të energjisë dhe
nxehtësisë gjë që ndikoj në clock_frequency dhe në nivelin për të bërë llogaritje
produktive për çdo clock periodë në një CPU të vetme. Pothuajse të gjithë prodhuesit e
mikroprocesorëve kanë kaluar në modele të rinjë të procesorëve, në procesorë me më
shumë se një bërthamë në një CPU, ku secila prej tyre ndihmon në ngritjen aftësisë së
saj. Aplikacionet softuerike që do të vazhdojne të gëzojnë performancë në gjeneratat e
ardhshme të mikroprocesorëve do të jenë programet paralele, në të cilën threada të
shumtë kolaborojnë për ta përfunduar punën më shpejtë. Komuniteti i performancës së
lartë kompjuterike ka zhvilluar programe paralele për shumë dekada. Këto programe
kanë punuar vetëm në kompjuter me performancë të lartë dhe shumë të kushtueshme.
Por meqë NVIDIA ka bër të mundur përdorimin dhe të GPU-së në përmjet platformës
të programimit paralel dhe modelit CUDA është bër e mundur që njëkohësisht të
përdorët dhe GPU-në është bër revulucion i madhë në rritjën e përformancës
kompjuterike në përdorime të ndryshme gjë në përmjet kësaj platforme është bër e
mundur që të dërgohen kode të gjuhëve programuese C,C++ dhe fortan pa pasur nevoj
për kompajllim direkt në GPU. Sot është bër e mundur që përpunimet grafike të bëhen
direkt në GPU në përmjet CUDA-së dhe se mbi 350 milion me CUDA GPU-aktivizuar
ku shkenctarët dhe ingjinjerët e softwerit dhe hulumtus të ndryshëm sot e përdorin në
gamë të madhe.

2

2 Programimi paralel

2.1

Historia programuese e GPU-s

Për programuesit e CUDA-s dhe OpenCL, GPU-t janë procesorë për llogaritje numerike të
programuar në C me zgjerime. Gjatë historisë GPU-t kanë pësuar ndryshim të madh në
arkitekturën e tyre gjë që ka mundësuar shfrytëzimin e tyre si procesor. Multi-threading i
madh, kesh memoriet e vegjël në krahasim me CPU kanë bërë që GPU-t të jenë shumë të
përdorshëm në programimin paralel.

2.2

Zhvillimi i Tubacioneve Grafike

Hardueri i tubacioneve grafike tre dimensionale 3D evoluoi prej sistemeve të mëdha e të
shtrenjta qysh në fillimin e vitit 1980 në ëorkstation të vegjël dhe pastaj edhe në kompjuter
personal gjatë kësaj dekade. Gjatë periudhës së njëjtë, performanca u rrit prej 50 million
piksela për sekondë në 1 miliardë piksela për sekondë dhe prej 100.000 vektorëve për
sekondë në 10 milion vektorë për sekondë.
Qysh në fillim të viteve 1980 gjer në fund të viteve 1990-ta grafiqet kryesore për nga
performanca ishin të konfigurueshme por jo të programueshme. Në periudhë të njëjtë u
popullarizuan shumë grafiqet me librari API (Application Programming Interface). API
është një shtresë e standardizuar e softuerit (p.sh. koleksioni i librarisë së funksioneve) e
cila lejon aplikacione (si lojërat) për të përdorur shërbimet dhe funksionalitetin e harduerit
dhe softuerit.
API për shembull mund të lejoj që një lojë të dërgojë komanda tek njësia procesuese e
grafiqeve (GPU) që të vizatojë objekte të ndryshme në ekran. DirectX është API i tillë, i
patentuar nga kompania e njohur e Microsoft. Figura 4 tregon një shembull të tubacionit të
grafiqeve me funksion fiks në GPU-t e hershëm të NVIDIA_GeForce. Ndërfaqja e host
3

pranon komandat grafike si dhe të dhënat prej CPU-s. Komandat jipen nëpermjet
aplikacioneve të programeve duke thirrur një funksion të API-s. Ku kjo ndërfaqe përmban
një memorie për çasje të drejtpërdrejtë e të specializuar (DirectMemoryAccess) për një
transferim të efektshëm të të dhënave nga sistemi i memories host gjer tek tubacioni i
grafiqeve[1].
Nderfaqja host njashtu ia komunikon mbrapa statusin dhe rezulatet e fituara nga ekzekutimi
i komandave.

Figura 4: Fixed-funksioni i Grafiqeve NVIDIA GeForce[1]

Përpara se ti përshkruajmë fazat tjera të tubacionit, duhet të qartësojmë se termi vertex
zakonisht i referohet këndit të poligonit. Tubacioni i grafiqeve të Geforce është i dizajnuar
ti katandis trekëndëshat, kështu që termi vertex është përdorur në këtë rast që t'i referohet
këndeve të trekëndëshit. Sipërfaqja e një objekti është e vizatuar si një koleksion i
trekëndëshave. Sa më të mira që janë madhësitë e trekëndshave aq më i mirë bëhet kualiteti
i fotografisë. Faza e kontrollit të Vertexit në figurën 4 pranon të dhëna të parametrizuara
nga CPU-ja. Pastaj faza e e kontrollit të Vertexit i konverton të dhënat e trekëndëshit në një

4

formë ashtu që hardueri i kupton dhe i vendos të dhënat drejtë keshit të Vertexit. Faza
Vertex për krijimin e hijeve (shading), transformimin, dhe ndriqimin (VS/T&L) në figurën
4 transformon vektorët dhe përcakton vlerat e e tij (siç janë: ngjyrat, normalet, cilësia,
tangjentet,etj). Krijimi i hijeve është bërë me harduerin pixel shader. Krijimi i hijeve vertex
mund të percaktojë një ngjyrë për secilin vertex, por ngjyra i aplikohet pikselëve të
trekëndëshit më vonë. Faza e ndërtimit të trekëndëshit më tej krijon ekuacione për skajet që
përdoren për të futur ngjyrat dhe të dhënat tjera të vektorit (siç janë koordinatat e ndërtimit)
rreth pixeleve që preken nga trekëndëshi. Faza Raster në figurën 4 determinon pikselat që i
përmban secili trekëndësh. Për gjithë këto piksela kjo fazë fut vlerat e nevojshme për
hijëzimin e pikselit, përfshirë edhe ngjyrën, pozitën, dhe pozitat që do të
ngjyrosen(hijëzohen) në pixel. Faza shader në figurën 4 determinon ngjyrën përfundimtare
të çdo pikseli. Kjo mund të arrihet si rezultat i kombinimit të disa teknikave: interpolimi i
ngjyrave të vertex, reflektimet etj.
Shumica e efekteve që i bëjnë imazhet e ofruara më të vërteta reale janë të inkorporuara në
fazën e hijëzimit. Figura 5 ilustron cilësin e hartimit(texture mapping), një ndër fazat e
fuksionimit të hijezimit. Tregon një shembull në të cilin harta e botës është hartuar në një
sferë. Sfera është përshkruar si një koleksion i madh i trekëndëshave. Edhe pse faza e
hijezuese duhet të performojë vetëm në një numër të vogël të kalkulimit për transformimin
e koordinatave për të identifikuar koordinatat e sakta te të cilat do të vizatohet imazhi.

5

Figura 5: Shembulli i hartës së botës[2]

Faza raster operation(ROP) në figurën 5 performon operacionet e fundit raster në pixela. Në
fund, frame buffer interface (FBI) në figurën 4 menaxhon leximet e memories dhe i
shkruan në ekranin frame buffer memory. Për paraqitje të imazheve me rezolucion të madh,
kërkohet një bandwith i madh për t'iu çasur frame bufferit. Një bandwith i tillë arrihet me
anë të dy strategjive. Një është qe tubacionet(pipeline) tipike të grafiqeve të përdorin
dizajne speciale të memories që sigurojne një bandWIDTH më të lartë se sa memoria e
sistemit. Se dyti FBI-ja të menaxhon kanale me memorie të shumfishtë të cilët në të njëjtën
kohë lidhen me memory_banks të shumtë. Për të krijuar memorie të tilla me BandWIDTH
të madh vazhdojnë edhe këto ditë dhe është bërë një ndër tiparet me të dalluara të
dizajnimit modern GPU.

6

Figura 6: Shembull i operacioneve të ndryshme[3]

2.3

Zhvillimi i grafiqeve real-time të programueshëm

Në vitin 2001, NVIDIA GeForce 3 hedhi hapin e parë drejt arritjes së një programimi të
vërtetë të përgjithshëm shader. Figura 7 tregon një shembull se si një tubacion i
programueshëm e angazhon një procesor të vertex dhe një procesor fragment (pixel).
Procesori i programueshëm vertex ekzekuton programet të destinuara tek faza shader e
vertex, dhe procesori i programueshëm fragment ekzekuton programet të destinuara tek
faza piksel shader. Ndërmjet këtyre fazave të grafiqeve me tubacion të programueshëm janë
me dyzina faza të funksioneve fikse që performojnë detyra të definuara shumë-mirë me
efikasitet më të madh sesa një procesor i programueshëm. Për shembull, ndërmjet fazës së
procesimit vertex dhe fazës së procesimit piksel(fragment) është rasterizer, një makinë
shumë komplekse që vendos saktësisht cilët pixel shtrihen tek cilët kufijtë primitive
gjeometrike. Së bashku, përzierja e fazave të funksioneve të programueshme me
funksionet-fikse është dizajnuar të balancoj punën ekstreme të përdoruesit mbi algoritmet e
vizatimit (rendering) dhe janë shumë më të fshehtë për memorien[1].

7

Figura 7: Shembull i procesorit të ndarë vertex dhe atij fragment në grafiqet e
programueshëm

2.4

Grafiqet e unifikuara dhe procesorët llogaritës

E prezantuar në vitin 2006, GeForce 8800 GPU hartoj fazat e ndara të grafiqeve në një varg
përpunues të unifikuar. Tubacioni logjik i grafiqeve është fizikisht një shteg ricirkulues që
viziton këta procesorë tri herë, me më shumë funksione-fikse në çdo vizitë. Kjo është e
ilustruar në figurën 8.
Ky varg i unifikuar përpunues lejon ndarje dinamike të hijezimeve vertex, përpunimit
gjeometrik dhe përpunimit të pikselave. Sepse algoritmet e ndryshme pasqyrojnë ngarkesa
të ndryshme në mesin e tri fazave të programueshme, ky unifikim lejon që pellgu i njëjtë i
burimeve të ekzekutimit të ndahet në mënyrë dinamike në mënyra të ndryshme tek fazat e
tubacionit dhe të arrij një balancë më të mire të ngarkesës.

8

Figura 8: Vargu i bashkuar i procesorëve të programueshëm në grafikën e
GeForce 8800 GTX[2]

2.5

GPGPU: Një hap i ndërmjem

Gjersa dizajnet harduerike të GPU-s zhvillohen drejt procesorëve më të unifikuar, ata
gjithnjë e më shumë i ngjasojnë kompjuterëve paralelë me performancë të lartë.
Përderisa DirectX 9 GPU-t nisen të përdoren, disa hulumtues e vërejtën përformancën të
pashfrytëzuar të GPU-s dhe filloi eksplorimi i përdorimit të GPU-s për të zgjidhur
problemet e ndryshme ingjinierike e llogaritjet-intenzive shkencore. Sidoqoftë, DirectX 9
GPU ishte dizajnuar vetëm t'i përmbush karakteristikat e kërkuar nga API. Për t'iu qasur
resurseve llogaritës, programerit i duhej të përpunonte problemin e tij/saj në operacione në
gjendje të pastër grafike, ashtu që llogaritjet mund të kryen përmes OpenGL apo DirectX
API.

2.5.1 Programimi me GPU

Gjersa zhvillohej arkitektura Tesla_ për GPU, NVIDIA pa që dobia e saj do të jetë shumë
më e madhe nëse programerët do të mendonin GPU-n si një procesor. NVIDIA zgjedhi një

9

çasje të programimit ku programerët do të deklarojnë në mënyrë eksplicite aspektin e të
dhënave paralele të punë së tyre.
Procesorët shader (hijezimit) u bën plotësishtë procesorë të programueshëm me instruction
memory të madh, instruction kesh, dhe instruction sequencing control logic.
NVIDIA shtoi leximin e memories dhe ruajtjen e instruksioneve me bajta të rastësishëm të
afta për të mbështetur kërkesat e programeve të përpiluara në C. Për programerët e
aplikacioneve tjera (jo grafike), arkitektura e Tesla GPU paraqiti një model më të
përgjithshëm për programim paralel me hierarki të thread-ave paralel, sinkronizimin e
pengesave, dhe operacionet atomike për të dërguar dhe menaxhuar punët me llogaritje
paralele.
NVIDIA gjithashtu zhvilloi CUDA C/C++ kompajlerin, librarit dhe softuerin ekzekutues që
t'ia mundësoj programerëve qasjen pa vështirësi në modelin e ri të llogaritjes të dhënaveparalele dhe zhvillimit të aplikacioneve. Programerëve nuk i nevojiten më përdorimet e API
për t’iu çasur mundësisë së llogaritjes paralele të GPU-ve.

2.6

GPU-t si kompjuter paralelë

Trajektorja e multi_core procesorëve kërkon të mbajë shpejtësinë e ekzekutimit në
programet vijuese derisa të bëhet kalimi në më shumë bërthama. Procesorët

shumë-

bërthamshme filluan si procesorë me dy bërthama, ky numër shkoj duke u rritur për dyfish
gjatë çdo gjenerate të re. Një shembull i tanishëm është ai i fundit: INTEL_CORE_i7
mikroprocesori, i cili ka katër bërthama procesuese, ku secili prej tyre është OOE (Out-oforder), ku mikroprocesori mbështet hyperthreading dhe është i dizajnuar të maksimizojë
shpejtësinë e programeve vijuese. Në të kundërtën, trajektorja e many-core fokusohet më
shumë në ekzekutimet nëpërmjet aplikacioneve paralele. Many-core filluan si një numër i
madh i bërthamave më të vogla, edhe këtu numri i bërthamave u dyfishua gjatë secilës
gjeneratë në vijim. Shembull i tanishëm është NVIDIA_GeForce_GTX 280 GPU me 240
bërthama, ku secila prej tyre është multithread_in_order.

10

Procesorët many-core, në veçanti GPU-t kanë udhëhequr garën e performancës së pikëslundruese (floating-point) që nga viti 2003. Ky fenomen është ilustruar në figurën në vijim.

Figura 1: Dallimi i performancës në mes GPU-s dhe CPU-s gjatë viteve

Mund të shtrohet pyetja pse qëndron ky dallim aq i madhë ndërmjet many-core Gpu-s dhe
procesorit gjeneral multi-core CPU. Përgjigjja qëndron në dallimet tek filozofitë
fundamentale të dizajnimit të këtyre dy lloje të procesorëve, siq është e ilustruar në figurën
2.

Figura 2:

CPU-të dhe GPU-të kanë filozofi krejtësisht të ndryshëm të

dizajnimit[1]

11

Dizajni i CPU-s është optimizuar që të performoj kodet sekuenciale. Mundëson përdorimin
e një kontrolli logjik të sofistikuar për të lejuar udhëzimet nga një thread i ekzekutueshëm,
ta ekzekutoj në mënyrë paralele duke ruajtur shfaqjen e ekzekutimit vijues. Më e
rëndësishmja, memoria e lartë cache siguron t’i zvogëloj intruksionet dhe çasjen në të
dhëna në aplikacionet e mëdha dhe komplekse. As kontrolla logjike e as memoria cache
nuk kontribuojnë në shpejtësinë e kulmit (peak) të llogaritjes. Që nga viti 2009
mikroprocesorët me qëllim-të-përgjithshëm multicore kanë dizajnuar katër qendra
procesuese për të shpërndarë një performancë të fortë për kodet sekuenciale.
Memoria bandWIDTH është një qështje tjetër e rëndësishme. Çipat e grafikës kanë operuar
përafërsisht 10 herë më shumë në bandWIDTH në krahasim me CPU-t të asaj kohe. Nga
fundi i vitit 2006, GeForce_8800GTX, ose thjeshtë G80 ishte në gjendje të bartë të dhëna
rreth 85 gigabajt per second (GB/s) brenda dhe jashtë memories kryesore dinamike
(DRAM). Më e fundit është NVIDIA_GT200 çip me kapacitet 150 GB/s.
Filozofia e dizajnimit të GPUs është formuar nga rritja e shpejtë e industrisë së lojrave, e
cila ka presion të madh ekonomik për mundësinë e të performuarit dhe llogaritjes së
pikave-lundruese për video imazhe në lojërat e avancuara.
Duhet të jetë e qartë që GPUt janë të dizajnuara si makina numerike kompjuterike, dhe nuk
do të performojnë mirë në disa fusha të cilët CPU-t janë të dizajnuara të performojnë,
kështu që duhet të dijmë që në shumicën e aplikacioneve do të përdoren të dyjat CPU dhe
GPU, duke i ekzekutuar pjesët sekuenciale në CPU dhe pjesët numerike në GPU. Kjo është
arsyeja se pse modeli programues CUDA (Compute Unified Device Architecture) i
prezantuar nga NVIDIA në vitin 2007, është dizajnuar të mbështet bashkimin e CPU/GPU
në ekzekutimin e një aplikacioni. Megjithatë një tjetër gjë e rëndësishme në zgjedhjen e një
procesori për ekzekutimin e aplikacioneve të llogaritjeve numerike është mbështëtja tek
Instituti i Energjisë dhe Ingjinierisë Elektronike (IEEE) për standardin e pikave lundruese.
Gjerë në vitin 2006, çipet grafike ishin shumë të vështira për tu përdorur, sepse
programuesit duhej të përdorin API funksionet për t’u qasur në bërthamat e procesorit, që
do të thotë se teknikat OpenGL ose Direct3D kane qenë të nevojshme për t’i programuar
këto çipa. Kjo teknikë është quajtur GPGPU (General-purpose programming using a
graphics processing unit), pra programimi për qëllime të përgjithshme që e përdor njësinë
12

procesuese grafike. Madje edhe me një nivel më të lartë të programimit, kodi themelor
është akoma i kufizuar nga API. API-t në një mënyrë kufizojnë llojet e aplikacioneve që
dikush mund të shkruaj për këto çipa.
Çdo gjë ndryshoi në vitin 2007 me publikimin e CUDA (NVIDIA 2007)[11]. NVIDIA në
fakt e përshkroi sipërfaqen e silikonit në mënyre që të ndihmojë në lehtësimin e
programimit paralel, kështu ky hap nuk paraqet ndryshim vetëm në softuer por edhe në
harduer ku një shtesë iu shtua çipit. Në G80 dhe çipet e tij të suksesshem për programim
paralel, programet e CUDA-s më nuk shkuan nëpërmjet të interfejsave grafikë. Në vend të
kësaj, interfejsi i krijuar për programim paralel në çipin me silikon i përgjigjet kërkesave së
programeve të CUDA-s. Për më tepër të gjitha shtresat e softuerit janë ribërë, kështu që
programerët mund të përdorin mjetet e gjuhëve programuese të njohur për ta C/C++.
2.7

Arkitektura e GPU-së moderne

Figura 3 paraqet arkitekturën e një Cude tipike. Është e organizuar në mënyre të një vargu
ekzekutuesish multiprocesorësh (Streaming_Multiprocessors-SMs). Në figurën3, dy SMs
formojne një kub, sidoqoftë numri i SMs-ve në kub ndryshon prej një gjenerate të CUDA
GPU-s në tjetrën. Poashtu secili SM në figuren 3 ka numrin e Streaming_processors (SP) të
cilët i përdorin bashkë kontrollin logjik si dhe kesh instruksionet. Së fundmi secila GPU
vjen deri më 4 gigabajt GDDR(graphic double data rate) DRAM, të referuara si memorie
globale. Këto GDDR DRAM-s ndryshojnë nga DRAM-et e zakonshëm të pllakës amë CPU
për këtë këta në thelb përdoren si memorie të përkohshme që shërbejnë për grafiqe. Për
aplikacionet grafike, ata mbajnë imazhe të videove dhe informacione tjera me cilësi tredimensionale (3D).[11]

13

Figura 3: Arkitektura e GPU-s me mundësi të CUDA programimit[1]

2.8

Gjuhët programuese paralele dhe modelet

Shumë nga gjuhët dhe modelet programuese paralele kanë qenë të propozuara qysh në
dekadat e hershme (Mattson 2004). Disa të cilat janë përdorur më gjërësisht janë Message
Passing Interface(MPI) për një programim të shkallëzuar dhe OpenMP_ për memorie të
përbashkët në sistemin multiprocesorë. MPI është një model ku nyjet programuese në grup
nuk e ndajnë memorien (MPI 2009), e gjithë ndarja e të dhënave duhet të bëhet me anë të
një mesazhi të saktë kalues. MPI ka qenë e suksesshme dhe ka pas një performancë të lartë
në fushën llogaritjeve shkencore. Aplikacionet e shkruara në MPI dihen që kanë punuar me
sukses në sistemet kompjuterike për grumbullim të nyjeve, duke arritur në një numër me
më shume se 100.000 nyje. Mundi që kërkohet për të mbajtur një aplikacion në MPI, mund
të jetë tepër i lartë për shkak të mungesës së memories të përbashkët për llogaritje të
nyjeve. CUDA, në anën tjetër siguron memorie për ekzekutimet paralele nga GPU për ta
zgjidhur këtë vështirësi. Mirëpo për komunikim mes CPU dhe GPU, CUDA siguron një
14

memorie shumë të limituar. Programerët kanë nevojë të menaxhojnë transferin e të dhënave
ndërmjet CPU-s dhe GPU-s në të njëjtën mënyrë si ’one-sided message passing’, kjo
mundësi ka munguar në MPI e cila ka qenë historikisht e konsideruar si një dobësi e madhe
e MPI-s.
OpenMP - mbështet memorien e përbashkët, kështu që ofron perparësi të njëjta si të
CUDA-s në programim, gjithsesi nuk ka qenë në gjendje të bëj shkallëzimin në mes të
qindra nyjeve programuese si pasojë e kostos operative të menaxhimit dhe kërkesave
koherente të harduerit. Aspektet e CUDA-s janë të ngjajshme me të dy MPI dhe OpenMP
në atë që programuesi menaxhon konstruktet e kodit paralel. Megjithatë hartuesit e
OpenMP bëjnë më tepër menaxhimin e automatizimit në ekzekutimet paralele.
Kohëve të fundit, disa aktor të mëdhenjë të industrisë, duke përfshirë APPLE, INTEL,
AMD/ATI, dhe NVIDIA, kanë zhvilluar bashkarisht një model programimi të standardizuar
të quajtur OpenCL_(Khronos 2009). I ngjashëm me CUDA-n, modeli programues OpenCL
karakterizohet me zgjerimin e gjuhës programues API për t'i lejuar programuesit që të
menaxhojnë paralelizimin dhe shpërndarjen e të dhënave në procesorët masivisht paralel.
OpenCL është një model i standardizuar,

aplikacionet e zhvilluara në OpenCL

funksionojnë pa modifikim në të gjitha procesorët që mbështesin zgjerimin e gjuhës
OpenCL dhe asaj API.[1]

15

3 Deklarimi i Problemit
Tradicionalisht softweri është shkruajtur per llogaritje seriale, i cili eshte egzekutuar në një
kompjuter me një procesor dhe se instruksionet jane egzekutuar njëri pas tjetrit dhe se
vetëm një instruksion është egzekutuar në të njejtën kohë. Ndërsa në rastinë me të thjshtë
llogaritja paralele(parallel computing) njëkohësisht përdor burime të shumta llogaritese për
të zgjidhur një problem kompjuterikë duke përdor dhe shumë CPU-ve, instruksionet
egzekutohën njëkohësisht në CPU të ndryshme.
Cuda është platform e programimit paralel e zbuluar nga NVIDIA e cila mundëson rritje
dramatike në llogaritjet e performancës kompjuterike duke përdor fuqinë e njësisë
përpunuese grafike(GPU) më posht po listomi disa nga shembujt e përdorimet e CUDA-së
në lëmi të ndryshme:

Identifikimi i pllakave të mshefta në artirie:
Sulmet e zemrës janë shkaku kryesor i vdekjeve në mbarë botën. Inxhinierër e Harvardit,
Harvard Medical School dhe Brigham dhe Spitalin e Grave janë bashkuar për të përdorur
GPU për të simuluar qarkullimin e gjakut dhe për të identifikuar pllakat e fshehura arteriale
pa teknika invasive imazhit ose kirurgji eksploruese.

Analiza e trafikut ajor:
Sistemi Kombëtar i Hapësirës Ajrore në SHBA menaxhon koordinimin kombëtar të fluksit
në trafikut ajror. Modelet kompjuterike ndihmojën në identifikimin e mënyrave të reja për
të lehtësuar bllokimet e trafikut dhe lëvizshmërin efikase. Duke përdorur fuqinë
kompjuterike e GPU-së, një ekip në NASA arritën një rritje të lartë të performancës, duke
reduktuar kohën e analizës nga dhjetë minuta për tre sekonda.

16

Vizualizimi i molekulës:
Simulimi molekular i quajtur NAMD (nanoscale molecular dynamics) arrinë performancë të
lartë me anë të GPU-së, shpejtësia është rrezultat i arkitekturës paralele të GPU-së dhë
përdorimit të veglave të CUDA-së(CUDA Toolkit).

17

4 Metodologjia
Lëmia e programmit paralel është një lëmi mjaftë e gjërë dhe vazhdon të zgjerohet edhe në
ditët e sotme. Është numri i madh i hulumtuesve nga fusha të ndryshme studimi të cilët
kanë interes në hulumtimin e programit paralel. Për të realizuar këtë punim diplome është
përdorur Metodologjia e analizës së literaturës së shfletuar nga lëmia e programit paralel
qoftë ajo e botuar në libra ose e cila gjendet në Internet.

18

5 Platforma për procesim paralel

5.1

Programimi në CUDA

Për programerët në CUDA, sistemi llogaritës përbëhet nga hosti që është CPU e
zakonshme, si psh mikroprocesorët Intel të kompjuterëve personal të sodit, dhe prej një apo
më shumë pajisjeve të tjera, të cilët janë procesorë paralel që ngërthejnë në vete numër të
madh të njësive llogaritëse aritmetike logjike. Në aplikacionet moderne softuerike, seksioni
i programit shpesh ekspozon një sasi të pasur të të dhënave paralele, gjë që mundëson që
shumë llogaritje aritmetike të ekzekutohen njëkohësisht në mënyrë të sigurtë. Cuda i
përshpejton ekzekutimet e këtyre aplikacioneve duke pranuar numër të madhë të të dhënave
paralele. Pasi që paralelizimi i të dhënave luan një rol të rëndësishëm në programimin
Cuda, së pari do të diskutojmë rreth këtij koncepti para se t'i sqarojmë karakteristikat bazike
të Cuda-s.

5.1.1 Paralelizimi i të dhënave

Shumica e aplikacioneve softuerike që përpunojnë numër të madh të të dhënave si rrjedhim
kërkojnë kohë të gjatë për ekzekutimin e tyre në kompjuterët e sodit. Imazhet dhe videot
janë fotografi të çastit ku foto të ndryshme kapen në mënyrë të njëpasnjëshme, të pavarur
nga njëratjetra. Pra, këso lloj të të dhënave që mund të vlerësohen si hapa të pavarur në
kohë të shkurta janë themelet e paralelizimit të të dhënave në këto aplikacione.
Paralelizimi i të dhënave i referohet programeve që kanë mundësi të performojnë shumë
operacione aritmetike në mënyrë të sigurtë dhë njëkohësisht në strukturën e të dhënave. Do
ta ilustrojmë këtë koncept të paralelizimit të të dhënave me anë të prodhimit të matricave
(shembulli në figurën 9). Në këtë shembull, çdo element i matricës P gjenerohet duke e
prodhuar matricën M me matricën N. Duke ditur rregullat e shumëzimit të matricave

19

shohim se çdo shumëzim i llogaritur për ta gjetur elementin përkatës të matricës P mund të
llogaritet në kohë të njëjtë.

Figura 9: Paralelizimi i të dhënave në shumëzimin e matricave[2]

Që do të thotë që asnjë nga rezultatet e marra nuk do të ketë efekt në rezultatet tjera, pra
janë të pavarura nga njëra tjetra. Për matrica të mëdhenjë numri i shumëzimeve të llogaritur
mund të jetë shumë i madh, prandaj shumëzimi i këtyre matricave mund të ketë sasi të
madhe të paralelizimit të të dhënave. Duke i ekzekutuar këto llogaritje në mënyrë paralele
CUDA dukshëm i përshpejton këto në krahasim me CPU-n tradicionale.[12]

5.1.2 Struktura e programeve në CUDA

Programet në Cuda përbëhen nga një apo më shumë faza që ekzekutohen ose në host (CPU)
apo në device si psh GPU-ja. Fazat që shfaqin pak apo aspak paralelizëm të të dhënave
implementohen në kodin për host. Ndërsa fazat që kanë sasi të madhe të paralelizimit të të
dhënave implentohen në kodin për device. Cuda është program që përfshin të dy këto kode
për host dhe device. Kompajleri i Nvidia_C (nvcc) i ndan këto dyja gjatë procesit të
kompajlimit. Host kodi është kod i ANSI C kodit, edhe më tej kompajlohet me standardet C
të kompajlimit dhe ekzekutohet si proces i zakonshëm në CPU. Ndërsa device kodi është i
shkruar në ANSI C të zgjeruar me fjalë kyçe për t’i etiketuar funksionet për të dhënaparalele, me funksione kernel të shoqëruar me strukturën e të dhënave të tyre. Device kodi
më tej kompajlohet nga NVCC dhe ekzekutohet në GPU. Në situata kur nuk ka pajisje

20

tjetër në dizpozicion apo kernel është më i përshtatshëm që të ekzekutohet në CPU,
programeri mund të zgjedh që t’i ekzekuton këto kernel në CPU duke përdorur
karakteristikat që ekzistojnë në SDK (softëare development kit) të CUDA-s apo të
MCUDAs |Stratton 2008| .
Funksionet kernel zakonisht gjenerojnë një sasi të madhe të thread-ave që mundësojnë
paralelizimin e të dhënave. Në shembullin e shumëzimit të matricave, i tërë procesi i
njehsimit të shumëzimit të matricave mund të implementohet si funksion kernel ku secili
thread përdoret për të llogaritur një element të matricës së fituar P. Në këtë shembull, numri
i thread-ave të përdorur nga kernel është funksioni i për dimensionin e matricës. Për
shumëzimin e matricave me 1000 shtylla dhe 1000 reshta funksioni kernel që përdor një
thread për ta njehsuar një element të P do t’i gjeneron 1000000 thread-a kur të thirret.
CUDA threads janë më të vegjël në krahasim me CPU thread-s.
Ekzekutimi i një CUDA programi tipik ilustrohet në figurën 10. Ekzekutimi fillon me
ekzekutime në host (CPU), kur të thirret funksioni kernel, ekzekutimi kalon në device
(GPU), ku gjenerohen një numër i madh i thread-ave për të krijuar avantazh nga sasia e
bollshme e paralelizimit të të dhënave.

Figura 10: Ekzekutimi i një CUDA programi[2]

Të gjithë thread-at që gjenerohen nga kernel gjatë kërkesës së bashku quhen grid(rrjet).
Figura 10 paraqet ekzekutimin e dy rrjeteve të thread-s. Kur gjithë thread-s të kernel
kompletojnë ekzekutimin e tyre, rrjeti korrespondues ndërpritet, dhe ekzekutimi vazhdon në
host deri sa thirret ndonjë kernel tjetër.[1]

21

5.1.3 Shembulli i shumëzimit të matricave

Tani do ta sqarojmë shembullin që konkretisht ilustron strukturën e Cuda programeve.
Figura 11 paraqet një funksion të thjeshtë për shumëzimin e matricave. Për hirë të
thjeshtësisë, do të supozojmë që matricat janë katrore, dhe dimenzioni i secilës matricë do
të specifikohet me parametrin WIDTH. Programi kryesor së pari ia ndan matricat M, N, dhe
P memories host dhe pastaj i performon I/O që të lexon në matricat M dhe N (Pjesa 1).
Këto janë operacione ANSI C, nuk do ta shqyrtojmë kodin aktual për t’u mos u zgjeruar
shumë. Ngjashëm, pas përfundimit të shumëzimit të matricave, Pjesa 3 e funksionit kryesor
performon I/O që ta shkruan matricën e fituar P dhe ta liron memorjen e ndarë për këto
matrica më parë. Do të ndalemi më shumë në Pjesën e 2 e cila është pjesa kryesore e
shembullit tonë.

int main(void) {
1. // Allocate and initialize the matrices M, N, P
// I/O to read the input matrices M and N
...
2. // M*N on the device
MatrixMultiplication(M, N, P, WIDTH);

3. // I/O to write the output matrix P
// Free matrices M, N, P
...
return 0; }

Figura 11: Funksioni kryesor i shembullit të shumëzimit të matricave

Kjo e thirrë funksionin MatrixMultiplication(), që ta kryen shumëzimin e matricave në
device. Para se të sqarojmë si ta përdorim CUDA device që ta ekzekutojm funksionin për

22

shumëzimin e matricave, së pari t’ia hedhim një shikim se si funksionon ajo mënyra
tradicionale vetëm me CPU, për ekzekutimin e këtij funksioni. Versioni i thjeshtë i
funksionit për shumëzimin e matricave paraqitet në figurën 12.
Funksioni MatrixMultiplication() implenton një algoritëm të drejtpërdrejtë që përbëhet prej
tre cikleve. Ku cikli më i thellë FOR iteron në variablën k dhe lëviz rreth një rreshti të
matricës M dhe një shtylle të matricë N. Ky cikël kalkulon një element (dot product) të
rreshtit së matricës M dhe një të shtyllës së matricës N, kështu gjeneron një element të
matricës P. Menjëherë pas këtij cikli, elementi i gjeneruar i P shkruhet në matricën P.
Indeksi i përdorur për t’u qasur në matricën M në këtë cikël më të thellë është i*WIDTH+k.
Kjo është arsyeja që elementet e matricës M janë të futur në memorien e sistemit që qasje
në to bëhet me adresa lineare. Çdo lokacion në memorien e sistemit ka një adresë që është
ndërmjet 0 deri në atë më të madhen. Për programerët në C, vendosja e matricave 2
dimensionale në këto memorie me adresa lineare bëhet duke u bazuar në të ashtuquajturën
marrëveshjen e rreshtit-kryesor (row major convention), të ilustruar në figurën 13. Të gjitha
elementet e rreshtit vendosen në mënyrë të njëpasnjëshmë në memorie, rreshtat pastaj
vendosen njëra pas tjetrës. Figura 13 tregon shembullin se si matrica me dimension 4x4
vendoset në 16 lokacione të njëpasnjëshme, me të gjithe elementet e rreshtit 0 së pari të
pasuar me 4 elementet e rreshtit 1 e kështu me rradhë.
void MatrixMultiplication(float* M, float* N, float* P, int WIDTH)
{ for (int i = 0; i < WIDTH; ++i)
for (int j = 0; j < WIDTH; ++j) {
float sum = 0;
for (int k = 0; k < WIDTH; ++k) {
float a = M[i * WIDTH + k];
float b = N[k * WIDTH + j];
sum += a * b;

}

P[i * WIDTH + j] = sum;
} }
Figura 12: Funksion i thjeshtë i shumëzimit të matricave vetëm me host kodin[3]

23

Figura 13: Vendosja e elementeve të vargjeve dy-dimenzionale në atë lineare[3]

Prandaj, indeksi për elementin e M në rreshtin i dhe shtyllën k është i*WIDTH+k. Termi
i*WIDTH i kalon të gjitha elementet e rreshteve që gjenden para rreshtit i. Termi k pastaj
zgjedh elementin përkatës në këtë seksion për rreshtin i.
Dy ciklet tjera të jashtme (i dhe j) në figurën 12 iterojnë bashkë nëpër të gjitha rreshtet e M
dhe gjitha shtyllat e N, çdo iterim e gjeneron një element të matricës P. Sistematikisht duke
iteruar të gjitha rreshtet e M dhe të gjitha shtyllat e N, funksoni gjeneron të gjitha elementet
e P. Tani e kemi funksionin e kompletuar për shumëzim të matricave që ekzekutohet vetëm
në CPU.
Supozojmë që programeri tani do ta kthen këtë funksion të shumëzimit të matricave në
CUDA. Mënyra për ta bërë këtë është modifikimi i funksionit MatrixMultiplication() në atë
mënyrë që ta dërgon pjesën më të madhe të llogaritjeve në CUDA device. Struktura e
funksionit të korrigjuar është paraqitur në figurën 14. Pjesa e parë e funksionit ia ndan
GPU-së memorien për t’i mbajtur matricat M, N, dhe P dhe i kopjon këto matrica në këtë
memorie. Pjesa e dytë e funksionit bën thirrje për një kernel që të nis ekzekutimet paralele
të shumëzimit të matricave aktuale në device. Pjesa e tretë kopjon matricën e fituar P nga
device memoria në host memorie. Funksioni i korrigjuar MatrixMultiplication() në thelb
është mjet transferues që i dërgon të dhënat në device, aktivizon kalkulimet në device, dhe i
merr rezultatet nga device. Kjo veprohet në atë mënyrë ashtu që programi kryesor nuk ka
nevojë as të jetë i vetëdijshëm që shumëzimi i matricave është kryer në device. [12]

24

void MatrixMultiplication(float* M, float* N, float* P, int WIDTH)
{
int size = WIDTH * WIDTH * sizeof(float);
float * Md, Nd, Pd;
...
1. // Allocate device memory for M, N, and P
// copy M and N to allocated device memory locations
2. // Kernel invocation code - to have the device to perform
// the actual matrix multiplication
3. // copy P from the device memory
// Free device matrices
}
Figura 14: Korrigjimi i host kodit të MatrixMultiplication() ku dërgon shumëzimin
e matricës në device

5.1.4 Memoriet device dhe transferimi i të dhënave

Në CUDA, host dhe device kanë hapësira të ndara të memories. Kjo reflekton realitetin që
device janë kartela tipike harduerike që kanë memorien e tyre DRAM. Për shembull,
NVIDIA T10 processor ka deri 4 GB DRAM. Në mënyrë që të ekzekutohet kernel në
device, programeri duhet ta alokon memorien në device dhe t’i transferon të dhënat me
vend nga host memoria në memorien e alokuar të device. Kjo i korrespondon pjesës së parë
të figurës 14. Ngjashëm, pas ekzekutimit në device, programerit i nevojitet t’i transferoj
rezultatet e fituara nga memoria device në memorien host dhe ta liron memorien e device
që nuk nevojitet më. Kjo i korrespondon pjesës së tretë të figurës 14. Sistemi Cuda është i
pajisur me API funksione që t’i performoj këto aktivitete në emër të programerit. Figura 15
paraqet një përmbledhje të modelit CUDA të memories për programerët që t’i sqaron

25

alokimet, lëvizjet, dhe përdorimin e tipeve të ndryshme të memories të device. Në fund të
figurës, shohim memorien globale dhe atë konstante. Këto janë memoriet që kodi host
mund të transferoj të dhëna në device dhe prej device. Memoria konstante lejon qasje
vetëm për lexim (read-only) të device kodit. Modeli i memories CUDA suportohet nga API
funksione që ndihmojnë CUDA programerët t’i menaxhojnë të dhënat në këto memorie.
Figura 16 paraqet API funksionin për alokimin dhe de-alokimin e memories globale të
device.

Figura 15: Pasqyra e modelit të memories së CUDA device[1]

Figura 16: Funksionet API të CUDA-s për menagjim memories globale[1]

26

Funksioni cudaMalloc() mund të thirret prej host kodit që ta alokojë një pjesë të memories
globale për një qëllim. Ekzistojnë ngjashmëri befasuese në mes të cudaMalloc() dhe
librarisë standarde C malloc(). Kjo është bërë me qëllim, CUDA në fakt është C me
zgjerime minimale.
CUDA përdorë librarin standarde të C të funksionit malloc() për të menaxhuar host
memorien dhe ia shton cudaMalloc() si ekstension libraris C runtime. Duke mbajtur
interfejsin sa më të ngjashëm të mundshëm me atë origjinalen C, CUDA minimizon kohën
që i nevojitet një programeri të C për t’i përdorur këto ekstensione.
Parametri i parë i funksionit cudaMalloc() është adresa e ndryshores treguese që duhet ta
tregon objektin e alokuar pas përfundimit të alokimit. Adresa e ndryshores treguese duhet të
jetë e tipit CAST TO (të hedhur) sepse funksioni pret një ndryshore treguese të
përgjithshme. Funksioni për alokim të memories është funksion i përgjithshëm që nuk është
i kufizuar për ndonjë lloj të caktuar të tipit të objekteve. Kjo adresë lejon që funksioni
cudaMalloc() të shkruan adresën e objektit të alokuar në ndryshoren treguese. Parametri i
dytë i funksionit cudaMalloc() e jep madhësine e objektit që do të alokohet, në bajta.
Përdorimi i këtij parametri është në përputhje me parametrin e madhësisë të funksionit
malloc() të C.[3]
Tani do ta përdorim një kodë të thjeshtë si shembull për ta ilustruar funksionin
cudaMalloc(), që paraqet vazhdimësinë e shembullit në figurën 14. Që të jetë më e qartë,
ndryshoren tregues do ta shënojmë me d në fund që të tregon se ndryshorja është përdorur
për të theksuar një objekt në hapësirën e memories device. Programeri kalon adresën e Md
si parametër të parë pasi ta hedh atë si ta pavlefshme, Md është treguesi që tregon regjionin
e memories globale në device të alokuar për matricën M. Madhësia e vargut të alokuar do
të jetë WIDTH*WIDTH*4. Pas llogaritjeve, thirret funksioni cudaFree() me treguesin Md
si e dhënë që ta liroj hapësirën e rezervuar për matricën M prej memories globale në device.
Të njëjtat procedura duhet të kryen edhe për ndryshoret tjera për funksionin e
MatrixMultiplication() me deklarime të njëjta për ndryshoren treguese Nd dhe atë Pd,
gjithashtu duke thirrur funksionin cudaMalloc() korrespondues.
Figura 14 përfundon me thirrjet që i bën funksioni cudaFree() për Nd dhe Pd. Në kohën kur
programi ka alokuar memorien globale të device për të dhënat, ai mund të kërkojë që të
27

dhënat të transferohen prej host në device. Kjo është e mundur duke thirrur një nga
funksionet e CUDA API, cudaMemcpy(), për t'i kryer këto transfere në mes të memorieve.
Figura 17 paraqet funksionin API për këso lloj transferesh. Funksioni cudaMemcpy() merr
katër parametra. Parametri i parë është treguesi për lokacionin destinues për operacionin e
kopjimit. Parametri i dytë tregon burimin e të dhënave që do të kopjohen. Parametri i tretë
specifikon numrin e bajtave që do të kopjohen. Ndërsa parametri i katërt tregon tipet e
memorieve të përfshirë në kopjim, nga memoria host në memorien host, nga memoria host
në memorien device, nga memoria device në memorien host, dhe nga memoria device në
memorien device. Për shembull, funksioni për kopjim të memorieve mund të përdoret për
të kopjuar të dhëna nga një lokacion i memories device në lokacion tjetër të memories
device. Duhet patur parasysh që cudaMemcpy() nuk mund të përdoret për të kopjuar
ndërmjet GPU-ve në sisteme me shumë GPU.
Për shembullin e shumëzimit të matricave, kodi host thirr funksionin cudaMemcpy() që t'i
kopjon matricat M dhe N nga memoria host në memorien device para se t'i shumëzoj ato, e
pastaj të kopjon matricën P nga memoria device në memorien host pasi të është kryer
shumëzimi.

Figura 17: Funksionet API të CUDA-s për transferim të të dhënave midis
memorieve[2]

28

Supozojmë që M, P, Md, Pd, dhe madhësia tashmë janë vendosur. Ndërsa dy konstantet
simbolike, cudaMemcpyHostToDevice dhe cudaMemcpyDeviceToHost, janë të njohur,
konstante të paracaktuara të mjedisit të programimit CUDA. Funksioni i njëjtë mund të
përdoret për të transferuar të dhëna në të dy drejtimet duke urdhëruar burimin dhe
destinacionin tregues të duhur dhe duke përdorur konstantet e përshtatshme për llojin e
transferimit:
cudaMemcpy(Md, M, size, cudaMemcpyHostToDevice);
cudaMemcpy(P, Pd, size, cudaMemcpyDeviceToHost);

Pra, programi kryesor në figurën 11 thirr funksionin MatrixMultiplication(), i cili gjithashtu
ekzekutohet në host. Ndërsa MatrixMultiplication() të paraqitur në figurën14, është
përgjegjës për të alokuar memorien device, për të performuar tranfere të të dhënave, dhe
aktivizuar kernelin që kryen shumëzimin e matricës aktuale. Shpesh këtij lloj host kodi i
referohemi si funksion cung (stub function) për thirrje të kernel-it. Pas shumëzimit të
matricës, funksioni MatrixMultiplication() gjithashtu kopjon rezultatet nga device në host.
Në figurën 18 e paraqesim funksionin MatrixMultiplication() më të plotësuar.

Duke krahasuar me figurën 14, funksioni i korrigjuar është komplet në pjesën e parë dhe
pjesën e tretë. Pjesa e parë alokon memorien device për Md, Nd, dhe Pd, homologët e
device të M, N, dhe P, dhe transferet M në Md dhe N në Nd. Këto kryen falë thirrjeve që i
bëhen funksioneve cudaMalloc() dhe cudaMemcpy().

29

void MatrixMultiplication(float* M, float* N, float* P, int WIDTH)
{
int size = WIDTH * WIDTH * sizeof(float);
float * Md, Nd, Pd;
1. // Transfer M and N to device memory
cudaMalloc((void**) &Md, size);
cudaMemcpy(Md, M, size, cudaMemcpyHostToDevice);
cudaMalloc((void**) &Nd, size);
cudaMemcpy(Nd, N, size, cudaMemcpyHostToDevice);

// Alocate P on the device
cudaMalloc((void**) &Pd, size);

2. // Kernel invocation code - to be shown later
...

3. // Transfer P from device to host
cudaMemcpy(P, Pd, size, cudaMemcpyDeviceToHost);
// Free device matrices
cudaFree(Md); cudaFree(Nd); cudaFree(Pd);
}
Figura 18: Funksioni i korrigjuar MatrixMultiplication()[2]

Pjesa e dytë thirr kernel të cilët do t'i diskutojmë më poshtë. Dhe pjesa e tretë lexon të
dhënat nga memoria device në memorien host ashtu që vlera do të jetë në dizpozicion për
funksionin main(). Ajo pastaj i liron Md, Nd, dhe Pd nga memoria device e cila kryet
përmes thirrjeve që i bëhen funksionit cudaFree().

30

5.1.5 Funksionet Kernel dhe Threading

Në CUDA, funksioni kernel specifikon kodin që do të ekzekutohet nga të gjitha thread-at
gjatë fazës paralele. Ngase të gjithë këto thread ekzekutojn kodin e njëjtë, programimi
CUDA është shembull i mirënjohur SPMD (Single Process, Multiple Data), të mënyrës së
programimit paralel <Atallah 1998>, mënyrë e popullarizuar e programimit për sistemet
masivisht paralele.
Figura 19 paraqet funksionin kernel për shumëzimin e matricave. Sintaksa është ANSI C
me disa zgjerime të dukshme. Së pari, ekziston një fjalë specifike kyçe e CUDA-s _global_
para deklarimit të funksionit MatrixMulKernel(). Kjo fjalë kyçe tregon që funksioni është
kernel dhe që mund të thirret nga funksionet host për të gjeneruar një rrjetë thread-ash në
device.
Në përgjithësi, CUDA i zgjeron deklarimet e funksioneve C me tre fjalë kyçe. Kuptimet e
këtyre fjalëve kyçe janë të përmbledhur në figurën 20. Fjala kyçe _global_ tregon që
funksioni që po deklarohet është funksion kernel i CUDA-s. Funksioni do të ekzekutohet
në device dhe mund të thirret prej host vetëm për të gjeneruar rrjet të thread-ave në device.
Përveq _global_, janë edhe dy fjalë kyçe tjera që mund të përdoren para deklarimit të
funksioneve. Figura 20 e përmbledh kuptimin e këtyreve fjalëve.[4]

31

// Matrix multiplication kernel - thread specification
__global__ void MatrixMulKernel (float*Md, float*Nd, float*Pd, int WIDTH)
{
// 2D Thread ID
int tx = threadIdx.x;
int ty = threadIdx.y;

//Pvalue stores the Pd element that is computed by the thread
float Pvalue = 0;

for (int k=0; k<WIDTH; ++k)
{
float Mdelement = Md[ty * WIDTH + k];
float Ndelement = Nd[k * WIDTH + tx];
Pvalue += Mdelement * Ndelement;
}
//Write the matrix to device memory each thread writes one element
Pd[ty * WIDTH + tx] = Pvalue;
}

Figura 19: Funksioni kernel i shumëzimit të matricave[2]

Ekzekutohet në:

Mund të thirret
vetëm nga:

__device__ float DeviceFunc()

device

device

__global__ void KernelFunc()

device

host

__host__ float HostFunc()

host

host

Tambela 1 : Shtesat e CUDA-s në deklarimet e C funksioneve[1]

32

Fjala kyçe _device_ tregon që funksioni që po deklarohet është funksion i CUDA device.
Funksioni device ekzekutohet në CUDA device dhe mund të thirret vetëm nga funksioni
kernel apo funksion tjetër të device. Fjala kyçe _host_ tregon që funksioni që po deklarohet
është funksion i CUDA host. Funksioni host është thjeshtë funksion tradicional i C
funksioneve që ekzekutohet në host dhe mund të thirret vetëm nga një funksion tjetër host.
Të gjithë funksionet në CUDA automatikisht janë funksione host nëse nuk kanë ndonjë nga
fjalët kyçe të CUDA në deklarimin e tyre.
Pra, programeri duhet të shton funksione kernel apo funksione device gjatë mbajtjes së
procesit, funksionet bazë do të jenë funksione host. T'i kesh të gjitha funksionet host si
default e shpëton programerin nga një punë e lodhshme e deklarimit të të gjithë
funksioneve. Duhet të dijmë që mund të përdorim edhe _host_ edhe _device_ në deklarim
të funksioneve. Ky kombinim shkakton që sistemi t'i gjeneron dy versione të të njëjtit
funksion. Njëra ekzekutohet në host dhe mund të thirret vetëm nga funksionet host. Dhe
tjetra ekzekutohet në device dhe mund të thirret vetëm prej device apo funksioneve kernel.
Kjo suporton përdorimin e përbashkët atëherë kur është nevoja që funksioni i kodit host të
ripërpilohet që të gjeneron version device.
Shumica e funksioneve të librarisë së përdoruesit ka mundësi të hyn në këtë kategori.
Ektensionet tjera të rëndësishme të ANSI C, në figurën 19, janë fjalët kyçe threadIdx.x dhe
threadIdx.y. Të gjithë thread-et ekzekutojn të njëjtin kod kernel. Duhet të jetë një
mekanizëm që t'i lejoj ata ta dallojnë veten dhe ta drejtojn drejt asaj pjese të strukturës të të
dhënave për të cilën janë dizajnuar të performojnë. Këto fjalë kyçe identifikojnë ndryshoret
e definuara më parë që lejojnë thread-et t'iu çasen regjistrit të harduerit në runtime që
sigurojnë koordinatat identifikuese për thread. Thread të ndryshem do të kenë vlera të
ndryshme në threadIdx.x dhe threadIdx.y ndryshoret e tyre. Shihet që koordinatat
reflektojnë në organizimin multidimensional të thread-ave. Një krahasim i shpejtë mes
figurës 12 dhe figurës 19 nxjerr në shesh një mprehtësi për funksionet kernel të CUDA.
Funksioni kernel në figurën 19 ka vetëm një cikël, e cila i korrespondon ciklit më të thellë
të figurës 12. Mund të shtrohet pyetja ku shkuan dy ciklet tjera, përgjigja është se dy cikle
tjera tashmë janë zëvendësuar me një rrjet të thread-ave. I gjithë forma e këtij rrjeti është
ekuivalent me dy ciklet tjera. Çdo thread në këtë rrjet (grid) i korrespondon njërit nga
33

iterimet e dy cikleve të më hershëm. Ndryshoret e ciklit të më hershëm i dhe j tani janë
zëvendësuar me threadIdx.x dhe threadIdx.y. Në vend se të përdoret cikli me rritjen e
vlerave të i dhe j në çdo iterim të ciklit, CUDA threading harduer gjeneron të gjitha
threadIdx.x dhe threadIdx.y vlerat për çdo thread.
Në figurën 19, çdo thread përdor threadIdx.x dhe threadIdx.y e vet për ta identifikuar
rreshtin e Md dhe shtyllën e Nd që të performon dot product operacionet. Duhet të jetë e
qartë që këto ndryshime thjesht luajnë rolin e ndryshoreve i dhe j, në figurën 16 ia kemi
atribuar ndryshoreve threadIdx.x dhe threadIdx.y ndryshoret tx dhe ty përkatësisht. Çdo
thread gjithashtu përdor vlerat e tij të threadIdx.x dhe threadIdx.y që ta përzgjedh elementin
Pd për të cilin është përgjegjës. Për shembull, Thread2,3 do t’i performon dot produktet në
mes shtyllës 2 të Nd dhe rreshtit 3 të Md dhe shkruan rezultatin në elementin (2,3) të Pd.
Në këtë mënyrë, thread-at kolektivisht gjenerojnë të gjithë elementet e Pd matricës.
Kur thirret apo nis një kernel, ai ekzekutohet si një rrjet paralel të thread-ave. Në figurën21,
nisja e Kernel 1 krijon Grid 1. Çdo CUDA thread grid zakonisht është komprometuar nga
mijëra e miliona GPU thread të lehta për thirrje të kernel-ëve. Krijimi i thread-ave të
mjaftueshëm për ta shfrytëzuar plotësisht harduerin shpesh kërkon sasi të madhe të
paralelizimit të të dhënave. Për shembull, çdo element i një vargu të madh mund të
llogaritet në thread të veçantë. Threads në grid janë të organizuar në hierarki dy-nivelesh,
ashtu siç janë ilustruar në figurën 21. Në realitet, një rrjet zakonisht do të përbëhet nga më
shumë thread-a. Në nivel të lartë, çdo rrjet përbëhet nga një apo më shumë thread blloqeve.
Të gjitha blloqet në rrjetë kanë numër të njëjtë të thread-ave. Në figurën 21, Grid 1 është i
organizuar si vargje 2x2 nga 4 blloqe. Çdo bllok ka koordinatat unike dydimensionale të
dhënë nga CUDA për fjalë kyçe specifike blockIdx.x dhe blockIdx.y. Të gjithë thread
blloqet duhet të kenë numër të njëjtë threadave të organizuar në mënyrë të njëjtë.

34

Figura 20: Organizimi i CUDA thread-ave[2]

Gjithë thread blloqet janë të organizuar si vargje tre-dimenzionale të thread-s me madhësi
totale deri në 512 thread. Koordinatat e thread-s në blloqe janë të definuar në mënyrë unike
nga tre thread tregues: threadIdx.x, threadIdx.y, dhe threadIdx.z. Jo të gjitha aplikacionet do
t’i përdorin të tre dimensionet e thread blloqeve. Në figurën 20, çdo thread është i
organizuar në 4x2x2 vargje tre-dimenzionale të thread-ave. Kjo ia jep Grid 1 në total
4x16=64 thread-a, e cila padyshim paraqet një shembull të thjeshtë.[7]
Në shembullin e shumëzimit të matricave, rrjeti thirret për ta njehsuar matricën e
shumëzuar. Kodi në figurën 19 nuk përdor ndonjë indeks blloku për t'iu çasur të dhënave
hyrëse dhe dalëse. Threads me vlerë të njëjtë threadIdx nga blloqe të ndryshme do të
përfundojnë duke iu çasur të dhënave të njëjtë hyrëse dhe dalëse. Si rezultat, kernel mund të
përdor vetëm një thread bllok. Vlerat e threadIdx.x dhe threadIdx.y përdoren vetëm për ta
organizuar bllokun në varg dy-dimenzional të thread-s. Për arsye që thread blloku mund të
ketë vetëm deri 512 thread, dhe çdo thread llogarit një element të matricës së prodhuar në
figurën 19, kodi mund të llogarit një matricë të prodhuar deri në 512 elemente. Kjo nuk
është e pranueshme, siç e sqaruam më parë, matrica e prodhuar duhet të ketë miliona
elemente në mënyrë që të ketë paralelizëm të mjaftueshëm të të dhënave që të përfitoj nga
35

ekzekutimi në device. Ky problem zgjidhet duke përdor blloqe të shumëfishta për të cilën
do të flasim në vijim.
Kur host kodi thërret një kernel, ai vendos rrjetin dhe dimenzionet e thread blloqeve në saje
të parametrave për konfigurim gjatë ekzekutimit. Kjo është e ilustruar në figurën22. Dy
ndryshore struct të tipit dim3 janë deklaruar. E para është për ta përshkruar konfigurimin e
blloqeve, të cilët janë të definuar si 16x16 grupe të thread-s. Ndryshorja e dyt, dimGrid,
përshkron konfigurimin e rrjetit. Në këtë shembull, ne kemi vetëm një bllok (1x1) në
secilën rrjet. Rreshti i fundit i kodit thërret kernel-in. Sintaksa e veçantë ndërmjet emrit të
funksionit kernel dhe parametrave tradicionale të C të funksionit është një CUDA
ekstension në ANSI C. Kjo siguron dimensionet e rrjetave në aspektin e numrit të blloqeve
dhe dimenzionit të blloqeve në aspektin e numrit të thread-ave.

// Setup the execution configuration
dim3 dimBlock(WIDTH, WIDTH);
dim3 dimGrid(1, 1);

// Launch the device computation threads!
MatrixMulKernel<<<dimGrid, dimBlock>>>(Md, Nd, Pd, WIDTH);
Figura 21: Shembulli i host kodit që nis një kernel

36

5.2

CUDA threads

Duke pasur parasysh që të gjithë threads në rrjet (grid) ekzekutojn funksionin e njëjtë
kernel, ata mbështeten në koordinata unike për ta dalluar veten prej threads-ave të tjerë dhe
për t’i identifikuar pjesët përkatëse të procesimit të të dhënave. Këto threads janë të
organizuar në hierarki dy nivelesh që përdorin koordinata unike blockIdx (për bllokimin e
indeksave) dhe threadIdx (për indeksat e thread-ave) të caktuar nga sistemi CUDA runtime.
BlockIdx dhe threadIdx shfaqen si built-in funksione, ku ndryshoret të para-inicializuara
mund të çasen brenda funksioneve kernel.
Kur një thread ekzekuton funksionin kernel, referencat për ndryshoret e blockIdx dhe
threadIdx kthejn koordinatat në thread. Ndryshoret shtesë built-in, si gridDim dhe
blockDim, sigurojnë dimenzionin e rrjetit dhe dimenzionin e secilit bllok.
Figura 23 shfaq një shembull të thjeshtë të ogranizimit të CUDA thread-ave. Rrjeti në këtë
shembull përmban N thread blloqe, secili prej tyre me vlerë blockIdx.x që shkon prej 0 deri
në N-1. Secili bllok, përmban M thread-a me vlerë threadIdx.x që shkon prej 0 deri M-1. Të
gjithë blloqet në rrjetë janë të organizuar si vargje një-dimenzionale, gjithashtu të gjithë
threads në secilin bllok janë të organizuar si vargje një-dimenzionale. Pra, çdo rrjet në total
përmban N*M threads.
Kutia e zezë e çdo threadi të bllokut në figurën 23 paraqet një fragment të kernel kodit.
Fragmenti i kodit përdor threadID = blockIdx.x * blockDim.x + threadIdx për ta
identifikuar pjesën hyrëse të të dhënave që duhen të lexohen dhe strukturën e pjesës dalëse
të të dhënave që duhet të shkruhet në to. Thread 3 i bllokut 0 ka vlerë threadID 0*M+3=3,
ndërsa thread 3 i bllokut 5 e ka vlerën 5*M+3.
Supozojmë që rrjeti ka 128 blloqe (N = 128) dhe secili bllok ka nga 32 thread-a (M=32).
Në këtë shembull, qasja në blockDim në kernel do të kthen si rezultat 32. Në total janë
128*32=4096 thread në këtë rrjetë. Ku thread 3 i bllokut 0 ka vlerën e thread-it 0*32+3=3,
ndërsa thread-i 15 i bllokut 102 ka vlerë të thread-it 3279. Shohim se çdo thread nga sa janë
gjithsej në këtë shembull 4096 kanë vlerën thread unike të tyre. Në figurën 23, kodi kernel
përdor ndryshoren threadID për indeksimin e vargjeve hyrëse (input) dhe atyre dalëse

37

(output). Nëse supozojmë që të dy vargjet janë deklaruar me 4096 elemente, atëherë çdo
thread do ta merr një nga elementet hyrëse dhe të prodhoj një nga elementet dalëse.
Në përgjithësi, rrjeti është i organizuar si vargje 2-dimenzionale të blloqeve. Çdo bllok
është i organizuar si vargje 3-dimenzionale të threadave. Organizimi i saktë i rrjeteve
determinohet nga konfigurimi i ekzekutimit të siguruar nga nisja e kernelit. Parametri i parë
i konfigurimit të ekzekutimit specifikon dimenzionet e rrjeteve në bazë të numrit të
blloqeve. Parametri i dytë specifikon dimenzionet e secilit bllok në bazë të numrit të
threadave. Çdo parametër i tillë është i tipit dim3, që në thelb është e strukturës C me tre
fusha të panënshkruar(unsigned) të plotë: x, y dhe z. Meqë rrjetet janë vargje 2D të
dimenzioneve të blloqeve, fusha e tretë e parametrit të dimenzionit të rrjetit injorohet. Host
kodi në vijim mund të përdoret për nisjen e një kernel organizimi i cili paraqitet në figurën
23.

Figura 22: Pasqyra e organizimit të CUDA thread-ave[2]

dim3 dimGrid(128, 1, 1);
dim3 dimBlock(32, 1, 1);
KernelFunction<<<dimGrid, dimBlock>>>( ..);
Dy deklarimet e para inicializojnë parametrat e ekzekutimit të konfigurimit. Meqë rrjeti dhe
blloqet janë vargje një-dimenzionale, përdoren vetëm dimenzionet e para të dimBlock dhe
dimGrid. Dimenzionet tjera vendosen si 1. Shprehja e tretë paraqet fillimin e kernel-it
aktual. Parametrat e konfigurimit ekzekutues janë mes <<< dhe >>>. Duhet ta dijmë se si

38

parametra mund të përdoren edhe vlera skalare nëse rrjeti apo blloku ka vetëm një
dimenzion. Psh. Rrjeti i njëjtë mund të fillon me një formulim :
KernelFunction <<<128, 32>>>(...);.
Vlerat e gridDim.x dhe gridDim.y mund të jenë nga 1 deri 65,535, këto vlera mund të
llogariten duke u bazuar në ndryshoret tjera gjatë kohës së fillimit të kernelit. Kur një
kernel niset, dimenzionet e tij nuk mund të ndryshojnë. Të gjithë thread-et në një bllok
përdorin vlerë të njëjtë të blockIdx. Vlera e blockIdx.x sillet mes 0 dhe gridDim.x-1, dhe
vlera e blockIdx.y sillet mes 0 dhe gridDim.y-1.
Figura 24 paraqet një rrjet të vogël 2D që nis me këtë host kod:
dim3 dimGrid(2, 2, 1);
dim3 dimBlock(4, 2, 2);
KernelFunction<<<dimGrid, dimBlock>>>(. . .);
Rrjeti përbëhet prej 4 blloqeve të organizuara në vargje 2x2. Secili bllok në Figurën 24
emërtohet me (blockIdx.x, blockIdx.y), psh. Block(1,0) ka blockIdx.x=1 dhe blockIdx.y=0.
Në përgjithësi, blloqet janë të organizuara në vargje 3D të thread-ave. Të gjithë blloqet në
rrjet kanë dimensione të njëjta. Çdo threadIdx përbëhet prej tre komponenteve: koordinatës
x threadIdx.x, koordinatës y threadIdx.y, dhe koordinatës z threadIdx.z. Numri i threads në
secilin dimenzion të një blloku specifikohet nga parametri i dytë konfigurues të dhënë në
nisje të kernel-it. Me kernel, këtij parametri konfigurues mund t’iu çasem si një ndryshore
të predefinuar struct, blockDim. Madhësia e një blloku është e limituar për 512 threads, me
një fleksibilitet për t’i shpërndar këto në tre dimenzionet derisa totali i threadsave nuk e
tejkalon 512. Psh. (512, 1, 1), (8, 16, 2), dhe (16, 16, 2) të gjitha këto janë vlera të lejuara
për blockDim, por (32, 32, 1) nuk është e lejuar për faktin se 32x32x1 = 1024 e cila tejkalon
totalin prej 512 threads.
Figura 24 gjithashtu ilustron organizimin e threads në një bllok. Në këtë shembull, secili
bllok është i organizuar në vargje prej 4x2x2 të threads. Pasi që gjithë blloqet në një rrjet
kanë dimenzion të njëjtë, do ta paraqesim vetëm një prej tyre.

39

Figura 23: Shembull multidimenzional i organizimit të rrjetit së CUDA-s[3]

Figura 23 zgjeron bllokun(1,1) që t’i paraqet 16 thread-sat. Psh. Thread (2, 1, 0) ka
threadIdx.x=2, threadIdx.y=1, dhe threadIdx.z=0. Të kemi parasysh se në këtë shembull
kemi 4 blloqe, secila prej tyre nga 16 thread-a, në total 64 thread-a në rrjet. Kemi përdorur
këtë numër të vogël që ta kemi ilustrimin më të thjeshtë, përndryshe një CUDA e
zakonshme përmban me mijëra e miliona threads.

40

5.2.1 Përdorimi i blockIdx dhe threadIdx

Nga pikëpamja e një programeri, funksioni kryesor i ndryshoreve blockIdx dhe threadIdx
është që t’i siguroj threads si një mjet për t’u dalluar mes vete kur ta ekzekutojn një kernel
të njëjtë. Një përdorim i zakonshëm i threadIdx dhe blockIdx është të determinon zonën e të
dhënave që ka për të punuar një thread. Këtë e kemi ilustruar me kodin e thjeshtë për
shumëzim të matricave në figurën 19, ku një cikël dot produkt përdorte threadIdx.x dhe
threadIdx.y për ta identifikuar rreshtin Md dhe shtyllën Nd në të cilën do të llogarisin. Një
nga limitimet që patëm në shembullin e shumëzimit të matricave ishte që ajo mund t’i
trajtonte vetëm matricat deri në 16 elemente në secilën dimenzion. Ky limitim ka ardhur
nga fakti se funksioni kernel nuk i përdorte blockIdx.
Si rezultat, jemi të limituar ta përdorim vetëm një bllok të thread. Edhe po të përdornim më
shumë blloqe, threads prej blloqeve të ndryshme do të përfundonin duke i llogaritë Pd
elementet e njëjta poqese kanë vlerë të njëjtë threadIdx. Kujtojmë që çdo bllok mund të
ketë deri më 512 threads. Me secilin thread që kalkulon njërin prej elementeve të Pd, mund
të llogarisim gjithsej deri më 512 Pd elemente me këtë kod. Për matricat katrore limitohemi
deri 16x16 sepse 32x32 i nevojiten më shumë se 512 thread për bllok. Për ta rregulluar këtë
problem ashtu që ta përshtasim për matrica më të mëdhenjë, duhet të përdorim blloqe me
threada të shumëfishtë. Figura 25 paraqet një ide bazike për një trajtim të tillë. Në koncept,
do t’i ndajmë Pd në katrorë. Të gjithë Pd elementet e një katrori llogariten nga një bllok i
thread-ave. Duke i mbajtur dimenzionet e katrorëve të vegjël, do të kemi totalin e threadsave në bllok më të vogël se 512, e cila është madhësia maksimale e lejuar për një bllok.
Në figurën 25, do t’i shkurtojmë emërtimet threadIdx.x dhe threadIdx.y si tx dhe ty.
Gjithashtu të njëjtën do ta bëjmë me blloqet, blockIdx.x dhe blockIdx.y do ti shkruajmë si bx
dhe by.
Secili thread akoma njehson një Pd element. Diferenca është se ai duhet ta përdor vlerën e
blockIdx për ta identifikuar katrorin që përmban elementet e tij para se t’i përdor vlerat e
threadIdx për identifikimin e elementeve brenda katrorëve. Pra, çdo thread tani i përdor së
bashku threadIdx dhe blockIdx për ta gjetur Pd elementin në të cilën do të llogaris. Kjo
është e potretizuar në Figurën 25, ku vlerat e threadave të bx, by, tx, dhe ty llogarisin Pd
41

elementet të shënuar në dy dimenzionet x dhe y. Çdo thread që llogarit Pd elementet në një
katror ka vlerë të njëjtë të blockIdx.
Supozojmë që këto dimenzione të blloqeve janë katrore dhe specifikohen nga ndryshorja
TILE_WIDTH. Tani secili dimenzion i Pd është i ndarë në seksione të TILE_WIDTH, të
paraqitur në skajin e majt dhe atë të epërm të figurës 25. Çdo bllok trajton një seksion të
tillë. Në këtë mënyrë, një thread mund ta gjej indeksin x të Pd elementit të tij si
(bx*TILE_WIDTH+tx) dhe indeksin y si (by* TILE_WIDTH+ty). Që është, thread (tx, ty)
në bllokun (bx, by) për ta shfrytëzuar rreshtin (by* TILE_WIDTH+ty) të Md dhe shtyllës
(bx*

TILE_WIDTH+tx)

të

Nd

për

ta

njehsuar

Pd

elementin

në

shtyllën

(bx*TILE_WIDTH+tx) dhe rreshtin (by* TILE_WIDTH+ty).
Figura 26 paraqet një shembull të vogël të përdorimit të blloqeve të shumëfishta për ta
llogaritur Pd. Do ta përdorim një vlerë të vogël për TILE_WIDTH = 2 ashtu që ta kemi një
pasqyrë të tërë të shembullit në një figurë. Matrica Pd tani është e ndarë në 4 katrorë. Secili
dimenzion i Pd tani është i ndarë në seksione me nga dy elemente. Çdo blloku i nevojitet të
llogarit 4 Pd elemente. Këtë mund ta bëjmë duke krijuar blloqe që janë të organizuar si
vargje 2x2 të threads. Ku çdo thread llogarit një Pd element.

Figura 24: Shumëzimi i matricave duke përdorur blloqe të shumta me pllakëzim të
Pd[3]

42

Figura 25: Shembull i thjeshtëzuar i përdorimit të blloqeve të shumtë për
llogaritjen e Pd[3]

Në shembullin, thread(0,0) i bllokut (0,0) llogarit Pd0,0, ndërsa thread (0,0) i bllokut (1,0)
llogarit Pd2,0. Thjeshtë mund ta nxjerrim se si bëhet kalkulimi me formulën e dhënë më
lartë: Pd[bx* TILE_WIDTH+ tx]
[by* TILE_WIDTH+ ty] = Pd[1*2+ 0][0*2+ 0] = Pd[2][0].
Pasi kemi identifikuar indekset për Pd elementin që do të kalkuloj një thread, ne gjithashtu
kemi identifikuar indeksin e rreshtit (y) të Md dhe indeksin e shtyllës (x) të Nd për vlerat
hyrëse. Siç tregohet në Figurën 24, indeksi i rreshtit i Md i përdorur nga threadi (tx, ty) i
bllokut (bx, by) është (by*TILE_WIDTH+ty). Indeksi i shtyllës i Nd i përdorur nga threadi i
njëjtë është (bx*TILE_WIDTH+tx). Tani i kemi të gjitha për ta ripunuar kernel-in e figurës
19 në verzionin që përdorë blloqe të shumëfishtë për t’i llogaritur elementet e Pd.

43

Figura 26: Veprimet e shumëzimit të matricave të një blloku thread-ash[3]

Figura 26 ilustron veprimet e shumëzimit në secilën bllok të thread. Për shumëzimin e
matricave të vegjël, thread-at në bllokun (0,0) prodhojnë katër dot produkte: Thread(0,0)
gjeneron Pd0,0 duke kalkuluar dot produktet e rreshtit 0 të Md dhe shtyllës 0 të Nd. Thread
(1, 0) gjeneron Pd1,0 duke llogaritur dot produktet e rreshtit 0 të Md dhe shtyllës 1 të Nd.
Shigjeta e Pd0,0, Pd1,0, Pd0,1, dhe Pd1,1 paraqet rreshtin dhe shtyllën që përdoren për të
gjeneruar vlerën e tyre.
Figura 28 paraqet funksionin e ripunuar kernel që përdorë blloqe të shumëfishtë për
shumëzim të matricave. Në figurën 27, secili thread përdor blockIdx dhe threadIdx vlerat
për ta gjetur indeksin e rreshtit dhe shtyllës të Pd elementit për të cilën është përgjegjës. Pas
kësaj performon një shumëzim në rreshtin e Md dhe shtyllën Nd për ta gjeneruar vlerën e
Pd elementit. Ku përfundimisht shkruan vlerën e Pd në lokacionin e përshtatshëm të
memories globale. Ky lloj kerneli mund të bashkvepron me matrica deri më 16 x 65535
elemente në secilën dimenzion. Në rastet kur kemi të bëjmë me matrica më të mëdhenjë,
atëherë mund ta ndajmë matricën kryesore në sub-matrica të përshtatshme për limitin e
kernelit. Çdo sub-matricë akoma do të procesohet nga një numër i mjaftueshëm i blloqeve
(65535 x 65535). Të gjithë nga këto blloqe mund të ekzekutohen paralelisht njëra me
tjetrën duke shfrytëzuar resurset për llogaritje paralele të cilitdo procesor me këto mundësi.

44

__global__ void MatrixMulKernel (float*Md, float*Nd, float*Pd, int WIDTH)
{
// Calculate the roë index of the Pd element and M
int Row = blockIdx.y*TILE_WIDTH + threadIdx.y;
// Calculate the column index of Pd and N
int Col = blockIdx.x*TILE_WIDTH + threadIdx.x;

float Pvalue = 0;
//each thread computes one element of the block sub-matrix
for (int k = 0; k < WIDTH; ++k)
Pvalue += Md[Roë*WIDTH+k] * Nd[k*WIDTH+Col];
Pd[Row*WIDTH+Col] = Pvalue;
}
Figura 27: Kerneli i korrigjuar i shumëzimit të matricave duke përdorur blloqe të
shumëfishtë[2]

// Setup the execution configuration
dim3 dimBlock(WIDTH/TILE_WIDTH, WIDTH/TILE_WIDTH);
dim3 dimGrid(TILE_WIDTH, TILE_WIDTH);

// Launch the device computation threads!
MatrixMulKernel<<<dimGrid, dimBlock>>>(Md, Nd, Pd, WIDTH);
Figura 28: Korrigjimi i host kodit për nisjen e kernel-it të korrigjuar[2]

Figura 28 paraqet kodin e ripërpunuar host që do të përdoret në funksionin e fundit
MatrixMultiplication() për ta nisur kernelin e ripërpunuar. Siç shihet tani dimGrid merr
vlerën WIDTH/TILE_WIDTH për të dy dimenzionet x dhe y. Kodi i ripërpunuar tani nis
MatrixMulKernel() me blloqe të shumëfishtë. Ku kodi i tanishëm i trajton vargjet Md, Nd,

45

dhe Pd si vargje një-dimenzionale. Ndërsa llogaritja që bëhet për t’iu çasur indekseve të
Md, Nd, dhe Pd është e njëjtë si më parë.

5.2.2 Sinkronizimi i thread-ave

CUDA lejon thread-et e bllokut të njëjtë të koordinojnë aktivitetet e tyre duke përdor
funksionin për sinkronizim të pengesave, _syncthreads(). Kur një funksion kernel thërret
_syncthreads(), threadi që ekzekuton thirrjen e këtij funksioni do të mbetet aktiv derisa çdo
thread tjetër në bllok arrin lokacionin. Kjo siguron që të gjithë thread-et në një bllok kanë
kompletuar fazën e ekzekutimit të kernelit para se të kalohet në fazën e dytë.
Në CUDA, _syncthreads() duhet të ekzekutohet nga të gjithë thread në një bllok. Kur
_syncthreads() vendoset në një formulim me IF, ose të gjithë threads në bllok ezekutojnë
rrugën që përmban _syncthreads ose asnjëra prej tyre nuk e ekzekuton. Për formulimet në
IF-THEN-ELSE, nëse të dyja kanë _syncthreads() atëherë ose të gjithë threads ekzekutojnë
rrugën që gjendet në THEN apo të gjithë atë rrugë që gjendet në ELSE. Të dy
_syncthreads() paraqesin sinkronizim të ndryshëm të pengesave. Nëse një thread në një
bllok ekzekuton rrugën THEN e tjetra rrugën ELSE, atëherë ata do të kishin pritur në dy
vende të ndryshme të sinkronizimit të pengesave. Ku aty do të kishin mbetur duke e pritur
njëri tjetrin përgjithmonë. Këto thread duhet të ekzekutohen në kohë të afërta me njëra
tjetrën për t’i shmangur pritjet e gjata kohore. Sistemet e CUDA runtime plotësojnë këtë
kushtë duke ia caktuar burimin ekzekutues të gjithe thread-ave në bllok si një njësi, që do të
thotë kur një threadi të një blloku i caktohet burimi ekzekutues, gjithashtu të gjithë
threadave tjerë i caktohet ky burim. Kjo siguron afërsinë kohore të duhur dhe parandalon
pritjet e tepërta gjatë sinkronizimit të pengesave. Duke mos lejuar thread-s në blloqe të
ndryshme që të performojnë sinkronizimin e pengesave njëri me tjetrin, sistemi i CUDA
runtime mund të ekzekutoj blloqet në cilindo mënyrë sepse asnjë prej tyre nuk ka nevojë të
pret për tjetrin. Ky fleksibilitet mundëson implementimet scalability të paraqitur në figurën
30.

46

Figura 29: Transparent scalabilty për programet në CUDA të lejuar nga mungesa
e sinkronizimit të pengesave mes blloqeve[3]

Aftësia për të ezkekutuar kodin e aplikacionit të njëjtë në një shpejtësi më të madhe lejon
produktivitet në implementimet e tilla për nga kosto, fuqia, dhe në kërkesat tjera. Për
shembull një processor i një celulari, ka mundësi që e ekzekuton një aplikacion ngadalë
mirëpo shpenzon energji shumë të vogël, ndërsa të njëjtën aplikacion ndodh që një
kompjuter desktop e ekzekuton shumë më shpejtë mirëpo ndërkohë shpenzon shumë më
shumë energji. Që të dy ekzekutojn të njëjtin aplikacion me asnjë ndryshim shtesë në kod.
Aftësisë për t’i ekzekutuar aplikacionet e njëjta në harduer me resurse të ndryshëm i
referohem si transparent_scalability, e cila ul ngarkesën në zhvilluesit e aplikacioneve dhe
përmirëson përdorshmërinë e aplikacioneve.

5.2.3 Caktimi i thread-ave

Në momentin kur niset një kernel, sistemi Cuda runtime gjeneron rrjetin e thread-ve
korrespondues. Këto threada i caktohen resurseve ezkekutuese në formë të blloqeve. Në
gjeneratat e tanishme harduerike, resurset ekzekutuese janë të organizuar në streaming
multiprocessor (SMs), e kemi shembullin e implementimit NVIDIA_GT200 që ka 30
streaming multiprocesor, dy prej të cilëve janë të paraqitur në figurën 31. Deri në 8 blloqe
mund t’ia caktojmë secilit SM në dizajnin e GT200. Me 30 SM në procesorin GT200, deri
240 blloqe mund t’iu caktohen njëherësh atyre. Shumica e rrjeteve përmbajnë më shumë se
47

240 blloqe. Sistemi ruan listën e blloqeve që duhet të ekzekutohen dhe ia cakton SM-së
blloqe të reja me të përfunduar ata ekzekutimin e caktuar paraprak.
Figura 30 paraqet një shembull në të cilën tre blloqe threadash i caktohen secilit SM. Një
nga kufizimet e resurseve të SM janë numri i threadave që mund njëkohësisht të ndjeken
dhe të planifikohen. Për këtë nevojiten resurse harduerike për SM-t për t’i mbajtur threadat, ID-t e blloqeve, dhe për ta ndjekur statusin e tyre ekzekutues. Në dizajnin e GT200, deri
më 1024 threada mund t’iu caktohen secilit SM. Kjo mund të jetë në formë të 4 blloqeve
me nga 256 threada për secilin, 8 blloqe me nga 128 threada, etj.

Figura 30: Caktimi i thread blloqeve në streaming multiprocesorët (SMs)[2]

Nuk mund të kemi 16 blloqe me nga 64 threada, duke ditur që çdo SM mund t’i akomodoj
deri më 8 blloqe. Numri i threadave që mund t’iu caktohet secilit SM është rritur nga
modeli G80 (16 SM) deri në GT200 (30 SM), nga 768 threada deri 1024 threada
përkatësisht. Ndërsa transparent_scalability CUDA mundëson kodin e aplikacionit të njëjtë
të punon duke mos ndryshuar asgjë në të dyja G80 dhe GT200.

48

5.2.4 Planifikimi i threadave

Planifikimi i threadave është një koncept implementues e duhet të diskutohet në kontekst të
implementimeve specifike harduerike. Në implementimet e GT200 , kur një bllok i
caktohet një streamin multiprocesori, ai më tutje ndahet në 32-njësi threadash që quhen
ëarps. Madhësia e ëarpsit është një specifikë implementuese. Në fakt, ëarps nuk janë pjesë e
specifikacioneve CUDA. Sidoqoftë njohja e ëarps mund të jetë shumë e dobishme për ta
kuptuar performansën aplikacioneve CUDA në gjenerata të veçanta të CUDA pajisjeve.

Figura 31: Blloqet e ndara në warps për programimin në thread[1]

Figura 31 shfaq një ndarje blloqesh në ëarps në GT200. Çdo ëarp përmban nga 32 threada
me vlera të njëpasnjëshmë threadIdx, 0 - 31 threada ërap i parë, 32 – 63 e dyta, dhe kështu
me rradhë. Në shembullin tonë, tre blloqe (Block 1, Block 2 dhe Block 3) të gjitha i
caktohen një SM. Secila prej këtyre tre blloqeve ndahet më tutje në ëarps.
Ne mund t’i llogarisim numrin e ëarps që gjenden në një SM për madhësinë e dhënë të
bllokut dhe madhësinë e numrit të blloqeve të caktuar për secilën SM. Në figurën 32, për
shembull, nëse çdo bllok ka nga 256 threada, atëherë ne mundem të përcaktojmë që çdo
bllok ka 256/32 apo 8 ëarps. Me 3 blloqe në çdo SM, kemi gjithsej 8 x 3 = 24 ëarps në çdo
49

SM. Kjo është, në fakt numri maksimal i ëarps-ave që mund të jenë në SM në G80, duke
ditur që aty nuk mund të ketë më shumë se 768 threada në secilën SM, që rezulton në
768/32 = 24 ëarps. Ky numër rritet në 32 ëarps për SM në GT200.
Ëarps është mënyra më efektive se si procesorët CUDA ekzekutojnë operacionet
long_latency siç është çasja në memorien globale. Me ëarps të mjaftueshëm, hardueri do të
mund të gjej një ëarps për ta ekzekutuar në çdo çast, kjo bën të përdoret maksimalisht
hardueri ekzekutues pa marrë parasysh operacione long-latency. Kjo aftësi që të tolerohen
operacionet long-latency është arsyeja kryesore se pse GPU-t nuk dedikojn shumë hapësirë
të qipit për memoriet cache dhe mekanizmat tjera predikues në krahasim me CPU. Si
rezultat, GPU-t mund të dedikojnë më shumë nga hapësira e qipit të tyre për ekzekutimin e
pikave lundruese.
5.3

Memoriet e CUDA-s

Kernel-ët e thjeshta të CUDA-s mundësojnë të përfitojmë vetëm një pjesë të vogël të
shpejtësisë që ndodhet në këtë harduer. Të dhënat që procesohen nga thread së pari
transferohen nga memoria host në memorien globale device. Pas kësaj thread-at iu çasen
pjesës së tyre të të dhënave nga memoria globale duke i përdorur block ID-t dhe thread ID-t
e tyre. Performanca e dobët shfaqet përshkak të faktit se memoria globale, që rëndom është
DRAM ka një çasje të caktuar bandëithi dhe mund të ketë vonesa në çasje. Edhe pse mund
të kemi shumë thread-a që janë të gatshëm për t’u ekzekutuar teorikisht mund të vonohen
për shkak të këtyre problemeve, që do të thotë që disa nga streaming multiprocesorët rrin
kot. Mirëpo CUDA ka paraparë zgjidhje edhe për këtë problem duke siguruar një numër
shtesë metodash për çasje në memorie, që mundëson eliminimin e shumicës së kërkesave
që i drejtohen memories globale.

5.3.1 Rëndësia e çasjes në memorie

Mund ta ilustrojmë efektin që ka çasja me rendiment e memories duke kalkuluar
ndryshimin mes të performancës të shumëzimit të matricave në figurën 28 me atë të figurës

50

33. Pjesa më e rëndësishme e kernelit në këtë rast do të jetë cikli FOR që performon
shumëzimin e dot produkteve. Në çdo iterim të këtij cikli, performohen dy çasje në
memorien globale një për prodhimin e pikës-lundruese e tjetra për mbledhjen e saj. Kështu,
për çasje në memorien globale llogaritja e pikave lundruese ka raportin 1 në 1, apo 1.0.
Këtij raporti do t’iu referohemi si norma për llogaritjen e çasjes së memories (CGMAcompute to global memory access), që definohet nga kalkulimi i numrit të pikave-lundruese
të performuara për çdo çasje në memorien globale brenda një regjioni në programin CUDA.
Norma CGMA ka një ndikim të rëndësishëm në performancën e CUDA kernel. Për
shembull, Nvidia_G80 suporton 86.4 gigabajt për sekond bandëith për çasje në memorien
globale. Arritshmëria më e lartë e kalkulimit të pikave-lundruese limitohet nga raporti mes
të dhënave hyrëse që mund të lexohen nga memoria globale. Me normën CGMA 1.0,
kerneli për prodhim të matricave mund të ekzekutoj jo më shumë se 21.6 miliarde llogaritje
të pikave lundruese për sekond (gigaflops).

__global__ void MatrixMulKernel (float*Md, float*Nd, float*Pd, int WIDTH)
{
// Calculate the row index of the Pd element and M
int Row = blockIdx.y*TILE_WIDTH + threadIdx.y;
// Calculate the column index of Pd and N
int Col = blockIdx.x*TILE_WIDTH + threadIdx.x;

float Pvalue = 0;
//each thread computes one element of the block sub-matrix
for (int k = 0; k < WIDTH; ++k)
Pvalue += Md[Row*WIDTH+k] * Nd[k*WIDTH+Col];
Pd[Row*WIDTH+Col] = Pvalue;
}
Figura 32: Kerneli për shumëzim të matricave duke përdorur blloqe të shumta[2]

51

Edhe pse 21.6 gigaflop-s është numër për t’u respektuar, ajo paraqet një fraksion të vogël
nga gjithsej 367 gigaflopsave që mund të arrihen me G80.

5.3.2 Tipet e memories CUDA

CUDA suporton disa memorie të ndryshme që mund të përdoren nga programerët për të
arritur një vlerë më të madh CGMA si rrjedhim kemi shpejtësi më të madhe në ekzekutimin
e kernelëve. Figura 34 paraqet memoriet e CUDA device. Në fillim të figurës shohim
memorien globale dhe atë konstante. Këto tipe të memories mund të shkruhen dhe të
lexohen nga host duke i thirrë funksionet API (application programmin interface). Memoria
konstante suporton short-latency, bandëith të madh, çasje read-only nga device kur të gjithë
thread njëkohësisht i çasen lokacionit të njëjtë.
Regjistrat dhe memoriet e përbashkëta në figurën 34 janë në memoriet on-chip. Ndryshoret
që gjenden në këto tipe të memories mund t’iu çasemi me një shpejtësi shumë të madhe me
një paralelizëm të madh. Regjistrat iu alokohen threadave individuale, çdo thread mund t’i
çaset vetëm regjistrave të tij.[11]

Figura 33: Pasqyrim i pajisjes së modelit të memories CUDA[1]

52

Një funksion kernel në përgjithësi për t’i mbajtur ndryshoret që kanë çasje më të shpeshtë e
që janë private për secilin thread i përdor regjistrat. Memoria e përbashkët i alokohet
blloqeve të thread, të gjithë thread-at në një bllok mund t’iu çasen ndryshoreve në
lokacionin e memorieve të përbashkët që u është alokuar bllokut. Duke deklaruar një
ndryshore CUDA në njërën nga tipet e memories CUDA, programeri i CUDA-s dikton
dukshmërinë dhe shpejtësin e çasjes së ndryshores.
Në figurën 35 gjendet një tabelë që paraqet sintaksën e CUDA-s për deklarimin e
ndryshoreve të programeve në tipe të ndryshme të memories. Çdo deklarim i tillë gjithashtu
i jep ndryshores së CUDA-s shtrirjen dhe jetëgjatësinë e saj. Shtrirja identifikon vargun e
threadave që mund t’iu çasen ndryshores: nga vetëm një thread, nga të gjithë thread në një
bllok, apo nga të gjitha thread të të gjithë rrjeteve. Nëse shtrirja e ndryshores është një
thread, një verzion privat i ndryshores do të krijohet për të gjithë thread, ku secili thread do
t’i çasej vetëm verzionit privat të ndryshores së tij. Për shembull, nëse një kernel deklaron
një ndryshore ku shtrirja e saj është një thread dhe niset me 1 milion threada, atëherë do të
krijohen 1 milion verziona threada-sh ashtu që çdo thread do ta përdor verzionin e tij të
ndryshores.
Ndërsa jetëgjatësia specifikon pjesën e kohëzgjatjes së ekzekutimit të programit kur
ndryshorja është në dizpozicion për t’u përdorur, ose në thirrjen e kernelit ose gjatë
aplikacionit në tërësi. Nëse jetëgjatësia e ndryshores është në thirrjen e kernelit, ajo duhet të
deklarohet në trupin e funksionit të kernelit dhe do të ishte në dizpozicion për t’u
shfrytëzuar vetëm nga kodi i kernelit. Nëse kerneli thirret disa herë, përmbajtjet e
ndryshores nuk ruhen në këto thirrje. Çdo thirrje patjetër duhet ta inicializojë ndryshoren në
mënyrë që ta përdor. Në anën tjetër, nëse jetëgjatësia e ndryshores është në tërë
aplikacionin,

53

Deklarimi i Ndryshores

Memoria

Shtrirja

Jetëgjatësia

Ndryshoret automatike përveç vargjeve

Regjistri

Thread-i

Kernel

Ndryshoret automatike vargjet

Lokale

Thread-i

Kernel

__device__, __shared__, int SharedVar; E Përbashkët

Blloku

Kernel

__device__, int GlobalVar;

Rrjeti(Grid) Aplikacioni

Globale

__device__,__constant__, int ConstVar; Konstante

Rrjeti(Grid) Aplikacioni

Tabela 2: Tipet e ndryshoreve në CUDA[1]

do të duhej të deklarohej jashta çdo trupi të funksionit. Ku përmbajtjet e ndryshoreve ruhen
gjatë gjithë procesit ekzekutues të aplikacionit dhe janë në dizpozicion për gjithë kernel-ët.
Siç paraqitet në Tabela 2, gjithë ndryshoret automatike skalare të deklaruar në kernel dhe
funksionet device futen në rregjistra. Ndryshoreve që nuk janë vargje i referohemi si
ndryshore skalare. Shtrirja e këtyre ndryshoreve është brenda threadave të vetëm. Kur një
funksion kernel deklaron një ndryshore automatike, një kopje private e kësaj ndryshore
gjenerohet për të gjithë thread-at që ekzekutojnë funksionin kernel. Kur threadi ndërpritet,
të gjithë ndryshoret automatike gjithashtu pushojnë ekzistuari. Në figurën 33, ndryshoret tx,
ty, dhe Pvalue janë të gjitha ndryshore automatike që bien në këtë kategori. Duhet të kemi
parasysh se çasja në këto ndryshore është jashtëzakonisht e shpejtë dhe paralele, po duhet të
kemi kujdes mos ta tejkalojmë kapacitetin e limituar të ruajtjes së regjistrave në
implementimet harduerike.
Ndryshoret e vargjeve automatike nuk ruhen në rregjistra, në vend të saj ato ruhen në
memorien globale ku shkaktohen vonesa gjatë çasjes dhe ka mundësi kongjestioni. Shtrirja
e këtyre vargjeve është e njëjtë me ato të ndryshoreve automatike skalare. Që do të thotë që
një verzion privat krijohet për çdo varg dhe përdoret nga secili thread. Kur një thread

54

ndërpren ekzekutimin e tij, përmbajtjet e vargjeve të ndryshoreve automatike gjithashtu
pushojnë ekzistuari.
Nëse deklarimit të një ndryshoreje i paraprihet fjala _shared_ , deklaron një ndryshore të
përbashkët në CUDA. Gjithashtu mund t’ia shtojmë fjalën _device_ para asaj _shared_ që
është opcionale për ta arritur efektin e njëjtë. Deklarimet e tilla zakonisht gjenden në
funksionin e kernelit apo funksionin e device. Shtrirja e ndryshoreve të përbashkëta është
brenda një blloku thread-ash, që do të thotë të gjithë thread-at në një bllok shohin verzionin
e njëjtë të ndryshores së përbashkët. Një verzion privat i ndryshores së përbashkët krijohet
dhe përdoret nga çdo bllok i threads gjatë ekzekutimit të kernelit. Jetëgjatësia e ndryshores
së përbashkët është aq sa kohëzgjatja e kernelit. Kur kerneli ndërpren ekzkekutimin,
përmbajtjet e ndryshores së përbashkët pushojnë së ekzistuari. Ndryshoret e përbashkëta
janë mjete efikase për thread për bashkëpunimin e tyre ndërmjet veti nëpër blloqe. Çasja e
memories së përbashkët është jashtëzakonisht e shpejtë dhe shumë e paralelizuar.
Programerët në CUDA shpesh përdorin memorien e përbashkët për të mbajtur një pjesë të
të dhënave të memories globale që përdoren shumë gjatë fazës së ekzekutimit të kernelit.
Nëse deklarimit të një ndryshoreje i paraprihet fjala _constant_, deklaron një ndryshore
konstante në CUDA. Gjithashtu mund ta shtojmë fjalën _device_ para asaj _constant_ për
ta arritur efektin e njëjtë. Deklarimet e ndryshoreve konstante duhet të deklarohen jashtë
trupit të funksionit. Shtrirja e ndryshores konstante është i gjithë rrjeti, që do të thotë që
gjithë thread-at në të gjithë rrjetet shohin verzionin e njëjtë të ndryshores konstante.
Jetëgjatësia e një ndryshoreje konstante është i tërë ekzekutimi i aplikacionit. Ndryshoret
konstante shpesh përdoren për ndryshore që sigurojnë vlera hyrëse për funksionet kernel.
Ndryshoret konstante ruhen në memorien globale por ato mbahen në cache për çasje
efektive. Me modelet e duhur të çasjes, çasja e ndryshoreve konstante është jashtëzakonisht
e shpejtë dhe paralele. Tani për tani, sasia totale e ndryshoreve konstante në një aplikacion
është e limituar në 65,536 bajta.
Ndryshores deklarimit të së cilës i paraprihet vetëm fjala _device_ është ndryshore globale
dhe do të vendoset në memorien globale. Çasja në ndryshore globale është e ngadalshme,
sidoqoftë ndryshoret globale janë të dukshme për të gjithë threadat e të gjitha kernel-ëve.
Përmbajtjet e tyre mbahen gjithashtu gjatë gjithë ekzekutimit. Ndryshoret globale mund të
55

përdoren si mjet për të kolaboruar mes threadave në të gjithë blloqet. Mirëpo pasi nuk do të
kemi sinkronizim të duhur midis threadave të blloqeve të ndryshme, ndryshoret globale më
shpesh përdoren vetëm për të kaluar informacion gjatë thirrjes së një kerneli për thirrjen e
kernelit tjetër.[7]

5.3.3 Strategjia për reduktimin trafikut në memorien globale

Memoria globale është e madhe por e ngadalshme, ndërsa memoria e përbashkët është
vogël por e shpejtë. Strategjia e rëndomtë është t’i ndajmë të dhënat në pjesë të quajtur tile
(pllakë) ashtu që çdo pllakë do të përshtatej për memorien e përbashkët. Kriter me rëndësi
është llogaritja e kernelëve në këto pllaka që mund të kryhen të pavarura nga njëra tjetra.
Duhet të kemi parasysh se jo të gjithë strukturat e të dhënave mund të ndahen në pllaka.[1]
Koncepti i pllakave mund të ilustrohet me shembullin shumëzimit të matricave. Figura36
paraqet një shembull të vogël të shumëzimit të matricave duke përdorur blloqe të
shumëfishtë. Ky shembull supozon që ne përdorim katër 2x2 blloqe që ta llogarisim
matricën Pd. Figura 34 i thekson llogaritjet e bëra nga katër threada të bllokut (0,0). Këto
katër threada llogarisin Pd0,0, Pd1,0, Pd0,1, dhe Pd1,1. Çasjet në elementet e Md dhe Nd nga
threadi (0, 0) dhe threadi (1, 0) të bllokut (0, 0) janë theksuar me shigjeta të zeza.
Figura 37 paraqet çasjen e gjithë threadave të bllokut (0, 0) në memorien globale. Threadat
janë të listuar në drejtim horizontal, ndërsa në drejtim vertikal paraqitet rritja e kohës së
çasjes. Çdo thread i çaset katër elementeve të matricës Md dhe katër të asaj Nd gjatë
ekzekutimit të tyre.

56

Figura 34: Një shembull i vogël i shumëzimit të matricave duke përdorur blloqe të
shumta[2]

Figura 35: Çasjet e kryer nga thread-at e bllokut(0,0) në memorien globale[2]

Ndër katër threadat e theksuar, kemi të përbashkët aspektin e çasjes së tyre në elementet e
Md dhe Nd. Përshembull thread(0,0) dhe thread(1,0) që të dyja i çasen Md1,0 ashtu si edhe i
gjithë rreshti 0 i Md. Ngjashëm, thread(1,0) dhe thread(1,1) që të dyja i çasen Nd1,0 ashtu si
edhe pjesa tjetër e shtyllës 1 e Nd.
Kerneli ne figurën 32 është i shkruajtur ashtu që të dyja thread(0,0) dhe thread (1,0) i çasen
elementeve të rreshtit 0 të Md nga memoria globale. Nëse në ndonjë mënyrë arrijm që të
bëjmë thread(0,0) dhe thread(1,0) të kolaborojnë, ashtu që elementet e Md të ngarkohen
nga memoria globale vetëm një herë, kështu do të kishim mundur ta reduktojmë numrin
57

total të çasjeve në memorien globale përgjysëm. Në përgjithësi, shohim se çdo elementi të
Md dhe Nd i çasem dy herë gjatë ekzekutimit të bllokut(0,0), prandaj po të kishin mundësi
të kolaborojnë të katër threadat në çasjen e tyre drejt memories globale, atëherë
potencialisht do ta reduktonim trafikun në memorien globale në gjysëm.
Reduktimi i trafikut në këtë rast konkret do të ishtë përgjysmë përshkak të matricës që e
kemi marr si shembull. Po ta merrnim një matricë me dimenzion NxN blloqe atëherë
reduktimi i trafikut potencialisht do të ishte N. Që do të thotë, nëse përdorim 16x16 blloqe,
ne do të kishim mundësi ta reduktonim trafikun në memorien globale për 1/16 përmes
kolaborimit të threadave.
Tani do ta prezentojmë një algoritëm ku threads kolaborojnë për ta reduktuar trafikun në
memorien globale. Idea elementare është që t’i kemi thread-at në atë mënyrë që ato së
bashku t’i ngarkojnë të dhënat e elementeve të Md dhe Nd në memorien e përbashkët para
se t’i përdorin ato individualisht për kalkulime të mëtutjeshme.
Duhet ta kemi parasysh se madhësia e memories së përbashkët është relativisht e vogël e të
kemi kujdes mos ta tejkalojmë kapacitetin e saj kur t’i ngarkojmë këto elemente të Md dhe
Nd në memorien e përbashkët. Këtë mund ta arrijmë duke i ndarë matricat Md dhe Nd në
pllaka(tile) të vegjël. Madhësia e këtyre pllakave zgjedhet në atë mënyrë që ato të jenë të
përshtatshme për memorien e përbashkët. Në formën më të thjeshtë, dimenzionet e pllakave
i barazojmë me ato të bllokut, siç është ilustruar në figurën 38.
Në figurën 37, i ndajmë Md dhe Nd në 2x2 pllaka. Kështu që kalkulimi i dot produkteve të
performuar nga çdo thread tani është i ndarë në faza. Në secilën fazë, të gjithë thread-at në
një bllok kolaborojnë për të ngarkuar një pllakë nga Md dhe një pllakë nga Nd në
memorien e përbashkët. Kjo arrihet duke bërë që çdo thread në një bllok ngarkon një
element të Md dhe një të Nd në memorien e përbashkët, ashtu siç ilustrohet në figurën 38.
Çdo rresht në figurën 38 tregon aktivitetet gjatë ekzekutimit të një thread-i. Do t’i tregojmë
aktivitetet e threada-ve vetëm në bllokun (0,0), pasi që gjithë blloqet tjera reagojnë në
mënyrë të njëjtë.
Vargu i memories së përbashkët për elementet e Md quhet Mds, kurse vargu i memories së
përbashkët për elementet e Nd quhet Nds. Në fillim të fazës së parë, të katër threadat e
bllokut(0,0) së bashku ngarkojnë një pllakë të Md në memorien e përbashkët. Kështu që
58

thread(0,0) ngarkon Md0,0 në Mds0,0, thread(1,0) ngarkon Md1,0 në Mds1,0, thread(0,1)
ngarkon Md0,1 në Mds0,1, dhe thread(1,1) ngarkon Md1,1 në Mds1,1.

Figura 36: Pllakëzimi i Md dhe Nd për shfrytëzimin e memories së përbashkët[1]

Figura 37: Fazat ekzekutuese të shumëzimit pllakëzor të matricave[1]

Shohim në figurën 37 që poashtu edhe pllaka e Nd ngarkohet në mënyrë të njëjtë në
memorie të përbashkët. Pasi të ngarkohen dy pllaka të Md dhe Nd në memorien e
përbashkët, vlerat e tyre përdoren në kalkulimin e dot produkteve. Vërejmë se çdo vlerë në
memorien e përbashkët përdoret dy herë, përshembull vlera Md1,1 , e ngarkuar nga
thread(1,1) në Mds1,1 përdoret dy herë, një herë nga thread(0,1) dhe një herë nga
thread(1,1). Duke e ngarkuar çdo vlerë të memories globale në memorien e përbashkët

59

ashtu që ajo mund të përdoret disa herë, ne reduktojmë numrin e çasjeve në memorien
globale. Në rastin tonë, kemi reduktuar numrin e çasjeve në memorien globale 50%.
Kalkulimi i secilit prodhim (dot produkt) në figurën 37 performohet në dy faza, të shënuar
si faza e parë dhe faza e dytë. Në të dy fazat, prodhimet e dy qifteve të elementeve së
matricës hyrëse janë akumuluar në ndryshoren Pvalue. Kalkulimet e fazës së parë janë
paraqitur në shtyllën e katërt të figurës 37, ndërsa faza e dytë në shtyllën e shtatë. Në
përgjithësi, nëse matrica hyrëse është e dimenzionit N dhe madhësisë së pllakës
TILE_WIDTH, prodhimi do të performohej në N/TILE_WIDTH faza. Krijimi i këtyre
fazave është çelësi i reduktimit të çasjeve në memorien globale.
Shohim se Mds dhe Nds gjithashtu janë ripërdorur për t’i ruajtur vlerat hyrëse. Në secilën
fazë, Mds dhe Nds e njëjtë janë përdorur për ruajtjen e subset-ave të Md dhe Nd
elementeve të përdorura në këtë fazë. Kjo toleron një memorie më të vogël të përbashkët që
t’i shërbej shumicës së çasjeve në memorien globale. Kjo ndodh sepse çdo fazë fokusohet
në subseta të vegjël të elementeve së matricës hyrëse. Mënyra e tillë e përqëndrimit së
çasjes quhet lokalitet. Kur një algoritëm ka lokalitet, atëherë është mundësia e përdorjes së
memorieve të vegjël me shpejtësi të lartë për t’i shërbyer shumicës së çasjeve dhe heqjes së
tyre nga memoria globale. Lokaliteti është me rëndësi për të arritur përformancë më të mirë
në multi-core CPU si dhe në many-core GPU.
Tani e paraqesim funksionin kernel të bazuar në pllaka (tile) që përdor memorien e
përbashkët për ta reduktuar trafikun në memorien globale. Kerneli i paraqitur në figurën 39
implementon fazat e ilustruar në figurën 38. Në figurën 39, rreshti 1 dhe rreshti 2 deklaron
Mds dhe Nds si ndryshore të memories së përbashkët.

60

__global__ void MatrixMulKernel (float*Md, float*Nd, float*Pd, int WIDTH)
{
1. __shared__float Mds[TILE_WIDTH][TILE_WIDTH];
2. __shared__float Nds[TILE_WIDTH][TILE_WIDTH];
3. int bx = blockIdx.x; int by = blockIdx.y;
4. int tx = threadIdx.x; int ty = threadIdx.y;
// Idetify the row and column of the Pd element to work on
5. int Row = by * TILE_WIDTH + ty;
6. int Col = bx * TILE_WIDTH + tx;
7. float Pvalue = 0;
//Loop over the Md and Nd tiles required to compute the Pd element
8. for (int m=0; m< WIDTH/TILE_WIDTH; ++m) {
// Collaborative loading of Md and Nd tiles into shared memory
9. Mds[ty][tx] = Md[Row*WIDTH + (m*TILE_WIDTH + tx)];
10.

Nds[ty][tx] = Nd[(m*TILE_WIDTH + ty)*WIDTH + Col];

11.

__syncthreads();

12.

for (int k = 0; k < TILE_WIDTH; ++k)

13.

Pvalue += Mds [ty][k] * Nds[k][tx];

14.

__syncthreads();
}

15. Pd[Row*WIDTH + Col] = Pvalue;
}
Figura 38: Kerneli i shumëzimit pllakëzor të matricave duke përdorur memorien e
përbashkët[2]

Kujtojmë se shtrirja e ndryshoreve të memories së përbashkët është blloku. Pra, të gjithë
thread-at e një blloku kanë çasje në vargjet e njëjtët Mds dhe Nds. Kjo është me rëndësi,
pasi që të gjitha thread-et në një bllok duhet të kenë çasje në vlerat e Md dhe Nd të

61

ngarkuar nga peer-t e tyre në Mds dhe Nds, ashtu që mund t’i përdorin këto vlera për t’i
siguruar të dhënat e nevojitura.
Rreshtet 3 dhe 4 ruajnë vlerat threadIdx dhe blockIdx në ndryshore automatike, dhe këto në
rregjistra për çasje më të shpejtë. Shtrirja e tyre është çdo thread individual. Që do të thotë,
një verzion privat i tx, ty, bx, dhe by krijohet nga sistemi për secilin thread. Ata do të rrin në
rregjistra që janë të çasshëm nga një thread. Inicializohen me vlerat threadIdx dhe blockIdx
dhe përdoren disa herë gjatë jetëgjatësisë së thread-it. Me ndërprerjen e thread-it, gjithashtu
vlerat e këtyre ndryshoreve nuk ekzistojnë më.
Rreshtet 5 dhe 6 determinojnë indeksin e rreshtit dhe indeksin e shtyllës se elementeve Pd
që threadi do t’i krijoj. Siç shihet në figurën 41, indeksi i shtyllës (x) i elementit të Pd që do
të krijohet nga threadi mund të llogaritet me bx*TILE_WIDTH-tx. Kjo, pasiqë çdo bllok
mbulon elementet e TILE_WIDTH në dimenzion x. Një thread në bllokun bx mund të ketë
bx blloqe të thread-ave, apo bx*TILE_WIDTH threada mbulojnë po aq elemente të Pd. Për
shembullin në figurën 36, indeksi x i elementit Pd që do të llogaritet nga thread(1,0) të
bllokut(0,1) është 0*2+1=1. Ngjashëm, indeksi y mund të llogaritet si by*TILE_WIDTH-ty.
Pra, indeksi y i Pd elementit të llogaritur nga thread(1,0) të bllokut(0,1) në figurën 38 është
1*2-0=2. Si rrjedhim, elementi Pd që do të llogaritet nga ky thread është Pd1,2.
Rreshti 8 i figurës 38 shënon fillimin e ciklit që iteron gjatë gjithë fazave të llogaritjes së Pd
elementit final. Çdo iterim i këtij cikli korrespondon me një fazë të llogaritjes së paraqitur
në figurën 37. Ndryshorja m tregon numrin e fazave që tashmë janë bërë për dot prodhimin.
Dimë se çdo fazë përdor një pllakë të Md dhe një pllakë të Nd elementeve, kështu që në
fillim të çdo faze m*TILE_WIDTH çifte të Md dhe Nd elementeve janë procesuar nga faza
paraprake. Ndryshorja threadIdx mundëson thread-at që t’i identifikojnë pjesët të cilët ata
do t’i shqyrtojnë. Thread-at by=blockIdx.y dhe ty=threadIdx.y procesojnë rreshtin
(by*TILE_WIDTH+ty) të Md-së, siç paraqitet në pjesën e majtë të figurës 40. Rreshti 5
ruan këtë numër në ndryshoren Roë të secilit thread. Gjithashtu, thread-at bx=blockIdx.x
dhe tx=threadIdx.x procesojnë shtyllën (bx*TILE_WIDTH) të Nd-së, siç shihet në fillim të
figurës 40.

62

Figura 39: Kalkulimi i indekseve të matricës në shumëzimin pllakëzor[3]

Ndërsa rreshti 6 ruan këtë numër në ndryshoren Col të secilit thread. Këto ndryshore do të
përdoren kur thread-et ngarkojnë elementet e Md dhe Nd në memorien e përbashkët.
Në secilën fazë, rreshti 9 ngarkon elementet e duhur të Md-së në memorien e përbashkët.
Pasi që tani i dimë indekset e rreshtit të Md elementeve dhe indekset e shtyllës të Nd
elementeve që do të procesohen nga threadi përkatës, do të fokusohemi në indeksin e
shtyllës së Md-së dhe indeksin e rreshtit së Nd-së. Siç shihet në figurën 39, çdo bllok ka
TILE_WIDTH2 threada që do të kolaborojnë për t’i ngarkuar TILE_WIDTH2 Md elementet
në memorien e përbashkët. Kjo bëhet duke i përdorur blockIdx dhe threadIdx e
përshtatshëm. Shihet se indeksi fillestar i seksionit të Md elementeve që do të ngarkohet
është m*TILE_WIDTH, kështu që një çasje e lehtë nga ky kuptim do të ishte që të gjithë
thread-et të ngarkojnë një element, të identifikuar nga vlera e threadIdx. Kjo është ajo që
saktësishtë

kemi

në

rreshtin

9,

ku

të

gjithë

thread-at

ngarkojnë

Md[Row*WIDTH+(m*TILE_WIDTH+tx)].
Për shkak se vlera e Roë është një funksion linear e ty, gjithë thread-at e TILE_WIDTH2 do
të ngargojnë një Md element unik në memorien e përbashkët. Të gjithë së bashku, do të
ngarkojnë subsetin e katrorit së Md-së të paraqitur në figurën 39.

63

Rreshti 11 thirr _syncthreads() funksionin për sinkronizim të pengesave që të sigurohet që
gjithe threads në bllok të njëjtë kanë përfunduar ngarkimin e pllakave të Md dhe Nd në Mds
dhe Nds. Kur të ketë përfunduar ky ngarkim, cikli në rreshtin 12 kryen fazat e dot
prodhimeve bazuar në këto elemente. Progresioni i ciklit për thread(tx, ty) paraqitet në
figurën 39, me drejtimin e përdorimit të të dhënave së Md dhe Nd, të shenjëzuar me k
ndryshoren e ciklit në rreshtin 12.
Rreshti 14 thirr _syncthreads() funksionin për sinkronizim të pengesave përsëri dhe
sigurohet që të gjithë thread-at në një bllok kanë përfunduar përdorimin e përmbajtjeve të
Mds dhe Nds para se ndonjëri prej tyre t’i kthehet përsëri ciklit, për të vazhduar me iterimin
dhe ngarkimin e pllakës së ardhshmë të Md dhe Nd.
Përfitimi nga algoritmi i pllakave është thelbësorë. Në shumëzimin e matricave, çasjet në
memorien globale reduktohen nga faktori i TILE_WIDTH. Nëse përdorim 16x16 pllaka, ne
mund të reduktojmë numrin e çasjeve në memorie globale për faktorin 16. Ky reduktim
mundëson bandëithin 86.4-GB/s të memories globale që të kryen shumë më shumë
llogaritje të pikave lundruese se sa algoritmi origjinal. Tani bandëithi i memories globale
mbështet (86.4/4)x16=345.6 gigaflops, shumë e afërt me performancën e llogaritjes së
pikave lundruese të G80. Pra, kjo në mënyrë efektive heq bandëithin e memories globale si
faktor i madh kufizues i performancës të shumëzimit të matricave.

5.3.4 Memoria si faktor limitues për paralelizëm

Edhe pse CUDA regjistrat, memoria e përbashkët, dhe memoria konstante mund të jenë
jashtëzakonisht efektive në reduktimin e numrit të çasjeve në memorien globale, duhet të
kemi kujdes mos ta tejkalojmë kapacitetin e këtyre memorieve. Çdo CUDA device ofron
sasi të limituar të memories CUDA, e cila limiton numrin e threads-ave që njëkohësishtë
qëndrojnë në streaming multiprocesorët (SM) për aplikacionin e dhënë. Në përgjithësi, sa
më shumë lokacione për memorie kërkojnë thread, aq më pak është numri threadave që
mund të qëndrojnë në secilën SM dhe si rrjedhim aq më pak numri i thread-ave që mund të
qëndrojnë në gjithë procesorin.
64

5.4

Debugging në CUDA

Deri më tani treguam mundësitë e shumta të CUDAs që kishte për të arritur rezultate shumë
më të mira dhe të shpejta në aplikacionet kompjuterike. Mirëpo gjatë zhvillimit të
aplikacioneve paraqitet nevoja për testimin dhe eleminimin e gabimeve eventuale që mund
t’i kemi, për këtë nevojiten debugging programe. CUDA ka bërë të mundshëm që me disa
shtesa të thjeshta të kemi mundësinë e përdorimit të mjeteve të njohura për zhvilluesit e
aplikacioneve të Windows dhe Unix siç janë Visual Studio, GDB dhe DDD. Ku pjesën më
të madhe NVIDIA ka bërë që debugging i CUDA kodit të jetë identike me ato të
aplikacioneve në C apo C++. [8]

5.4.1 Instalimi i Nvidia CUDA me Visual Studio 2010

Pasi ta kemi verifikuar që grafika jonë është e aftë për të ekzekutuar kode të CUDAs, mund
të vazhdojmë me instalimet e nevojshme. Duhet të kemi kujdes, para instalimit të Cuda
toolkit së pari ta instalojmë Visual Studio 2010, pasi që mund të kemi probleme më vonë
me mos funksionimin e mirë të librarive të ndryshme të CUDAs.
Fillojmë me hapat e instalimit:[9]

1. Së pari instalojmë Microsoft Visual C++ 2010
2. Pastaj instalojmë drajverat e fundit të Nvidias
3. Dhe në fund instalojmë CUDA toolkit dhe CUDA SDK nga Nvidia, apo CUDA 5
që i përmban të dyjat.

Tani mund të fillojmë me krijimin e CUDA projektit

1. Hapim Microsoft Visual C++ 2010
2. Krijojmë një projekt të zbrazët file->new->project, zgjedhim win32 console
application

65

3. Klikojmë me tast të djathtë folderin source files dhe krijojmë një .cpp file të ri (add>new item)
4. Shkruajmë një funksion main dhe shtojmë #include, në funksionin main thirrim
funksionin cudaError_t error_id = cudaGetDeviceCount(&deviceCount;

5. Tani riemërojmë fajllin tonë .cpp në .cu
6. Ia mësojmë Visual Studios ekstensionin .cu
tools->options->text editor->file extension shkruajmë .cu në input box,
klikojmë add dhe ristartojmë Visual Studion.
7. Nëse kompajlojm projektin tani do të na paraqiten compile errors, “LNK” errors.
Për ta rregulluar këtë klikojmë me tastë të djathtë në projekt, zgjedhim Build
Customizations, ia bëjmë Tick CUDA check box-it dhe klikojmë ok

66

8. Më pastaj ia mësojmë rrugën për librarit e CUDAs: përsëri klikojmë me të djathtë
në

projekt,

properties->configuration

cudart.lib; në Additional Dependencies

67

properties->linker->input,

shtojmë

9. Tani do të mund të kompajlojmë dhe ekzekutojm CUDA projektin në Visual Studio,
mirëpo do të ishte mirë të rregullojmë edhe diçka që të kemi .exe file në direktoriumet
(release/debug). Për këtë klikojmë me tastë të djathtë në fajllin .cu klikojmë properties. Në
General vendosim Item Type me CUDA C/C++

Tani i kemi të gjitha në rregull.

68

6 Përmbledhje

Kompjuterika ka evoluar në aspetin e llogartjeve-përpunimi nga procesimi qendror në CPU
në bashkëprocesim ndërmjet CPU-së dhe GPU-së, ky model inovativ është bër i mundur
nga NVIDIA e cila shpiku arkitekturen e procesimit paralel të quajtur CUDA, pra kjo
platformë ka rritur fuqin jashtzakonisht të kompjuterve duke përdor dhe GPU-në
Platforma CUDA e zgjeron gjuhën programuese C për ta përkrahur programimin paralel,
ku funksoni i kernelit të CUDA-së krijon një rrjetë të thredsave e cila e egzekuton kernelin
e cila e specifikon që konditat e C të egzekutohën nga threda individual që jan krijuar nga
kerneli.Në CUDA definohët se në regjistra,memorie të përbashkt dhe në memorie konstante
mund të ketë qasje në shpejtësi shume të lartë në kuptim paralel se sa në memorien globale,
mirpo programët e CUDA-së duhët të jenë në dijeni për limitimet e këtyre memorieve.
Cuda SDK apo NVIDIA Nsight Development Platform është platform që instalohët si shtës
në Visual Studio me të cilën mundemi të debugojme. Është me theks të veqant se sot
CUDA përdorët në gamë të madhe sot duke u nisur nga bioinformatika, kimia
kompjuterike, financat kompjuterike,mekanika, shkenca e të dhenave, ne analizat numerike,
automarizimi dhe dizajnimi elektronike, pëepunimi i mazhit në mjeksi etj.[10]
Avantazhet e CUDA-së janë: kodi mund të lexohet nga adresat arbitrare në
kujtesë,memorie virtuale të unifikuar(CUDA 4.0 e turje),memorie të unifikuar (CUDA 6.0
e turje), memorie të shpërndar,shkrkime dhe lexime shumë të shpejta nga dhe në GPU.
Ndërsa disavantazhet apo limitimet e CUDA-së pos që përkrahë vetëm GPU-të të
prodhuara nga NVIDIA janë: nuk e përkrah komplet gjuhën C, nuk ka qasje në memorien e
OpenGL pra ndërveprimi me OpenGL është një rrugësh, kopjimi ndërmjet hostit dhe
memories së paisjës mundë të shkakton ramje të performancës tek bus sistemi dhe në
vonesa, C++RunTime(RTTI) nuk është i përkrahur në codin e CUDA.

69

7 Referencat:
[1] David B. Kirk & Wen-mei W. Wwu - Programming Massively Parallel Processors A
Hands-on Approach
[2] Johnnie W. BakerParallel Kent State University Programming CS 4/59995
[http://www.cs.kent.edu/~jbaker/ParallelProg-Sp11/] data e shfletimit 10.11.2015
[3]

Michelle

M.

Zhu

Southern

Illinois

University

CS520

[http://www2.cs.siu.edu/~mengxia/Courses%20PPT/520/520ppt.html]

Fall

2014

data

e

shfletimit:2.11.2015
[4] Wen-mei W. Hwu - GPU Computing Gems Emerald Edition
[5] Rob Farber - CUDA Application Design and Development
[6] Programming on Parallel Machines by Normal Matloff (2010)
[7] Johnnie w. Baker, CS 4/59995 Parallel Programming, Kent State University
[8]

Parallel Programming in the .NET Framework, [https://msdn.microsoft.com/en-

us/library/dd460693(v=vs.110).aspx] data e shfletimit:18.12.2015
[9]

How

to

Run

CUDA

In

Visual

Studio

2010

Salman

[http://blog.cuvilib.com/2011/02/24/how-to-run-cuda-in-visual-studio-2010/]

Ul

Haq

data

shfletimit:18.12.2015
[10] About CUDA[https://developer.nvidia.com/about-cuda] data e shfletimit 21.12.2015
[11] NVIDIA CUDA C Programming Guide Version 4.1 11/18/2011
[12] AMD Introduction to OpenCL Programming May, 2010

70

e

