7 research outputs found
Effective Parallel Processing of a Many-Core GPU
MasterGraphic Processor Unit (GPU)์ ๋ฐ์ ๋ฐ General Purpose on GPU (GPGPU)์ ๋๋๋ก ํด๋ฌ์คํฐ๋ multi-processor๊ฐ ์ํ๋ High Performance Computing (HPC)์์ GPU๊ฐ ๊ฐ๊ด๋ฐ๊ณ ์๋ค. ๊ธฐ์กด์ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์์ ๋ฒ์ด๋many-core GPU๋ฅผ ํ์ฉํ๊ธฐ ์ํ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ์ฐ๊ตฌํ๊ณ ์๋ค. ์ด๋ฅผ ์ํด์๋ GPU์ ๋์ ํน์ฑ ๋ฐ ์์์ ํน์ง์ ์ดํดํด์ผ ํ๋ฉฐ, GPU์ ๋ง์ ์ฝ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ๊ณ ๊ฐ ์ฝ์ด์ ํ ๋น๋ ์ง์ญ ๋ฉ๋ชจ๋ฆฌ์ ๊ฐ ์ฝ์ด ๊ทธ๋ฃน์ ํ ๋น๋ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํด์ผ ๋ณ๋ ฌ ํ๋ก๊ทธ๋๋ฐ์ ๋ณ๋ ฌํ ํจ๊ณผ๋ฅผ ์ต๋๋ก ์ป์ ์ ์๋ค. ์ด๋์ ๋ณ๋ ฌ speedup์ ํฅ์์ํค๊ธฐ ์ํด์๋ ๋ฉ๋ชจ๋ฆฌ์ ์ฌ์ฌ์ฉ์ ๋์ด๊ณ conflict๋ฅผ ์์ ์ผ ํ๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ์ด๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๋ณ๋ ฌ ํ๋ ฌ ๊ณฑ์
ํ๋ก๊ทธ๋จ์ ํตํด ๋ณด์ฌ์ฃผ์๋ค. ๊ตฌ์ฒด์ ์ธ ๋ฉ๋ชจ๋ฆฌ ๋ชจ๋ธ์ ์ธ์ฐ๊ณ ์คํ์ผ๋ก ์ด ๋ชจ๋ธ์ ํจ์ฉ์ฑ์ ํ์ธํ๋ค
๊ทธ๋ํฝ ํ๋ก์ธ์ ์ ๋์ ๋ถ๊ธฐ ์ค์ผ์ค๋ง์ ์ํ ๋์ ์ ๋ณ ์์ถ ์คํ ๊ธฐ๋ฒ
DoctorIn recent years, Graphics Processing Units (GPUs) with significantly enhanced processing capabilities have started to emerge, and these high performance GPUs are increasingly used in applications, besides graphics, that require extremely high computing performance. However, in order to more fully utilize the computational capabilities of these powerful GPUs, threads must be efficiently scheduled specifically for these GPU architectures. This paper proposes a new and powerful scheduling method specifically targeted for modern high performance GPUs, which use hierarchical single-instruction multiple-data (SIMD) architectures. Programs developed for these architectures are partitioned into clusters of thread groups, referred to as warps. Due to the SIMD architecture used to process the threads within a warp, all threads must either wait or execute the same instructions in lock step. Thus, the manner in which warps are grouped and scheduled significantly impact the overall performance achieved. The proposed scheduling method is based on dynamic warp grouping for efficient warp compaction and scheduling of warps based on branch divergence and reconvergence points. In order to implement this method, we propose prior branch information unit to make control flows of each warps synchronized. In addition, we propose basic block aware warp scheduling method to reduce time difference of warp arrival time at branch divergence. The proposed method is shown to improve performance by up to 12% over previously proposed GPU core scheduling methods
์ฝ๊ตํธ์๊ณ์ ์์ง์ด๋๊ด๋ฆฌ์ ์ํ์ ์ํ ํ์ฒํํฉ์๋ฃ ๊ตฌ์ถ
1. ์ฐ๊ตฌ๋ฐฐ๊ฒฝ
์ฐ๋ฆฌ๋๋ผ์ ์์ง๊ท์ ์ ์ฑ
์ ๋ฐฉ๋ฅ์์ ํ์ฉ๋๋๋ฅผ ์ค์ ํ๋ ๋๋ ์์ฃผ์ ๊ท์ ์ ์ผ์ ๊ท๋ชจ ์ด์์ ์ค์ผ์ ์
์ง๋ฅผ ์ ํํ๋ ๋ฉด์ ์์ฃผ์ ๊ท์ ๊ฐ ๋ณํ๋์ด ์์ผ๋, ์ด๋ฌํ ์ผ๋ฐ์ ์ธ ๊ท์ ๋ฐฉ์์ผ๋ก๋ ์์ง๊ฐ์ ์ ํ๊ณ์ ๋ถ๋ช์น๊ฒ ๋์๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ๊ณผํ์ ์ด๊ณ ํฉ๋ฆฌ์ ์ธ ์์ง๊ด๋ฆฌ๋ฅผ ์ํด ๊ธฐ์กด์ ๊ฐ๋ณ ์ค์ผ์์ด ์์ง์ ๋ฏธ์น๋ ์ํฅ์ ์ต์ ํ๋ ๋ฐฉ์์์ ์ผ์ ์ ์ญ ๋ด์ ๋ชจ๋ ์ค์ผ์์ด ์์ง์ ๋ฏธ์น๋ ์ํฅ์ ์ข
ํฉ์ ์ผ๋ก ๊ด๋ฆฌํ๋ ์ ์ญ๊ด๋ฆฌ ์๋จ์ ์ ๋์ ์ฅ์น๋ก ์์ง์ค์ผ์ด๋๊ด๋ฆฌ์ ๊ฐ ๋์
๋์๋ค. ์ฆ, ์์ง์ค์ผ ์ด๋๊ด๋ฆฌ์ ๋ ๋จ์์ ์ญ์ ์ค์ ๋ ๋ชฉํ์์ง์ ๋ง์กฑํ๊ธฐ ์ํ ๋ฐฐ์ถ๋ถํ๋์ ์ฐ์ ํ์ฌ ๊ถ๊ทน์ ์ผ๋ก ์ค์ผ์ ๊ทธ๋ฃน๋ณ, ์ค์ผ๋ฌผ์ง ๋ฐฐ์ถ์์๊ฒ ํ์ฉ ๋ถํ๋์ ํ ๋นํ๊ณ ์ด๋ฅผ ์ค์ํ๋๋ก ํ๋ ์ ๋์ด๋ค.
- ์ดํ ์๋ต์ 1์ฅ ์ ๋ก
์ 2์ฅ ์ฝ๊ตํธ์๊ณ ์ ์ญํํฉ
์ 3์ฅ ์ฝ๊ตํธ์๊ณ ํ์ฒ์ ํ๊ฒฝ๊ธฐ์ด์๋ฃ ๊ตฌ์ถ
์ 4์ฅ ๊ฒฐ๋ก ๋ฐ ์ ์ธ
์ฐธ๊ณ ๋ฌธ