













? 1? ?? 1
? 2? ???? 3
2.1 ?????????????/?????? : : : : : : : : : : : : : : : : : : : : : : : 3
2.1.1 ?????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 3
2.1.2 ? Dualflow??????? : : : : : : : : : : : : : : : : : : : : : : : : : : : 4
2.1.3 Front-end Excutin Architecture : : : : : : : : : : : : : : : : : : : : : : : : : : 4
2.2 ?????????????????????? : : : : : : : : : : : : : : : : : : : 5
2.2.1 ?????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 5
2.2.2 Matrix Scheduler Reloaded : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 6
2.3 ????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 7
2.3.1 Caching Processor General Registers : : : : : : : : : : : : : : : : : : : : : : : 7
2.3.2 Non-Latency-Oriented Register Cache : : : : : : : : : : : : : : : : : : : : : : : 7
? 3? STRAIGHT??????? 9
3.1 ?? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 9
3.2 STRAIGHT????????????? : : : : : : : : : : : : : : : : : : : : : : : : 9
3.3 ?????????????????? : : : : : : : : : : : : : : : : : : : : : : : : 10
3.4 STRAIGHT??????????? : : : : : : : : : : : : : : : : : : : : : : : : : : 11
? 4? ????:STRAIGHT??????? 13
4.1 ???? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 13
4.2 ???? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 14
? 5? STRAGHT?????????????? 19
5.1 ??????????????????? : : : : : : : : : : : : : : : : : : : : : : : 19
? 6? STRAIGHT????????????? 22
6.1 STRAIGHT????????????? : : : : : : : : : : : : : : : : : : : : : : : : 22
6.2 STRAIGHT????????????? : : : : : : : : : : : : : : : : : : : : : : : : 22
6.3 STRAIGHT????????????????????? : : : : : : : : : : : : : : 22
6.3.1 LRU(Least Recently Used)????? : : : : : : : : : : : : : : : : : : : : : : 22
6.3.2 FIFO????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 24
6.4 ?????????????????????????? : : : : : : : : : : : : : : 25
i
? 7? ?????????????????? 26
7.1 ???? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 26
7.2 ???? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 26
7.2.1 ???? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 26
7.2.2 ??????????????? : : : : : : : : : : : : : : : : : : : : : : : : 28
? 8? ?? 30





2.1.1 ??????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 3
2.1.2 ?????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 4
2.2.1 dependency matrix : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 5
2.2.2 age matrix : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 6
2.3.1 ????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 7
2.3.2 NORC??????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 8
3.3.1 RP???????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 10
3.3.2 RP???????????????????????? : : : : : : : : : : : : : : : 11
3.3.3 ??????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 11
3.4.1 STRAIGHT?????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 12
4.2.1 STRAIGHT? Alpha????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 14
4.2.2 STRAIGHT? Alpha??????? : : : : : : : : : : : : : : : : : : : : : : : : : : 15
4.2.3 Alpha?????? 4?????????? : : : : : : : : : : : : : : : : : : : : : : 16
5.1.1 ??????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 19
5.1.2 ???????????????????????????????????? [11] 20
5.1.3 ???????????????????? : : : : : : : : : : : : : : : : : : : : : : 21
5.1.4 ????????????????????????? : : : : : : : : : : : : : : : 21
6.2.1 STRAIGHT????????????? : : : : : : : : : : : : : : : : : : : : : : : : 23
6.3.1 ?????????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 24
6.4.1 ?????????????? STRAIGHT?????? : : : : : : : : : : : : : : : 25
7.2.1 ?????????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 27
7.2.2 LRU?????????????????? : : : : : : : : : : : : : : : : : : : : : 28
7.2.3 ?????????????????? : : : : : : : : : : : : : : : : : : : : : : : : : 29
8.0.1 ?????????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 30
iii
???
4.1 ??????????? : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 13
4.2 McPat???? 1 : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 17
4.3 McPat???? 2 : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 18




























































































2.1.3 Front-end Excutin Architecture






















??? 0?????? ready?????????????. ?? B??????????????
??? A??????????????????????






?? picker?????? age matrix??????????????????????????
?????????????? age conflict bit???????????????????????
??????????????? 1???????????????????????????
????0??????????????????????????
? 2.2.2: age matrix
? 2.2.2? age matrix???????????A???B? ready??????????? picker
?????????????A?B confrict?????? 1?????????????age-matrix
??? B? grant??????
2.2.2 Matrix Scheduler Reloaded














2.3.1 Caching Processor General Registers
???????????????????,???? B??????? A?????????














????? 96%???????????????, 32?????? 99%??????????. ?
??? 32???????????????????????????????????????
???? 99%???????????????????????????????
2.3.2 Non-Latency-Oriented Register Cache
???????????????????????????????????????????











































































????????????????? (F)????? (D)??????? (Dis)?????????































???????? 4 / 8
????? 6 / 12
????????? int32+fp16 / int128+fp64
???????? int128+fp128 / int512+fp512
???????????? 7cycle / 5cycle
??? int2,fp2,mem2
D1????? 64KB,8way,64Bline,3cycle hit latency
I1????? 64KB,8way,64Bline,3cycle hit latency







? 4.2.1: STRAIGHT? Alpha?????
??????????????? RMT???????????????? Rename dynamic?
Rename leakage?????????????????????? RF dynamic? RF leakage???































? 4.2.3: Alpha?????? 4??????????
16
? 4.2: McPat???? 1
No. param name or stat name value
1 number of L2Directories 0
2 core tech node 22
3 target core clockrate 3000
4 temperature 353
5 total cycles System? ExcutedCycles
6 busy cycles System? ExcutedCycles
7 clock rate 3000
8 fetch width Fetcher? FetchWidth
9 decode width Fetcher? FetchWidth
10 commit width Retirer?Width
11 pipeline depth Fetcher? Renamer? dispatcher?
Scheduler[0]? issue? Latency???+1?????+3
12 MUL per core 2
13 FPU per core 2
14 instruction buer size Scheduler[0]? [1]? [2]
?WindowCapacity???
15 instruction window size Scheduler[0]? [2]
?WindowCapacity???
16 fp window size Scheduler[1]?WindowCapacity
17 ROB size InorderList? Capacity
18 archi Regs IRF size RegisterFile? Capacity????
19 archi Regs FRF size RegisterFile? Capacity????
20 phy Regs IRF size RegisterFile? Capacity????
21 phy Regs FRF size RegisterFile? Capacity????
22 load buer size MemOrderManager? Capacity
23 RAS size RAS? StackSize
24 total instructions Fetcher? NumFetchedOp
25 int instructions PipelinedExecUnit? Name=”ex”
? NumTotalUsed???
 = IntBC?IntALU?IntMUL, Addr
26 fp instructions PipelinedExecUnit? Name=”ex”
? NumTotalUsed???
 = FloatBC?FPAdd?FPMUL
27 branch instructions Bpred? Statistics? NumMiss + NumHit
28 branch misprediction Bpred? Statistics? NumMiss
29 load instructions CacheSystem? Load? CacheAccessDispersion???
30 store instructions CacheSystem? Store? CacheAccessDispersion???
17
? 4.3: McPat???? 2
No. param name or stat name value
31 committed instructions System? ExecutedInsns
32 committed int instructions No.31? No.25? No.26?????
33 committed fp instructions No.31? No.25? No.26?????
34 ROB reads System? ExecutedInsns
35 ROB writes System? ExecutedInsns
36 rename reads Fetcher? NumFetchedOp???
37 rename writes Fetcher? NumFetchedOp
38 fp rename reads No.33? value???
39 fp rename writes No.33? value
40 inst window reads System? ExecutedInsns
41 inst window writes System? ExecutedInsns
42 inst window wakeup accessed System? ExecutedInsns? 2?
43 fp window reads No.33? value
44 fp window writes No.33? value
45 fp window wakeup accessed No.33? value? 2?
46 int regfile reads System? ExecutedInsns? 1.5?
47 float regfile reads No.33? value? 1.5?
48 int regfile writes System? ExecutedInsns? 0.75?
49 float regfile writes No.33? value? 0.75?
50 function calls 0
51 context switches 0
52 ialu accesses No.25? value
53 fpu accesses No.26? value
54 mul accesses PipelinedExecUnit Name=”exIntMUL”? NumTotalUsed
55 cdb alu accesses No.52? value
56 cdb mul accesses No.54? value













STRAIGHT??????????? int? float? 128?????????????????
??????????????????? 58%?????????McPat???????wakeup
19
? 5.1.2: ???????????????????????????????????? [11]
???????????? Select????????????????????wakeup?????
58%???????????????????? LivermoreKernel5? int???????????








































????????????? LRU??? FIFO??? 2???????
6.3 STRAIGHT?????????????????????





















































































???????? 4 / 8
????? 6 / 12
????????? int32+fp16 / int128+fp64
???????? int128+fp128 / int512+fp512
????????? 1 ,2 ,4 ,8 ,16 ,32 ,64 ,128
???????????? 7cycle / 5cycle
??? int2,fp2,mem2
D1????? 64KB,8way,64Bline,3cycle hit latency
I1????? 64KB,8way,64Bline,3cycle hit latency







































??????????? RF dynamic?RF leakage?????????????????????













































































[1] Dennis Sylvester and Kurt Keutzer. Getting to the bottom of deep submicron. In ICCAD’98, pp.
203 – 211, 1998.
[2] Grot B. Ferdman M. Volos S. Kocberber O. Picorel J. Adileh A. Jevdjic D. Idgunji S. Ozer E.
Lotfi-Kamran, P. and B Falsafi. Scale-out processors. In Int. Symp. on Computer Architecture,
2012.
[3] Weaver V. Bhadauria, M. and S. McKee. Understanding parsec performance on contemporary
cmps. In Int. Symp. on Workload Characterization, pp. 99 – 107, 2009.
[4] H. Esmaeilzadeh, E. Blem, R. St. Amant, K. Sankaralingam, and D. Burger. Dark silicon and the
end of multicore scaling. Micro, IEEE, Vol. 32, No. 3, pp. 122 – 134, 2012.
[5] ???????????.????. ?? ilp????????????????????
???????????. ??????????.???????????????, pp. 1 –
10, 2013.
[6] ???????????????????????. Dualflow???????????
???. Vol. 42, No. 4, pp. 652 – 662, 2000.
[7] ????????????????. ? dualflow???????. ???????????
???????????,? 1?, pp. 22 – 33, 2008.
[8] Masahiro Goshima Ryota Shioya and Hideki Ando. A front-end execution architecture for high
energy eciency. In Int’l Symp. on Microarchitecture, 2014.
[9] N. P. Jouppi S. Palacharla and J. E. Smith. Quantifying the complexity superscalar processors.
Technical report, Univ. of Wisconsin-Madison, 1996.
[10] Kitamura Toshiaki Nakashima Yasuhiko Tomita Shinji Goshima Masahiro, Nishino Kengo and
Mori Shin-ichiro. A high-speed dynamic instruction scheduling sheme for superscalar processors.
InMICRO 2001, pp. 225 – 236, 2001.
[11] Edward Brekelbaum Gabriel H. Loh Bryan Black Peter G. Sassone, Je Rupley. Matrix scheduler
reloaded. In Int. Symp. on Computaer architecture, pp. 335 – 346, 2007.
[12] Neil C. Wilhelm Robert Yung. Caching processor general registers. In 1995 IEEE Int. Conf., pp.
307 – 312, 1995.
[13] Masahiro Goshima and Shuichi Sakai Ryota Shioya, Kazuo Horio. Register cache system not for
latency reduction purpose. In Int. Symp. on Microarchitecture, pp. 301 – 312, 2010.
34
[14] ????????. ???????????????????????. 2009.
[15] Ahn J.-H. Strong R. Brockman J. Tullsen D. Li, S. and N Jouppi. Mcpat: An integrated power,
area, and timing modeling framework for multicore and manycore architectures. In Int. Symp. on
Microarchitecture, pp. 469 – 480, 2009.
35
