[[alternative]]The Design of Advanced Value Predictors by 莊博任
1行政院國家科學委員會專題研究計畫成果報告
數值預測器之研發
The Design of Advanced Value Predictors
計畫編號：NSC 90-2213-E-032-019
執行期限：90 年 8 月 1 日至 91 年 7 月 31 日



























Value prediction, a technique to break 
data dependency, is important in enhancing 
instruction-level parallelism and processor 
performance. A new value predictor utilizing 
both the loop and locality properties of data 
values is proposed in this research to pursue 
desirable prediction accuracy at reasonable 
cost. The proposed value predictor, called the 
Dynamic Loop&Locality-based (DLL) 
predictor, makes predictions by dynamically 
practicing the loop or locality-based 
prediction policy according to the state. 
Aided by some simple designs, the DLL 
predictor proves to be effective and 
cost-efficient. A new performance measure, 
accuracy improvement per cost or briefed as 
the A/C ratio, is introduced in the research to 
secure more comprehensive experimental 
evaluation of the DLL and other value 
predictors. As the results collected from 
extensive simulation runs indicate, compared 
with the other value predictors of different 
features, the proposed DLL predictor 
produces better A/C ratio in almost all 
situations due to flexible application of 
different prediction policies as well as 
reduced cost.
Keywords: Instruction-level parallelism, 
value prediction, data dependency, loop and 
locality properties, value history, prediction 
























1996 年 last outcome predictor [1]被提
出來，它利用簡單的方法捕捉指令重複產
生的數值，也開啟了數值預測的研究之
























2. 迴圈 (loop) 特性：我們知道程式中經
常有迴圈的出現，因此數值也具有迴圈









的預測器 Dynamic Loop&Locality-based 
predictor (簡稱 DLL 預測器)，以及一個新
的分發策略 (簡稱 LRU info Dispatch)。
(一) DLL 預測器
DLL 預測器的運作方式如下：指令以
program counter 索引到 entry，比較 tag 相
同後，檢查 state 欄位，若為 steady，表示
前兩次出現的 data values 有等差的現象，
則預測下一個值為 value+stride；若 state 欄
位是 locality，表示之前的 data values 沒有
等差的現象，則找出 counters 欄位中哪一
個 counter 的值最大，並檢查此 counter 值
是否有超過 threshold 值。若有超過
threshold 值，就以此 counter 對應的 data 
value 為預測值；若沒有超過 threshold 則不
預測。
    當 outcome 可得時，更新分為兩部
份，針對迴圈性質部份的 Stride、State 欄
位需要更新：stride 欄位存放 outcome 與
value 的差值，接著再將 outcome 存入 value
欄位，而 State欄位的改變是以目前的 stride
和前次的 stride 是否相等為改變的依據，相
等時 state 改變成 loop，不相等時則 State
欄位改為 locality。更新的另一部份包括針
對 locality 性質的 LRU info、Data Values、
Counters 欄位：由 LRU info 可知 data values
中何者最舊，最舊者用 outcome 替換掉。
Counters 方面，每當 outcome 可得時，DLL
所儲存的 unique values 與 outcome 比對，




假設每個 entry 存放 4 個 unique values，這
4 個 values 分別用 index 表示，即 0, 1, 2, 3。





及 data values 欄位是空的，當 outcome 產
生後，這筆資料填入 data values 欄位的第
一個：
Index： 0 1 2 3
Data values： V1 Null Null Null
LRU info 欄位做以下的安排：
1 2 3 0
LRU MRU
這樣可以達到當第 2，3，4 個 unique value
出現的話，index 1 的值最先被替代，再來
是 index 2 和 3 的值被替代。最後被替代的
是 V1，因為它是 MRU。
假設 V5 出現前，Data values 和 LRU info
如下：
Index： 0 1 2 3
Data values： V1 V2 V3 V4
LRU info： 2 3 1 0
LRU MRU
第 5 個 unique value（V5）出現後，index 2
要被替代，替代完畢後 index 2 變為 MRU，
其餘的 index 左移：
Index： 0 1 2 3
Data values： V1 V2 V5 V4
LRU info 欄位做以下的安排：
3 1 0 2
LRU MRU
由以上可知，LRU info 也是一種 pattern，
但是存放 4 個 values 時，LRU info 也存放
4 個 index（一個 index 需 2bits），而這樣
只有 8 個 bits，只能索引到 28=256 個 entries
（256 個太少，造成的干擾效應會很大）。
與 two-level VHP 的 12 個 bits（可索引到
212=4096 個 entries）有不小的差距。
所以增加一個叫 extra_field 的欄位，
存放 2 個 index(4 bits)。在 LRU info 更新
前，先將 extra_field 的資料左移，再將 LRU 
index存放到 extra_field的右邊那格(即低位
元欄位)。這樣的設計也是存 6 個 index，






發現能夠兼顧 data value 的 locality 及 loop
特性的預測器才能在各項 benchmarks 中有





















效能成本比。而我們設計 LRU info 分發的
本意在充分利用現有資源，達到減低分發
時所需的成本，但我們同時發現 LRU info
分發也可適用於其它使用 LRU policy 更新









locality-based 和 loop-based predictor，並找
出一個更有效的結合式預測器的預測方
式，進一步改進並提昇效能成本比和預測
準確度。     
五、參考文獻
[1] M. H. Lipasti and J. P. Shen, “Exceeding 
the Dataflow Limit via Value 
Prediction,” Proc. 29th Annual 
IEEE/ACM Int’l Symp. on 
Microarchitecture, Nov. 1996, pp. 
226 –237.
[2] T.-Y. Yeh and Y. N. Patt, “Alternative 
Implementations of Two-Level Adaptive 
Branch Prediction,” Proc. 19th Int’l 
Symp. on Computer Architecture, May 
1992, pp. 124-134.
[3] K. Wang and M. Franklin, “Highly 
Accurate Data Value Prediction Using 
Hybrid Predictors,” Proc. 30th Annual 
IEEE/ACM Int’l Symp. on 
Microarchitecture, Nov. 1997, pp. 
281-290.
[4] Y. Sazeides and J. E. Smith, “The 
Predictability of Data Values,” Proc. 30th 
Annual IEEE/ACM Int’l Symp. on 
Microarchitecture, Nov. 1997, pp. 
248-258.
[5] B. Goeman, H. Vandierendonck, and K. 
DeBosschere, “Differential FCM: 
Increasing Value Prediction Accuracy by 
Improving Table Usage Efficiency,” Proc. 
7th Int’l Symp. on High-Performance 
Computer Architecture, Feb. 2001, pp. 
207-216.
[6] F. Dahlgren and P. Stenstrom, 
“Evaluation of Hardware-based Stride 
and Sequential Prefetching in 
Shared-memory Multiprocessors,” IEEE 
Trans. on Parallel and Distributed 
Systems, Vol. 7, No. 4, pp. 385-398, Apr. 
1996.
[7] T. Chen and J. L. Baer, “Effective 
Hardware-Based Data Prefetching for 
High-Performance Processors,” IEEE 
Trans. on Computers, Vol. 44, No. 5, pp. 
609-623, May 1995. 
