平成27年度修士論文

## TSVを考慮した 3次元積層プロセッサ向けフロアプランナの提案と マルチコアプロセッサの配置設計

大学院情報システム学研究科 情報ネットワークシステム学専攻

学籍番号: 1452021
氏名: 村田篤志
主任指導教員: 吉永努教授
指導教員: 笠井裕之准教授
指導教員: 小川朋宏准教授
提出年月日: 平成28年1月28日

(表紙裏)

# 目 次

| 第1章                      | 序論                                      | 1                       |
|--------------------------|-----------------------------------------|-------------------------|
| 第2章<br>2.1<br>2.2        | 関連研究<br>フロアプランナ                         | <b>3</b><br>3<br>3      |
| 第3章<br>3.1<br>3.2        | 3 次元プロセッサのためのフロアプランナ<br>システム概要          | <b>5</b><br>5<br>5      |
| 第4章<br>4.1<br>4.2<br>4.3 | 本論文での提案<br>TSV モジュール<br>TSV の配置<br>提案実装 | <b>8</b><br>8<br>8<br>9 |
| 第5章                      | 評価環境                                    | 11                      |
| 第6章                      | 評価                                      | 14                      |
| 第7章                      | まとめ                                     | 29                      |
| 謝辞                       |                                         | 30                      |
| 参考文南                     | <b>伏</b>                                | 32                      |

図目次

| 3.1.1  | システム概要....................................              | 6  |
|--------|---------------------------------------------------------|----|
| 3.2.1  | 収束までの様子・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・             | 7  |
| 3.2.2  | SA の処理                                                  | 7  |
|        |                                                         |    |
| 4.3.1  | 提案アルゴリズムの概要フローチャート                                      | 9  |
| 501    | マーキークチャのブロック図                                           | 10 |
| 5.0.1  |                                                         | 12 |
| 5.0.2  | 合センユールのノットノリノトのよび消貨電力                                   | 13 |
| 5.0.3  | モンユール間のハント幅およびアクティヒティ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ | 13 |
| 6.0.1  | 1core / 2layer                                          | 15 |
| 6.0.2  | 1core / 2layer / tsymodule6                             | 15 |
| 6.0.3  | 1core / 2layer / tsymodule12                            | 16 |
| 6.0.4  | 1core / 2layer / tsymodule15                            | 16 |
| 6.0.5  | 1core / 3layer                                          | 17 |
| 6.0.6  | 1core / 3layer / tsymodule6                             | 17 |
| 6.0.7  | 1core / 3layer / tsymodule12                            | 18 |
| 6.0.8  | 1core / 4layer / tsvmodule15                            | 18 |
| 6.0.9  | 1core / 6layer / tsvmodule15                            | 19 |
| 6.0.10 | 1core / 2layer / 並列積層                                   | 19 |
| 6.0.11 | 1core / 2layer / tsvmodule6 /並列積層                       | 20 |
| 6.0.12 | 2core / samelayer                                       | 20 |
| 6.0.13 | 2core / 2layer                                          | 21 |
| 6.0.14 | 2core / 2layer / tsymodule6                             | 21 |
| 6.0.15 | 2core / 2layer / tsvmodule12                            | 22 |
| 6.0.16 | 2core / 3layer                                          | 22 |
| 6.0.17 | 2core / 3layer / tsvmodule6                             | 23 |
| 6.0.18 | 2core / 3layer / tsvmodule12                            | 23 |
| 6.0.19 | 1core / 配線アクティビティ                                       | 25 |
| 6.0.20 | 2core / 配線アクティビティ                                       | 25 |
| 6.0.21 | 1core / 面積                                              | 26 |
| 6.0.22 | 2core / 面積                                              | 26 |
| 6.0.23 | 1core / 熱密度                                             | 27 |
| 6.0.24 | 2core / 熱密度                                             | 27 |

表目次

| 4.1        | シミュレーテッドアニーリングでの開始温度と終了温度 | 10       |
|------------|---------------------------|----------|
| 5.1<br>5.2 | キャッシュサイズ                  | 11<br>11 |
| 6.1        | 必要 TSV モジュール数             | 28       |

### 第1章 序論

近年半導体技術の進歩により3次元積層技術が開発され、半導体チップの更なる性能向上が期 待されている.1947年に半導体素子トランジスタが発見されて以来,1965年にムーアが提唱した ムーアの法則に沿うように半導体産業は急速な発展を遂げてきた.この法則は「集積回路上のト ランジスタ数は約2年で倍になる」と言うものである[1].しかし現在,その法則通りに半導体産 業を成長させるのが難しくなっている.現状,限界が近いと言われている半導体産業を成長させ 続けるために提案された手法の一つとして3次元積層が挙げられる.3次元積層実装を行うこと によってトランジスタ数あたりのチップ面積(フットプリント)を減少させることが出来,ムー アの法則に沿った成長を継続出来ることが期待されている.また,システムを構成するひとまと まりの機能を持った回路をモジュールと呼び,積層を行うことでモジュール同士の幾何学的な距 離が短くなり,平面配置に比べて配線長を短縮することが出来る.さらに,積層間の結線を行う 際にチップ外に配線を通して結線するワイヤボンディングに代わり,積層内を貫通する電極であ る TSV を用いる事で積層間配線長を短縮できるようになった [2]. TSV はシリコン基板を貫通す る電極で、シリコン基板の表面から背面へ信号を伝え、下層基盤のバンプなどへ直接接続するこ とが出来る.また,TSV は半導体製造プロセスの一貫で製造されるため,ワイヤボンディングを 遥かに上回る密度,自由度を得ることが出来る.3次元積層技術の利点としてチップ面積の減少と それに伴う歩留まりの向上,モジュール間配線の減少による高速化と消費電力の減少,バンド幅 の増加,異なるプロセスの混在など数多くの利点が挙げられ,TSVによる柔軟な配線はこれらを さらに促進する [3].3 次元積層技術の問題点は,設計の難化,製造コストの増大,熱密度の増加 が挙げられる [4,5,6]. 一方で TSV を熱放散に利用する研究も進められている [7].

3次元積層技術はマイクロプロセッサにも適用でき,ブレークスルーをもたらすことが期待され ている.マイクロプロセッサの電力性能比を決定する主要因でありボトルネックとなっている一因 として,モジュール間を接続する配線の遅延と電力消費が挙げられる.3次元積層技術はモジュー ル間配線の幾何学的な短縮によってこれらの問題を根本的に解決できる.マイクロプロセッサに おいてモジュール間のロングワイヤで消費される配線電力は大きな割合を占めるため,期待され る削減効果は大きい.しかし,3次元積層技術の設計空間は巨大であり,プロセッサはメモリと異 なりレギュラー構造ではなく,さらには役割の違うモジュールが複雑に通信を行うシステムであ るため,どのように3次元で実装するか,最適なモジュール配置はまだ定まっていない.

半導体デバイスの設計では,巨大な設計空間からモジュール配置を決定するためにフロアプランナが使用される.3次元積層プロセッサのモジュール配置設計では,2次元フロアプランナを拡張して利用する方法が一般的である.2次元のフロアプランナではフロアプランをシーケンスペアやB\*-treeによって記述し,シミュレーテッドアニーリング(SA)などのヒューリスティックアルゴリズムによって準最適解を探索する.一般的にフロアプランの最適化の指標となる評価関数の項はフットプリント,総配線長,熱源の偏り,製造コストなどが用いられる.

柔軟な層間配線を可能とする TSV だが,通常配線に比べれば 100~1000 倍程度の大きさとなる. 必要な層間配線の数だけ TSV が必要となるので,層間配線が多くなれば多くの TSV が必要とな り,モジュールの配置によっては TSV の必要総面積が大きくなる.例えば,TSV を 1000 本挿入 すれば,計算コアの大きさに匹敵する約0.1mmの面積を占有する.更に総配線長は TSV がどこに 配置されるかによって大きく変化する.層間配線は TSV を用いて行うので,接続するモジュール 同士のバウンダリボックスの中に TSV が存在すれば,その TSV を使用することで迂回して配線 する必要がなくなり,配線のロスを抑えることが出来る.従来手法では TSV の位置は暗黙的に確 保されるか,モジュールの配置されていないホワイトスペースに割り当てられる.しかし,これ らの手法ではモジュール位置が優先され,TSV の配置が最適化されない.

しかし TSV1 本1本の配置を探索すると組み合わせが爆発的してしまい,計算時間が膨大となってしまう.そこで本論文では複数の TSV をまとめて扱い,TSV 配置を準最適化する探索配置アルゴリズムを提案する.我々の手法では TSV を配置するための場所を仮想的なモジュール,TSV モジュール」として他のモジュールと同様に SA に従って準最適化する.

提案システムの評価ではシングルコアプロセッサ,マルチコアプロセッサについてフロアプランを取得した.今回,我々のアルゴリズムを評価する基準として配線アクティビティ,フットプリント,熱を最適化したモジュール配置を出力する.

2章では関連研究を紹介し,3章ではフロアプランナについて説明する.4章で提案と実装について述べ,5章で評価環境の説明を行う.6章で評価結果を提示して,最後に7章でまとめを述べる.

#### 第2章 関連研究

#### 2.1 フロアプランナ

プロセッサはメモリのようなレギュラー構造でないため,設計が難しい.そのため,設計ツー ルとしてフロアプランナが使用される.フロアプランナは探索アルゴリズムを使用し,大きな解 の集合である探索空間から現実的な実行時間で最適な解の近似を得る.

探索アルゴリズムとしては,シミュレーテッドアニーリング(SA)や遺伝的アルゴリズムが知ら れている[2,7,8,9,10].これらは確率決定によって,局所最適解からの脱出を可能とする探索アル ゴリズムである.SAでは「温度」というフロアプランの熱密度とは無関係な制御パラメータが用 いられる.フロアプランナにおける近傍解の生成方法としてモジュールの配置の入れ替え(swap), モジュールの縦横比の変更(soft)などが挙げられる[2,9,11].温度が高い時点では,局所最適解を 脱出するために評価値が悪化するような近傍解へも遷移するが,温度が下がるにつれてそのよう な遷移は起こりにくくなる.フロアプランナでは,探索アルゴリズムで得た解を各モジュールに 表すブロック表現が必要となる.

ブロック表現として,シーケンスペアや,B\*-Tree,FTSqueezeが挙げられる[8,11,12].積層プロ セッサのフロアプランナでは一般的に2次元フロアプランナを拡張したものが用いられている.その 他,3次元配置を表現するシーケンストリプルやTCGなどの形式も提案されている[13,14,15,16].

得られた解は評価関数によって得点付けされる.得点付けの方法は,評価関数の各項を重み付けし,その和を用いる.評価関数の項は,フットプリント,配線長,熱密度,TSVの本数,配線 アクティビティなどが使用される [7,8,9,17].

#### 2.2 TSV の配置

一般的な3次元フロアプランナではTSVの配置場所はそれを必要としているモジュール内,も しくはフロアプラン決定後のモジュールが配置されていない場所(ホワイトスペース)に配置す るものとされる[17].しかし,数百ビットにまで及ぶ層間配線が必要とされる場合,TSVの必要 総面積は小さなモジュールを上回る程になる.このことからTSVの配置を考慮することはより良 いフロアプランを得るために効果的であると言える.

しかし TSV の総数はモジュールの数の数十倍から数百倍にまで及び,一本一本の配置を最適化 するのは現実的ではない.そこで Tsai らは2 段階のアルゴリズムで TSV の配置を決定する手法を 提案している [18].彼らの手法では,まず探索アルゴリズムの結果得られたフロアプランに生じ たホワイトスペースを TSV 割当可能領域である「TSV ブロック」として数え上げる.そして TSV を必要とするエッジに対して,一番配線長が短くなるような TSV ブロックを割当て,TSV ブロッ クの容量が足りなくなった場合には TSV ブロックを拡大して容量を確保し,フロアプランを決定 する.次に TSV ブロック内に配置された TSV に対してどのエッジがどの TSV を使用するかをフ ローネットワークによって決定する.彼らはこの手法を用いて TSV の配置を考慮したフロアプラ ンと従来のフロアプランを比較し,彼らのフロアプランの方が配線長が約22.3%程度削減できる ことを示した.

### 第3章 3次元プロセッサのためのフロアプランナ

#### 3.1 システム概要

プロセッサにおける最適なモジュール配置は未だ定まっておらず,求めるのは非常に困難である.そこでフロアプランナを用いることで準最適なモジュール配置を導き出す[17].フロアプランナのシステム概要を図3.1.1 に示す.入力として以下の1.~3.を与える.

- 1. 各モジュールの面積,消費電力
- 2. バンド幅,通信回数
- 3. TSV 長, 層数などのパッケージパラメタ

バンド幅,通信回数,各モジュールの面積と消費電力は,パイプラインシミュレータおよび面積・ 電力シミュレータと連動することにより取得する.TSV 長や層数は想定するプロセッサに応じて 自由に設定出来る.得られた入力をフロアプランナに用いることでフロアプランの見積もりが可 能となる.得られたフロアプランの評価は評価関数の項であるフットプリント,配線アクティビ ティもしくは配線長,熱密度を重み付けし,その和によって評価する.

#### 3.2 SA

金属工学での焼きなましでは金属材料を熱して高温の状態から除々に温度を下げる事で強固な結 晶構造を持つ金属を生成する.SAでは焼きなましからの類推である温度と呼ばれる制御パラメー タを使用し,予め設定した温度から探索を開始し,一定温度で一定回数解探索を行った後一定値 温度を下げ,再び解探索をする.この操作を予め設定した終了温度に達するまで繰り返す.温度 が高い時には解の大きな変化が起こりやすいが,温度が下がるにつれて一定の解に収束していく. 通常,SAを行う際には初期温度,終了温度,一定回数解探索を行った後にどれだけ温度を下げる かを設定する.初期温度に関してはありとあらゆる解の変化を許容するために十分に高い温度に 設定する.また,終了温度に関しても解が収束するように十分に低く設定する.SAにおける一定 回数の探索後にどの程度温度を下げるのかを式 3.2.1 に表す. $T_t$ は変更後の温度,rは温度変化の 割合, $T_{t-1}$ は現在の温度である.rの値は 0.8 ≤ r ≤ 0.99 の範囲で選ばれる.

$$T_t = rT_{t-1} (3.2.1)$$

SA において開始から収束するまでの様子を図 3.2.1 に示す.フロアプランナにおける SA の操作 は以下の中から選択される.

- 悪い通信路を持つモジュールを選択してランダムに移動させる (swap)
- 熱密度が大きい場所にあるモジュールを選択してランダムに移動させる(swap)



図 3.1.1: システム概要

- ランダムに選択したモジュールの位置をランダムに移動させる (swap)
- ランダムに選択したモジュールの幅を大きくする (soft)
- ランダムに選択したモジュールの幅を小さくする (soft)
- ランダムに選択したモジュールの高さを大きくする (soft)
- ランダムに選択したモジュールの高さを小さくする (soft)
- ランダムに選択したモジュールのアスペクト比をランダムに変更する (soft)

SA での処理を図 3.2.2 に示す.







図 3.2.2: SA の処理

#### 第4章 本論文での提案

#### 4.1 TSV モジュール

3次元積層プロセッサにおいて層間結線は必要不可欠なものになっている.層間結線が増えるに 従い,必要となるTSVの数も増加し,その影響も無視できなくなって来ている[18].Tsaiらの手 法において,TSV はモジュール配置後に生じたホワイトスペースに割り当てられる.このため配 置上ホワイトスペースが生じにくい場所にはTSV を配置することが出来ないので配線長を最適化 出来ていない.そこで本論文ではモジュール配置の段階でTSV の配置を考慮するアルゴリズムを 提案する.

本論文のアルゴリズムでは, TSV の配置を探索するために他のモジュール同様 SA によって配 置探索を行う.この際, TSV 一本一本について探索を行うと組み合わせが爆発し,計算時間が膨 大となってしまう.そこで,複数の TSV を割り当てることが出来る「TSV モジュール」を導入す ることで現実的な計算時間で探索を行うことを可能とする.本論文では TSV モジュールを数個~ 十数個導入し,その配置を明示的にするために他のモジュール同様にシーケンスペアによって表 現する.

層間に必要な TSV の数はモジュールの配置によって変動する.例えば,結線幅が大きなモジュール同士が異なる層に配置されれば多くの TSV が必要となる.よって結線幅が大きなモジュール同士は同層の近場に配置されることが望ましい.また,モジュール同士が層間結線を行う場合,複数ある TSV モジュールの中から最も配線長が短くなるような TSV モジュールを使用する.このため,TSV モジュールのフットプリントはモジュールの配置が決定するまでは可変のものとして扱い,TSV が割り当てられなかった TSV モジュールの面積は0となる.

フロアプラン生成において TSV モジュールは他のモジュール同様 swap の対象となるが,他の モジュールと違う点は同層のみでの swap となる点である.これは,TSV を必要しない最下層に 「TSV モジュール」が移動する事や,TSV を必要としている上層から TSV モジュールがなくなる ことを防ぐためである.TSV モジュールはパラメタとして与えられ,初期解生成時に最下層以外 の各層へ等分に配置され,フロアプランが更新されてもその層に存在する TSV モジュールの数は 不変となる.

#### 4.2 TSV の配置

SA のループ内において TSV モジュールの配置決定後に TSV モジュールへの TSV の配置を行う.層間配線が生じた全てのモジュール対について,間の全ての TSV モジュールの中から最も配線長が短くなるものを選択し,使用した TSV モジュールの TSV 割当数をその配線のビット幅の数だけ加算する.

TSV モジュールへの TSV の割当数が決定された後,各 TSV モジュールを割当数に応じてフットプリントの変更を行う.TSV モジュールの変形後にフロアプランの配置が決定し,評価関数に



図 4.3.1: 提案アルゴリズムの概要フローチャート

よって点数付けを行う.

#### 4.3 提案実装

我々の配置アルゴリズムを SA フローに導入した時のフローチャートを図 4.3.1 に示す.今回の フロアプランナでは SA における温度変化の割合は 0.9 とした.モジュールの swap 操作と soft 操 作の中で swap 操作が行われる確率を式 4.3.1 で表す.*Threthold<sub>max</sub> と Threthold<sub>min</sub>* はそれぞれ実 行の最初で swap 操作が行われる割合と soft 操作が行われる割合である.

$$\left(\frac{現在の温度 - 終了温度}{ 開始温度 - 終了温度} \times (Threthold_{max} - Threthold_{min}) + Threthold_{min}\right) \times 100$$
(4.3.1)

swap 操作の方が soft 操作に比べて解を大きく変動させることが多く, SA の初期段階である温度 が高い状態では大きく変化した近傍解を得られる.今回,我々が実装したフロアプランナでは実 行の初期段階で Threthold<sub>max</sub> と Threthold<sub>min</sub> をそれぞれ 0.8 と 0.2 とした.探索が進み,温度を下 げていくにつれて swap 操作の割合が減っていき代わりに soft 操作の割合が増加する.最終的に は swap 操作と soft 操作の割合はそれぞれ 0.2 と 0.8 となる.soft 操作では swap 操作に比べて解の 変化は少なく, SA の終盤ではフロアプランの大きな変化が起こりにくくなっている.また,近傍 解が生成された時にその解が改悪だった場合にその解を採用する条件を式 4.3.2 に表す. Rand は 0 < Rand < 1 の間のランダムな値を取る.

$$Rand < e^{-\frac{\overline{n} \square O M - \overline{n} \cup 1/M}{\overline{n} \pm \sigma_{\square E}}}$$
(4.3.2)

SA の結果得られたフロアプランの評価は評価関数を用いて行う.評価関数の項はフットプリント, 配線アクティビティ, 熱密度を用いた. 配線長, 通信回数, バンド幅を掛けあわせることによって生成した配線アクティビティを用いることで, より最適化されたフロアプラン評価を可能

とした.モジュール接続の際の配線長は重心間のマンハッタン距離を用いて算出した.これはモジュールの重心から接続先のモジュールの重心までの距離を直交する座標軸に沿って計測するものである.しかし,TSV モジュールを導入していないフロアプランにおいては層間結線をしているモジュール同士の配線長計測にこの方法を用いると、実際には配線できないような層を貫通する経路で配線していると仮定して計算してしまう.そこでTSV モジュールを導入していないフロアプランでの配線長計測についてはモジュールの重心から近いホワイトスペースまでの距離を計算することで算出した.また,熱の評価に関しては Cong らの手法を用いた [9].各項の重みについては,それぞれ各項のみを評価関数としてモンテカルロ法を実行し,各項の重みがそれぞれ同じになるように係数を設定した.まず,評価関数の各項についてその項のみを評価関数としたモンテカルロ法を実行する.次にモンテカルロ法によって得られた各項の結果について $\alpha$ ×フットプリント: $\beta$ ×配線アクティビティ: $\gamma$ ×熱密度 = 1:1:1となるように $\alpha$ , $\beta$ , $\gamma$ を決定する.

|                              | 1                                       |          |
|------------------------------|-----------------------------------------|----------|
| 評価をとるフロアプラン                  | 開始温度                                    | 終了温度     |
| 1core / 2layer               | 3000000000000                           | 25000.0  |
| 1core / 2layer / tsvmodule6  | 3000000000000                           | 25000.0  |
| 1core / 2layer / tsvmodule12 | 3000000000000                           | 25000.0  |
| 1core / 2layer / tsvmodule15 | 3000000000000                           | 25000.0  |
| 1core / 3layer               | 300000000000                            | 25000.0  |
| 1core / 3layer / tsvmodule6  | 3000000000000                           | 25000.0  |
| 1core / 3layer / tsvmodule12 | 3000000000000                           | 25000.0  |
| 1core / 4layer / tsvmodule15 | 3000000000000                           | 25000.0  |
| 1core / 6layer / tsvmodule15 | 3000000000000                           | 25000.0  |
| 2core / 2layer               | 500000000000000                         | 416666.7 |
| 2core / 2layer / tsvmodule6  | 500000000000000000000000000000000000000 | 416666.7 |
| 2core / 2layer / tsvmodule12 | 500000000000000                         | 416666.7 |
| 2core / 3layer               | 5000000000000000                        | 416666.7 |
| 2core / 3layer / tsvmodule6  | 500000000000000000                      | 416666.7 |
| 1core / 3layer / tsvmodule12 | 500000000000000000000000000000000000000 | 416666.7 |

表 4.1: シミュレーテッドアニーリングでの開始温度と終了温度

### 第5章 評価環境

本論文ではアーキテクチャ1 コア及び2 コアについて評価を行った.プロセスルールを 22nm とし, TSV1 本の面積を3 µ m × 3 µ m, 長さを 30 µ m とした.アーキテクチャのブロック図を図 5.0.1, 各キャッシュサイズを表 5.1 に示す.一般的にコンピュータシステムの性能評価にはベン

表 5.1: キャッシュサイズ

| level 1 instruction cache | 32kB  |
|---------------------------|-------|
| level 1 data cache        | 32kB  |
| level 2 cache             | 256kB |

チマークと呼ばれるものを使用する.今回は CPU やメモリの総合的な評価ができる SPEC ベンチ マークがこれらの入力を用いて実行した時の挙動を用いてフロアプランを得る.評価をとるフロ アプランを表 5.2 に示す.本論文では1コアと2コアについて層数や導入する TSV モジュールの

| コア数        | 層数 | TSV モジュール |  |
|------------|----|-----------|--|
| 1core      | 2  | 0         |  |
| 1core      | 2  | 6         |  |
| 1core      | 2  | 12        |  |
| 1core      | 2  | 15        |  |
| 1core      | 3  | 0         |  |
| 1core      | 3  | 6         |  |
| 1core      | 3  | 12        |  |
| 1core      | 4  | 15        |  |
| 1core      | 6  | 15        |  |
| 1core 並列   | 2  | 0         |  |
| 1core 並列   | 2  | 12        |  |
| 2core same | 2  | 0         |  |
| 2core      | 2  | 0         |  |
| 2core      | 2  | 6         |  |
| 2core      | 2  | 12        |  |
| 2core      | 3  | 0         |  |
| 2core      | 3  | 6         |  |
| 2core      | 3  | 12        |  |
|            | -  | •         |  |

表 5.2: 評価項目

数を変えた評価を取得する.1 コア2積層に関して,導入するTSV モジュール数を0個,6個,12 個,15 個と変えたフロアプランを得る.また,1 コア3積層に関しては,導入するTSV モジュー ル数を0個,6個,12 個と変えたフロアプランを得る.さらに多積層でのTSV モジュールの影響 を見るためにTSV モジュールを15 個導入した1 コア4層と1 コア6積層の結果を取得する.1 core 並列に関しては1 core での実行結果を並列に接続することで2 core としたものの結果を取得した. 今回は1 コア2層のものと1 コア2層TSV モジュール6個のものをそれぞれ並列積層して2 コア



図 5.0.1: アーキテクチャのブロック図

2層,2コア2層TSVモジュール12個とした.また,2core same に関しては1コア1層として層 間のモジュールの移動は行わず,層ごとにモジュールをSAにかけたものを積み重ねるモードの結 果を取得した.その他に2コア2積層に関して,導入するTSVモジュール数を0個,6個,12個 と変えたフロアプランを得る.また,2コア3積層に関して,導入するTSVモジュール数を0個, 6個,12個と変えたフロアプランを得る.フロアプランナの入力について,SPECベンチマークに おいてプロセッサシミュレータのonikiri2を10G命令スキップ1G命令実行し,アクティビティを 取得した.また,面積・電力シミュレータMcPATを実行して各モジュールの面積と電力を取得し た.得られた電力の値を元に,最上層のヒートシンクに向かって熱が放散すると仮定して熱の偏 りを近似する.今回の評価に用いた各モジュールの面積と消費電力および消費電力/面積を正規化 したグラフを図 5.0.2 に示す.また,バンド幅およびアクティビティを正規化したグラフを図 5.0.3 に示す.



図 5.0.2: 各モジュールのフットプリントおよび消費電力



図 5.0.3: モジュール間のバンド幅およびアクティビティ

### 第6章 評価

提案アルゴリズムより得られたフロアプランを以下に示す.図 6.0.1 から図 6.0.9 に関しては,1 コアについての結果である.図 6.0.1,図 6.0.2,図 6.0.3,図 6.0.4 は層数 2 のフロアプランでそれ ぞれ導入している TSV モジュールの数が0個,6個,12個,15個である.図6.0.5,図6.0.6,図 6.0.7 は層数 3 のフロアプランでそれぞれ導入している TSV モジュールの数が 0 個,6 個,12 個 である.図 6.0.8 は層数4,導入している TSV モジュールが15 個のフロアプランである.図 6.0.9 は層数 6,導入している TSV モジュールが 15 個のフロアプランである.また,図 6.0.10 から図 6.0.18 は 2 コアについての結果である. その中でも図 6.0.10 と図 6.0.11 は 1 コアの結果を並列に積 層したものである.図 6.0.12 は 1core1 層のフロアプランを積層したものであり,層間結線は行わ ないため TSV モジュールは必要としない.図 6.0.13,図 6.0.14,図 6.0.15 は層数 2 のフロアプラ ンでそれぞれ導入している TSV モジュールの数が0個,6個,12個である.図 6.0.16,図 6.0.17, 図 6.0.18 は層数 3 のフロアプランでそれぞれ導入している TSV モジュールの数が 0 個, 6 個, 12 個である.図6.0.1,図6.0.2,図6.0.3,図6.0.4のように同じ層数で導入するTSVモジュールの数 を変化させたものを比較することで TSV モジュールが増減した時のモジュール配置の影響や TSV モジュールを導入することによる配線長への影響を見ることが出来る.また,図 6.0.4,図 6.0.8, 図 6.0.9 のように導入する TSV モジュール数を固定し,積層数を変化させることで層数の変化によ る TSV モジュールの最適な配置場所や面積の変化を確認する事が可能となる.さらには図 6.0.10 と図 6.0.13 および図 6.0.11 と図 6.0.18 を比較した時にモジュールレベルの配置とコアレベルでの 配置を比較することができる.青,水色部分がキャッシュおよびメモリ,赤,ピンク部分が演算部, 緑,灰色部分がフロントエンド,黄色がTSV モジュールを表している.







図 6.0.2: 1core / 2layer / tsvmodule6











⊠ 6.0.4: 1core / 2layer / tsvmodule15









🖾 6.0.6: 1core / 3layer / tsvmodule6





図 6.0.7: 1core / 3layer / tsvmodule12



図 6.0.8: 1core / 4layer / tsvmodule15



⊠ 6.0.9: 1core / 6layer / tsvmodule15



図 6.0.10: 1core / 2layer / 並列積層



図 6.0.11: 1core / 2layer / tsvmodule6 /並列積層



⊠ 6.0.12: 2core / samelayer







🗷 6.0.14: 2core / 2layer / tsvmodule6



図 6.0.15: 2core / 2layer / tsvmodule12



🖾 6.0.16: 2core / 3layer





⊠ 6.0.17: 2core / 3layer / tsvmodule6



🖾 6.0.18: 2core / 3layer / tsvmodule12

これら全てのフロアプランの図において,アクティビティが高いデータパス部分,特に赤やピンクで表している演算器同士が隣接しており,配線の最適化を行う事が出来てることがわかる.また,TSV モジュールを導入しているフロアプランにおいて,シーケンスペアによるモジュール配置ではホワイトスペースが出来ないような場所にTSV モジュールが多く存在している.これにより,従来の手法ではTSV を配置できないような場所にTSV の配置場所として有効な場所が存在する事がわかり,TSV モジュールの有効性がわかる.

次にそれぞれのフロアプランについて配線アクティビティ,フットプリント,熱密度の評価を取 る.図6.0.19に1コアについての配線アクティビティの結果,図6.0.20に2コアの配線アクティビ ティを示す.図 6.0.21 に 1 コアについてのフットプリント,図 6.0.22 に 2 コアについてのフットプ リントの結果を示す.また,図 6.0.23 に1 コアについての熱密度,図 6.0.24 に 2 コアについての 熱密度の結果を示す. 配線アクティビティは配線長×バンド幅×通信回数なので無次元である.ま た,熱密度に関しても熱の標準偏差なので無次元である.図 6.0.19 及び 6.0.20 より TSV モジュー ルを導入しているフロアプランは導入していないフロアプランよりも配線アクティビティが改善 している事がわかる.これにより,TSV モジュールを導入することでTSV の配置を考慮したフロ アプランが可能であることがわかり,配線長の減少に効果があることがわかる.図 6.0.21 及び図 6.0.22 から TSV モジュールを導入しているフロアプランの面積は導入していないフロアプランの 面積とあまり変わらないことがわかる.これにより, TSV モジュールを導入し, 配線長の最適化 を目指してもフロアプランの面積は大きく悪化しないことが確認できた.また,積層数が増える ことで面積が減少していることがわかり,積層することでの利点を確認することが出来る.さら に図 6.0.23 及び図 6.0.24 から層数が増加することで熱密度が悪化していることがわかる.これは 積層を行えば行うほど、ヒートシンクから遠い層のモジュールの熱が逃げにくくなってしまうか らである.また,TSV モジュールを導入することで熱密度の悪化が見られるが,これは配線長の 減少を重視したモジュールの配置とモジュール数の増加によってモジュール配置の柔軟性が制限 され,熱の最適化が行えていなかったからだと考えられる.



図 6.0.19: 1core / 配線アクティビティ



図 6.0.20: 2core / 配線アクティビティ



図 6.0.21: 1core / 面積



図 6.0.22: 2core / 面積



図 6.0.23: 1core / 熱密度



図 6.0.24: 2core / 熱密度

次に各フロアプランの結果から入力した TSV モジュールの中から実際に使われている数を表 6.1 に示す.この結果から,コア数や層数が増加すると必要となる TSV モジュール数が増加する傾向

| フロアプランナ                      | 面積が0になっていない TSV モジュール |  |
|------------------------------|-----------------------|--|
| 1core / 2layer / tsvmodule6  | 4個                    |  |
| 1core / 2layer / tsvmodule12 | 7個                    |  |
| 1core / 2layer / tsvmodule15 | 8個                    |  |
| 1core / 3layer / tsvmodule6  | 5個                    |  |
| 1core / 3layer / tsvmodule12 | 10 個                  |  |
| 1core / 4layer / tsvmodule15 | 7個                    |  |
| 1core / 6layer / tsvmodule15 | 10 個                  |  |
| 2core / 2layer / tsvmodule6  | 6個                    |  |
| 2core / 2layer / tsvmodule12 | 8個                    |  |
| 2core / 3layer / tsvmodule6  | 6個                    |  |
| 2core / 3layer / tsvmodule12 | 11 個                  |  |

表 6.1: 必要 TSV モジュール数

にあることがわかる.積層を行えば行うほど積層間結線が増加するのでこの結果は妥当であるといえる.またコア数が増える事で結線するモジュールが増えるので必要となる TSV 数も増加する.

### 第7章 まとめ

今回本論文ではシングルコアプロセッサとマルチコアプロセッサについて TSV モジュールを導入したフロアプランについての評価を行った.TSV モジュールを導入することでいままでより配線が向上したフロアプランを得ることが出来た.これはシングルコアだけではなくマルチコアでも同様なことが言えた.また,従来のシーケンスペアではホワイトスペースが出来ないような位置にTSV モジュールが存在することで,本来の手法では配置されないような場所にも TSV を配置するのに適した場所が存在する事がわかった.しかし,TSV モジュールを導入することでモジュール数が増えて,SA の実行時間が増えてしまったので今後はよりいっそうの SA の高速化を目指す.

### 謝辞

本研究を進めるにあたり,多大なるご指導,ご助言を頂いた,入江英嗣准教授,吉永努教授,吉 見真聡助教に深く感謝します.また,普段の研究の中で様々な協力をしていただき,時には心の 支えになっていただいた吉永研究室・入江研究室の先輩,同期,後輩の皆様に感謝します.本研究 は,科研費若手研究25730028「新アーキテクチャによる高効率プロセッサコアおよびそのマルチ コア構成の研究」の助成を受けたものであり,科研費に感謝いたします.

### 参考文献

- [1] John L. Hennessy and David A. Patterson. *Computer Architecture, Fourth Edition: A Quantitative Approach*. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2006.
- [2] Cha-Ru Li, Wai-Kei Mak, and Ting-Chi Wang. Fast fixed-outline 3-d ic floorplanning with tsv co-placement. *IEEE Transactions on Very Large Scale Integration (VLSI) Systems*, pp. 523–532, 2013.
- [3] Koji Inoue. Research trends: 3d integrated microprocessor/memory architectures. *IPSJ SIG Technical Report*, pp. 1–4, 2011.
- [4] T. Hanada, H. Sasaki, K. Inoue, and K. Murakami. Performance evaluation of 3d stacked multicore processors with temperature consideration. In *3D Systems Integration Conference (3DIC)*, 2011 IEEE International, pp. 1–5, 2012.
- [5] M.A. Ahmed and M. Chrzanowska-Jeske. Delay and power optimization with tsv-aware 3d floorplanning. In 15th International Symposium on Quality Electronic Design (ISQED), 2014, pp. 189– 196, 2014.
- [6] Kiran Puttaswamy and Gabriel H. Loh. Thermal analysis of a 3d die-stacked high-performance microprocessor. In *Proceedings of the 16th ACM Great Lakes Symposium on VLSI*, pp. 19–24, 2006.
- [7] Y. Shiyanovskii, C. Papachristou, and Cheng-Wen Wu. Analytical modeling and numerical simulations of temperature field in tsv-based 3d ics. In *14th International Symposium on Quality Electronic Design (ISQED), 2013*, pp. 24–29, 2013.
- [8] Yuan Xie, Gabriel H. Loh, Bryan Black, and Kerry Bernstein. Design space exploration for 3d architectures. J. Emerg. Technol. Comput. Syst., pp. 65–103, 2006.
- [9] J. Cong, Jie Wei, and Yan Zhang. A thermal-driven floorplanning algorithm for 3d ics. pp. 306–313, 2004.
- [10] Zhipeng Liu, Jinian Bian, Qiang Zhou, Liu Yang, and Yunfeng Wang. Interconnect power optimization based on the integration of high-level synthesis and floorplanning. In 2006 International Conference on Communications, Circuits and Systems Proceedings, pp. 2286–2290, 2006.
- [11] H. Murata, K. Fujiyoshi, S. Nakatake, and Y. Kajitani. Vlsi module placement based on rectanglepacking by the sequence-pair. *IEEE Transactions on Computer-Aided Design of Integrated Circuits* and Systems, pp. 1518–1524, 1996.

- [12] R. Hayashi, H. Ohta, and K. Fujiyoshi. A novel representation for 3d-lsi floorplan: Merged ft squeeze. In 2012 IEEE Third Latin American Symposium on Circuits and Systems (LASCAS), pp. 1–4, 2012.
- [13] K. Bazargan, R. Kastner, and M. Sarrafzadeh. 3-d floorplanning: simulated annealing and greedy placement methods for reconfigurable computing systems. In *IEEE International Workshop on Rapid System Prototyping*, 1999, pp. 38–43, 1999.
- [14] Hiroyuki YAMAZAKI, Keishi SAKANUSHI, Shigetoshi NAKATAKE, and Yoji KAJITANI. The 3d-packing by meta data structure and packing heuristics(special section on discrete mathematics and its applications). *IEICE transactions on fundamentals of electronics, communications and computer sciences*, pp. 639–645, 2000.
- [15] 正木貴大, 瀬尾賢治, 大村道郎. 3 次元 vlsi におけるニューラルネットワークを用いた初期配置 手法. Technical Report 7(2002-SLDM-108), jan 2003.
- [16] Jai-Ming Lin and Yao-Wen Chang. Tcg: a transitive closure graph-based representation for nonslicing floorplans. In *Design Automation Conference*, 2001. Proceedings, pp. 764–769, 2001.
- [17] 入江英嗣, 放地宏佳, 稲場朋大, 眞島一貴, 藤原大輔, 吉見真聡, 吉永努. 配線アクティビティを 考慮した3次元積層プロセッサ向けフロアプランナ. 情報処理学会論文誌. コンピューティン グシステム, Vol. 6, No. 3, pp. 131–145, sep 2013.
- [18] Ming-Chao Tsai, Ting-Chi Wang, and TingTing Hwang. Through-silicon via planning in 3-d floorplanning. Very Large Scale Integration (VLSI) Systems, IEEE Transactions on, Vol. 19, No. 8, pp. 1448–1457, Aug 2011.

発表論文

- [1] 村田篤志 稲場朋大 吉見真聡 入江英嗣 吉永努 "TSV モジュールの配置最適化アルゴ リズムの提案 "信学技報, vol. 114, no. 506, CPSY2014-169, pp. 43-48, 2015 年 3 月
- [2] 村田篤志,野村隼人,吉見真聡,入江英嗣,吉永努,坂井修一 "3次元積層プロセッサ向 けフロアプランナの可視化" 信学技報, vol. 115, no. 243, CPSY2015-58, pp. 63-65, 2015 年 10月