7980XEのキャッシュ/メモリ帯域
7980XEはキャッシュとメモリ速度の測定。
7980XEはAVX512対応に伴い、ついにL1キャッシュについてはRead 128byte/cycle, Write 64byte/cycleとなった。またL2もかなり強化され、高速かつ大容量に。
そのかわりL3が…。
環境
比較する環境はこちら。以前やった3.6GHz固定のものと同じです。
測定につかったのはこちら。AVX-512対応済み。
まず、シングルスレッドから。
L1 = 32KBまで
L2 = 1024KBまで
L3 = 26368KBまで
片対数グラフ。

下のほうがわかりにくいので両対数版も。

AVX-512対応に合わせ、L1/L2キャッシュの領域で非常に高速になっている。
ただ、L3キャッシュは29GB/sというまさかの遅さで、5960Xや1700よりだいぶ遅いという事態に。メッシュを3.0GHzまで引っ張ってこれだから、デフォルトだといったいどれだけ遅いのだろうか。
リングからメッシュにしたことで速くなったみたいな話があったが、レイテンシはともかく帯域の面ではかなり遅くなってしまっていることがわかる。
次にマルチスレッド。
L1 = 576KBまで
L2 = 18432KBまで
L3 = 43776KBまで
片対数グラフ。

下のほうがわかりにくいので両対数版も。

18コアもあるためにL1キャッシュの速度の総和がすさまじいことになり、7.7TB/sにもなっている。L2も3TB/s弱と恐ろしい速度。ところがL3が弱いのはマルチスレッドでも明白で、300GB/sちょいと、8コアの5960XのL3と同じぐらい。
今度はスレッド数を変えた時のメモリアクセス速度(読み込み)。

7980XEは1スレッドの速度はあまり振るわないもののかなり優秀で、同じDDR4-2666, 4chの5960Xと比べても、特に並列数を増やした時の帯域が増していて、最大で75GB/s前後出ている。
Skylake-Xでは、いろいろなベンチマークでよいスコアが出ているが、今回はかってみてわかったように、L1/L2の強化、実行メモリ帯域の向上などの効果も大きいのかと思う。
一方L3の帯域は18コアのわりに残念なことに…。(しかもオーバークロック状態なのに…)
まあそれでもいろんなベンチマークで良いスコアが出ているということは、大容量キャッシュによるレイテンシ削減の効果が重要で、帯域自体はこのぐらいでよいということかもしれないし、あるいはL1/L2の性能向上のインパクトが大きくて、L3の問題を覆い隠しているのかもしれない。
7980XEはAVX512対応に伴い、ついにL1キャッシュについてはRead 128byte/cycle, Write 64byte/cycleとなった。またL2もかなり強化され、高速かつ大容量に。
そのかわりL3が…。
環境
比較する環境はこちら。以前やった3.6GHz固定のものと同じです。
CPU | i9 7980xe | i7 5960x | R7 1700 | |
コア数 | 18C/36T | 8C/16T | 8C/16T | |
Max Coreクロック | 3.6 | 3.6 | 3.6 | |
Max Uncore/Meshクロック | 3.0 | 3.6 | - | |
メモリ速度 | DDR4-2666, 4ch | DDR4-2666, 4ch | DDR4-2666, 2ch | |
メモリ容量 | 16GB | 32GB | 8GB | |
マザー | Asrock X299 OC Formula | Asrock Fatalty X99 Gaming i7 | Asrock AB350 Pro4 | |
OS | Win10 Pro x64 | Win10 Pro x64 | Win10 Pro x64 |
測定につかったのはこちら。AVX-512対応済み。
まず、シングルスレッドから。
L1 = 32KBまで
L2 = 1024KBまで
L3 = 26368KBまで
片対数グラフ。

下のほうがわかりにくいので両対数版も。

AVX-512対応に合わせ、L1/L2キャッシュの領域で非常に高速になっている。
ただ、L3キャッシュは29GB/sというまさかの遅さで、5960Xや1700よりだいぶ遅いという事態に。メッシュを3.0GHzまで引っ張ってこれだから、デフォルトだといったいどれだけ遅いのだろうか。
リングからメッシュにしたことで速くなったみたいな話があったが、レイテンシはともかく帯域の面ではかなり遅くなってしまっていることがわかる。
次にマルチスレッド。
L1 = 576KBまで
L2 = 18432KBまで
L3 = 43776KBまで
片対数グラフ。

下のほうがわかりにくいので両対数版も。

18コアもあるためにL1キャッシュの速度の総和がすさまじいことになり、7.7TB/sにもなっている。L2も3TB/s弱と恐ろしい速度。ところがL3が弱いのはマルチスレッドでも明白で、300GB/sちょいと、8コアの5960XのL3と同じぐらい。
今度はスレッド数を変えた時のメモリアクセス速度(読み込み)。

7980XEは1スレッドの速度はあまり振るわないもののかなり優秀で、同じDDR4-2666, 4chの5960Xと比べても、特に並列数を増やした時の帯域が増していて、最大で75GB/s前後出ている。
Skylake-Xでは、いろいろなベンチマークでよいスコアが出ているが、今回はかってみてわかったように、L1/L2の強化、実行メモリ帯域の向上などの効果も大きいのかと思う。
一方L3の帯域は18コアのわりに残念なことに…。(しかもオーバークロック状態なのに…)
まあそれでもいろんなベンチマークで良いスコアが出ているということは、大容量キャッシュによるレイテンシ削減の効果が重要で、帯域自体はこのぐらいでよいということかもしれないし、あるいはL1/L2の性能向上のインパクトが大きくて、L3の問題を覆い隠しているのかもしれない。
スポンサーサイト