ここ最近は7980XEでベンチマークをして遊んでいたのだけど(↓)、
7980XE メモリ/キャッシュベンチマーク7980XEベンチマーク面白そうなAWS情報を耳にした。
どうやらAWSにc5インスタンスなるものが入り、これはSkylake Xeonなのだということなので、ついでに簡単にベンチマークしてみた。
比較対象 (全部オレゴン)
インスタンス名 | c5.9xlarge | c4.8xlarge | c3.8xlarge |
CPU | Platinum 8124M x1 | E5-2666 v3 x2 | E5-2680 v2 x2 |
CPU Gen | Skylake-EP | Haswell | IvyBridge |
コア数 | 18C/36T x1 | 9C/18T x2 | 8C/16T x2 |
定格クロック | 3.0 | 2.9 | 2.8 |
Uncore/Meshクロック | ? | ? | ? |
メモリ速度 | ? | ? | ? |
OS | Ubuntu 17.10 |
注意しないといけないのは、各インスタンスでコア数はほぼ同じなものの、ソケット数が異なるという点。c5.9xlargeだけは1ソケット、他は2ソケットという構成で、このあたりはメモリ帯域に効いてくると思われる。
ほんとはWindowsでやりたかったのだけど、Linux使ってるのは、WindowsだとAWSの価格が高いため。でもCinebenchもやってみたかった気もする。
使用ソフトウェアいつものメモリ速度測るやつ (AVX512対応)
y-cruncher 0.7.4 Linux版himenoベンチ 改造版 (OpenMP/C言語/dynamic alloc/gcc7ビルド/SSE/AVX2/AVX512)
y-cruncher 0.7.4 Linux版
まず演算速度を見るということでy-cruncher。

AVX-512対応なので、もうc5.9xlarge(SKX)が圧倒的だ。とはいえ、単純にc4.8xlarge(HSW)の2倍にはならない。これは、やはりAVX512に乗せたからと言って2倍にはならないということを意味する。
一方、c3→c4はコア数の増加もあって2倍以上速い。
ram_speed
じゃあメモリ帯域は? ということでいつものベンチマーク。
まずはシングルスレッド版。

L1の帯域が、各世代で倍増してきたのがはっきりと見て取れる。Skylake-EPでのL2強化を反映して、c5.9xlargeのL2も恐ろしい速さ。
ところが、c5.9xlargeのL3は最下位に沈む…ということでまあ、7980XEでもみたのと同じ傾向が見える。(意外とそれでもベンチマークの性能はよい不思議)
次にマルチスレッド版。

シングルスレッド版とほぼ同じ傾向。c5.9xlargeはL1/L2の帯域は圧倒的だ。
スレッド数を変えた時のメモリ帯域。

c3.8xlrageとc4.8xlargeは階段状になっている。これは、c3の9スレッド目/c4の10スレッド目から、2つ目のソケットが使われ始めるから。一方、c5.9xlargeは1ソケットであるため、こうした階段はない。
c5.9xlargeは1ソケットのため、2ソケット分のメモリ帯域を使えるc3やc4と比べ不利なはずだが、c3 x2ソケットとほぼ同等、c4 x2ソケットと比べてもちょい勝負ができていて、なかなかすさまじい。
ただまあ、DDR4-2666 6chとすると理論帯域は128GB/sで、それと比べると実効帯域は少し低いのかなあ、という気がする。VMのオーバーヘッドもあるのだろうか?
姫野ベンチ Lサイズ改造版 (OpenMP/C言語/dynamic allocation/gcc7ビルド/SSE/AVX2/AVX512)
では最後に姫野ベンチ(Lサイズ)。
まあ、これも要するにメモリベンチなんだけど…。

c5.9xlargeは8~9スレッドぐらいまで圧倒的な速度だが、そのあと伸びない。これはメモリ帯域をこのあたりで使い切ってしまったなのだと思う。
一方、c3.8xlargeやc4.8xlargeは8スレッドぐらいまではSkylakeとの差がかなりおいていかれているが、12スレッドぐらいからは2ソケット目を使い始めるので、これにより2ソケット目のメモリ帯域も使用可能になり速度が伸びていき、c5.9xlargeを最終的に上回る結果に。
まあ、多コアCPUはコア当たりのメモリ帯域がどうしても低くなってしまうので、その弱点が見えてくるベンチマークだと思う。
というわけで、どちらかとというメモリ系のベンチマークが多くなってしまったけど、c5.9xlargeは1ソケットにもかかわらず、2ソケットのc3.8xlargeやc4.8xlargeと互角に戦えていて、さすがの性能だと思う。
ちょっと使えなかったのだけど、c5.18xlargeとかを使えば、もっと恐ろしい速度に…。(まあお値段もその分…)
にしても、海の向こうのサーバでVMを簡単に立ち上げて、こうしたベンチマークがさくっとできるのは、まあ、なかなかすごい時代になったものだと思う。
スポンサーサイト