Xeon E5-2680v4搭載システム 姫野ベンチマーク評価、その他

1CPU当たり14コアを持つXeon E5-2680v4を2個と、64GB(8GB DDR4-2133 ECC REG x8枚)を搭載するシステムPOWER MASTER Vision S4394にて、姫野ベンチマークによる計測を行ってみました。

【環境】

  • Xeon E5-2680v4 (14Core/2.4GHz/35MB/QPI 9.6GT/120W) x 2個
  • 8GB DDR4-2400 ECC REG x 8枚
  • Supermicero X10DAi
  • OS:CentOS7.1 x86_64
  • GNUコンパイラ:GCC 4.8.5
  • OpenMPI:1.8.5
  • 姫野ベンチ:himenoBMTxp_l size L
  • 姫野ベンチ並列バージョン:cc_himenobmt_mpi size L

スレッド数1、7、21、28での結果が以下のグラフです。(スレッド数1ではhimenoBMTxp_l size Lの結果、スレッド数7、21、28ではcc_himenobmt_mpi size Lの結果です。)

スレッド数7程度で、メモリ帯域を使い切ってしまうのかスコアが収束しているように見えますが、28スレッドでは42000 MFLOPS程度のスコアが出ました。

計測したシステムには、1CPU当りメモリ4枚が取り付けられ、 最適なメモリモジュール配置構成(quad-channelで動作)で計測を行いましたが、あえてメモリモジュールを各CPUから1枚づつ取り外して、計測した結果が、マゼンタで表示されている箇所です。

最適にメモリモジュールが配置されている場合には、42000 MFLOPS程度の性能が出ていますが、おおよそ半分程度までスコアが下がっています。メモリを適切に配置することは、重要と言えます。

Intel Xeon D搭載システム 姫野ベンチマーク評価

2015年5月に弊社でも販売を開始しましたIntel Xeon D搭載システムを姫野ベンチマークにて評価しました。

【環境】

  • CPU:Inte(R) Xeon(R) processor D-1540 (2.00GHz、8core)
  • メインボードSupermicro X10SDV-TLN4F
  • チップセットSystem on Chip
  • メモリ32GB(8GB DDR4-2133 ECC REG ×4)
  • OSCentOS7.1 x86_64
  • GNUコンパイラ:GCC 4.8.3
  • Intelコンパイラ:Parallel Studio XE 2015 Composer Edition for C++ Linux 15.0.3
  • OpenMPI:1.8.5
  • Intel(R) MPI Library:Version 5.0 Update 3
  • 姫野ベンチhimenoBMTxp_l size L
  • 姫野ベンチ並列バージョン:cc_himenobmt_mpi size L
※以下スコアは全て測定回数5回の平均値です。

①シングルスレッド評価

姫野ベンチ(himenoBMTxp_l)を各コンパイラにてコンパイルし測定しました。

コンパイラ スコア
gcc 3014.4 MFLOPS
icc 5388.6 MFLOPS

以前測定したIntel Xeon E5-2687W(3.1GHz)のスコア3525 MFLOPSと比較しても非常に高いスコアといえます。姫野ベンチはメモリに依存しているベンチマークですので、メモリがDDR3からDDR4になったことでスコアが大きく延びていると考えられます。また、インテルコンパイラではgccの約1.8倍のスコアとなりましたのでインテルコンパイラの使用が非常に有効といえます。

②マルチスレッド評価

コンパイラとMPIライブラリを組み合わせて姫野ベンチ並列バージョン(cc_himenobmt_mpi)をコンパイルし測定しました。

スレッド数 gcc+OpenMPI icc+Intel MPI
シングル 2995.6 MFLOPS 5346.2 MFLOPS
8 12672.6 MFLOPS 12939.4 MFLOPS
16(HyperThreading on) 11318.6 MFLOPS 12301.6 MFLOPS

両組み合わせにおいてシングルスレッドでは前項目のシングルスレッド評価と同等の信頼できるスコアが確認できます。8スレッドでは12600~12900 MFLOPS程度、「HyperThreading on」の16スレッドでも11300~12300 MFLOPS程度と12000 MFLOPS付近にてスコアが収束しているように見えます。

確認の為、「icc + Intel MPI Library」にて2~4スレッドの測定も行いました。

スレッド数 icc+Intel MPI
1 5346.2 MFLOPS
2 9894.2 MFLOPS
3 12003.6 MFLOPS
4 13248.0 MFLOPS

2スレッドではリニアに数値が倍増しているといえますが、3スレッドで既に収束範囲に到達しています。これも、姫野ベンチがメモリに依存しているベンチマークであるため、3スレッド以降ではメモリ帯域を使い切ってしまい収束範囲に達してからはスコアが伸びなくなったと考えられます。

【総評】

Supermicro X10SDV-TLN4Fに搭載のIntel Xeon D-1540は組込CPUに分類されますが、シングルスレッドのスコアでは、2世代前のワークステーション用CPUに迫るスコアを記録しました。マルチコア(8コア)CPUですので、メモリ帯域を多く使用しないプログラムであればマルチスレッドで性能が発揮されると期待できます。

以上、Intel Xeon D搭載マシンの姫野ベンチマーク評価でした。

SSD 8台 RAID0 でベンチマーク

SSD 8台でRAID0のシステムの評価中、ベンチマークしていますがこれは相当速いです。

・ハードウェア
RAIDカード:ARC-1883x 外部12G/s 2ポート
SSD:Samsung MZ-7KE512B x8台
SAS JBOD (12G/sケーブルで接続)

・ベンチマーク環境
CrystalDiskMark 3.0.3 x64で4000MBを5回
Windows Server 2008 R2 SP1

———————————————————————–
RAID0 StripeSize 64KB

Sequential Read : 3107.352 MB/s
Sequential Write : 3748.819 MB/s
Random Read 512KB : 1610.638 MB/s
Random Write 512KB : 3402.341 MB/s
Random Read 4KB (QD=1) : 36.670 MB/s [ 8952.5 IOPS]
Random Write 4KB (QD=1) : 171.722 MB/s [ 41924.4 IOPS]
Random Read 4KB (QD=32) : 292.501 MB/s [ 71411.4 IOPS]
Random Write 4KB (QD=32) : 258.604 MB/s [ 63135.8 IOPS]
———————————————————————–