1CPU当たり14コアを持つXeon E5-2680v4を2個と、64GB(8GB DDR4-2133 ECC REG x8枚)を搭載するシステムPOWER MASTER Vision S4394にて、姫野ベンチマークによる計測を行ってみました。
【環境】
- Xeon E5-2680v4 (14Core/2.4GHz/35MB/QPI 9.6GT/120W) x 2個
- 8GB DDR4-2400 ECC REG x 8枚
- Supermicero X10DAi
- OS:CentOS7.1 x86_64
- GNUコンパイラ:GCC 4.8.5
- OpenMPI:1.8.5
- 姫野ベンチ:himenoBMTxp_l size L
- 姫野ベンチ並列バージョン:cc_himenobmt_mpi size L
スレッド数1、7、21、28での結果が以下のグラフです。(スレッド数1ではhimenoBMTxp_l size Lの結果、スレッド数7、21、28ではcc_himenobmt_mpi size Lの結果です。)
スレッド数7程度で、メモリ帯域を使い切ってしまうのかスコアが収束しているように見えますが、28スレッドでは42000 MFLOPS程度のスコアが出ました。
計測したシステムには、1CPU当りメモリ4枚が取り付けられ、 最適なメモリモジュール配置構成(quad-channelで動作)で計測を行いましたが、あえてメモリモジュールを各CPUから1枚づつ取り外して、計測した結果が、マゼンタで表示されている箇所です。
最適にメモリモジュールが配置されている場合には、42000 MFLOPS程度の性能が出ていますが、おおよそ半分程度までスコアが下がっています。メモリを適切に配置することは、重要と言えます。