
MB: Supermicro H8DIi+-F
Chipset: MD SR5690
CPU: Opteron 2387
MEM: 16GB (DDR2-800 Reg 4GB x 4)
MPI: openMPI
Compiler: gcc 3.4.6
Benchmark: himenoBMTxp
Size: L
2CPU 8core: 7179MFLOPS
InfinibandがEthernetと比べてパフォーマンス向上には大変有利であることは以前の検証結果からも言えることです。
今回は、ホスト数が増えた場合にどの程度のシステムプロセス値の差が出るかを検証することにしました。
Intel Core i7は、Quad CoreですがIntel Hyper-Threading TechnologyによりOS上からは倍のCPUが認識できます。
今回のテストでは、分割数を多くすることでネットワーク負荷を高くすることを目的とするために、Intel Hyper-Threading Technologyで認識された論理CPUにもジョブを配分することにしました。
■テスト環境
計算ノード 10台
MB: Supermicro X8STi
Chipset: INTEL X58
CPU: Intel Core i7 920
MEM: 12GB (2GB DDR3-1066 x 6)
インターコネクト
1000Base: オンボード (Intel 82574L)
Infiniband: Mellanox MHGS18-XTC (DDR)
ベンチマーク
MPI: openMPI
Compiler: gcc 4.1.2
Benchmark: himenoBMTxp
Size: XL
■テスト方法
N=80で姫野ベンチを実行し、投入ホストにてtopコマンドでシステムプロセス値を比較
評価
1000Base Ethernetでは、おおよそ23%のCPUリソースがシステムプロセスとして消費してしまう。
特に多計算ノードによるMPIな流体計算では、このCPUリソースを計算に使えることができるinfinibandを選択することは必須と感じた。
NVIDIA Tesla C1060を3基搭載するGPGPUシステム。
2基のXeonプロセッサと合計24GBのメインメモリを搭載しています。
ベースシステム:POWER MASTER Vision T889
■テスト環境
計算ノード 2台
MB: TYAN Toledo i3210W
Chipset: INTEL 3200
CPU: Intel Core2Quad Q9450
MEM: 4GB (DDR2-800 2GB x 2)
インターコネクト
100Base: Intel EtherExpress Pro/100 S Desktop Adapter
1000Base: オンボード (Intel 82573)
Infiniband: Mellanox MHGS18-XTC (DDR)
ベンチマーク
MPI: openMPI
Compiler: gcc 4.1.2
Benchmark: himenoBMTxp
Size: L
■テスト方法
N=8で姫野ベンチを実行し、投入ホストにてtopコマンドでシステムプロセス値を比較
評価
計算ノード2台だけでもこれだけの違いが見られた。
インターコネクトによるパフォーマンス劣化を避けるためにHPC向け高速インターコネクトであるInfiniband選択は大変有効であると再認識をしました。
MB: Supermicro X8DTi
Chipset: Intel 5520
CPU: Xeon X5550
MEM: 24GB (DDR3-1333 4GB ECC Reg x 6)
MPI: openMPI
Compiler: gcc 4.1.2
Benchmark: himenoBMTxp
Size: XL
結果
2CPU 8node: 13726MFLOPS
2CPU 16node: 13586MFLOPS (HT含む)
評価
HTを使っても落ち込みが少なかった。
HTが多くのアプリケーションに対しパフォーマンス向上になるとは考えにくいが、今回の結果だけで言えば分割数が倍になってもメモリ帯域不足による大きなパフォーマンス劣化になっていないところに注目したい。