Opteron 2387 + AMD SR5690 + DDR2-800 性能評価(姫野ベンチ

2010 年 3 月 5 日


MB: Supermicro H8DIi+-F
Chipset: MD SR5690
CPU: Opteron 2387 x2
MEM: 16GB (DDR2-800 Reg 4GB x 4)

MPI: openMPI
Compiler: gcc 3.4.6
Benchmark: himenoBMTxp
Size: L

1CPU 8core: 7179MFLOPS

Xeon X3430 + Intel 3420 + DDR3-1333 性能評価(姫野ベンチ)

2010 年 3 月 4 日


MB: Supermicro X8SIE-F
Chipset: Intel 3420
CPU: Xeon X3430
MEM: 4GB (DDR3-1333 2GB x 2)

MPI: openMPI
Compiler: gcc 3.4.6
Benchmark: himenoBMTxp
Size: L

1CPU 4core: 3089MFLOPS

Infiniband の優位性

2010 年 3 月 4 日

InfinibandがEthernetと比べてパフォーマンス向上には大変有利であることは以前の検証結果からも言えることです。
今回は、ホスト数が増えた場合にどの程度のシステムプロセス値の差が出るかを検証することにしました。

Intel Core i7は、Quad CoreですがIntel Hyper-Threading TechnologyによりOS上からは倍のCPUが認識できます。
今回のテストでは、分割数を多くすることでネットワーク負荷を高くすることを目的とするために、Intel Hyper-Threading Technologyで認識された論理CPUにもジョブを配分することにしました。

■テスト環境
計算ノード 10台
MB: Supermicro X8STi
Chipset: INTEL X58
CPU: Intel Core i7 920
MEM: 12GB (2GB DDR3-1066 x 6)

インターコネクト
1000Base: オンボード (Intel 82574L)
Infiniband: Mellanox MHGS18-XTC (DDR)

ベンチマーク
MPI: openMPI
Compiler: gcc 4.1.2
Benchmark: himenoBMTxp
Size: XL

■テスト方法
N=80で姫野ベンチを実行し、投入ホストにてtopコマンドでシステムプロセス値を比較

■結果
1000Base: 23-25%程度

Infiniband: 0-0.3%程度

評価
1000Base Ethernetでは、おおよそ23%のCPUリソースがシステムプロセスとして消費してしまう。
特に多計算ノードによるMPIな流体計算では、このCPUリソースを計算に使えることができるinfinibandを選択することは必須と感じた。

Tesla搭載GPGPUシステム

2010 年 1 月 26 日

NVIDIA Tesla C1060を3基搭載するGPGPUシステム。
2基のXeonプロセッサと合計24GBのメインメモリを搭載しています。

ベースシステム:POWER MASTER Vision T889

タワーシステムにRAID5を追加

2010 年 1 月 26 日

SAS/SATA HDDを5台搭載できるホットスワップ対応ドライブゲージとRAIDコントローラを追加搭載して、ローカルデータ用ストレージに。RAID化することで、耐障害性を持たせながらディスクアクセス性能を向上しています。

また高速なSSD、SAS HDDを使用することで、ノンリニア編集等、高速ディスクアクセスが必要なアプリケーションにも適応します。

Core i7 860 + Intel 3420 + DDR3-1333 性能評価(姫野ベンチ)

2010 年 1 月 6 日


MB: Supermicro X8SIE-F
Chipset: Intel 3420
CPU: Core i7 860
MEM: 8GB (DDR3-1333 2GB x 4)

MPI: openMPI
Compiler: gcc 3.4.6
Benchmark: himenoBMTxp
Size: L

1CPU 4core: 5131MFLOPS

Xeon W5590 + Intel 5520 + DDR3-1333 ECC Reg 性能評価(姫野ベンチ)

2009 年 12 月 22 日


MB: Supermicro X8DAi
Chipset: Intel 5520
CPU: Xeon W5590
MEM: 12GB (DDR3-1333 2GB ECC Reg x 6)

MPI: openMPI
Compiler: gfortran 4.1.2
Benchmark: himenoBMTxp
Size:L

結果
2CPU 8node: 14820MFLOPS

Ethernet と Infiniband 性能比較

2009 年 10 月 21 日

■テスト環境
計算ノード 2台
MB: TYAN Toledo i3210W
Chipset: INTEL 3200
CPU: Intel Core2Quad Q9450
MEM: 4GB (DDR2-800 2GB x 2)

インターコネクト
100Base: Intel EtherExpress Pro/100 S Desktop Adapter
1000Base: オンボード (Intel 82573)
Infiniband: Mellanox MHGS18-XTC (DDR)

ベンチマーク
MPI: openMPI
Compiler: gcc 4.1.2
Benchmark: himenoBMTxp
Size: L

■テスト方法
N=8で姫野ベンチを実行し、投入ホストにてtopコマンドでシステムプロセス値を比較

■結果
100Base: 13-16%程度

1000Base: 4-5%程度

Infiniband: 0-0.3%程度

評価
計算ノード2台だけでもこれだけの違いが見られた。
インターコネクトによるパフォーマンス劣化を避けるためにHPC向け高速インターコネクトであるInfiniband選択は大変有効であると再認識をしました。

PhenomII X4 945 + AMD 790FX + DDR3-1333 性能評価(姫野ベンチ)

2009 年 10 月 21 日

MB: ASUS M4A79T Deluxe
Chipset: AMD 790FX
CPU: PhenomII X4 945
MEM: 4GB (DDR3-1333 2GB x 2)

MPI: openMPI
Compiler: gcc 3.4.6
Benchmark: himenoBMTxp
Size: L

1CPU 4core: 4293MFLOPS

Xeon X5550 で Hyper-Threading テクノロジ 評価(姫野ベンチ)

2009 年 10 月 21 日

MB: Supermicro X8DTi
Chipset: Intel 5520
CPU: Xeon X5550
MEM: 24GB (DDR3-1333 4GB ECC Reg x 6)

MPI: openMPI
Compiler: gcc 4.1.2
Benchmark: himenoBMTxp
Size: XL

結果
2CPU 8node: 13726MFLOPS
2CPU 16node: 13586MFLOPS (HT含む)

評価
HTを使っても落ち込みが少なかった。
HTが多くのアプリケーションに対しパフォーマンス向上になるとは考えにくいが、今回の結果だけで言えば分割数が倍になってもメモリ帯域不足による大きなパフォーマンス劣化になっていないところに注目したい。