admin | System Works Blog

分散ファイルシステムが注目されています。
複数の実装がありますが、今回はGlusterを動かしてみました。
Glusterは、クラウド環境やHPC環境にも使える分散ファイルシステムです。
ローカルファイルシステムをエクスポートし、メタデータサーバが存在しないのも大きな特徴です。
今回は、かなりリッチな環境なので、参考程度にしかならないかも。。。

■テスト環境
●Glusterサーバ 3台
CPU: x5675 2個
MEM: 72GB
RAID: Areca 1280
HDD: 3TB 24台 RAID6
Infinband: Mellanox_QDR
Ethernet: Intel 82574L

OS: Centos 5.5 x86_64
Local Filesystem: XFS
DFS: Gluster 3.2.4

●Glusterクライアント 3台
CPU: x5675 2個
MEM: 72GB
HDD: 2TB 1台 OS用
Infinband: Mellanox_QDR
Ethernet: Intel 82574L

OS: Centos 5.5 x86_64
MPI: mpich2, mvapich2
Benchmark: IOR

ベンチマークは、IORを使いました。
IORは、分散ファイルシステム向けのベンチマークプログラムです。
特徴としては、MPIを使った並列プロセスからのI/O測定ができます。
測定結果は最大値で出てくるようです。（Max Write, Max Read）
IORのパラメータが妥当かどうか？の問題がありますが、ネット上にあった情報を元にして実行しました。
使ってみてわかったのですが、IORは実行側ホストのキャッシュをほとんど使わないようです。
比較は以下としました。

Gigabit ストライプ型(72GBメモリ) VS infiniband ストライプ型(72GBメモリ)
infiniband ストライプ型(2GBメモリ) VS infiniband ストライプ型(72GBメモリ)
infiniband ストライプ型(72GBメモリ) VS infiniband 分散型(72GBメモリ)
infiniband ストライプ型(2GBメモリ) VS infiniband 分散型(2GBメモリ)
infiniband ストライプ型(72GBメモリ 36プロセス) VS infiniband ストライプ型(72GBメモリ 72プロセス)
infiniband ストライプ型 3台(72GBメモリ 36プロセス実行) VS infiniband ストライプ型 2台(72GBメモリ 36プロセス実行)

■fuseについて
Glusterはfuseを使いマウントをしている。
fuseはOS標準を使うことができるが、glusterからチューニングされたfuseが入手できる。

72プロセスにすると、infinbandでもMax Writeの値がだいぶ落ちてくる。
これでfuseの差が出るかを見てみる。

●fuseは、centos標準
# mpiexec -launcher rsh -f mvapich2host -n 72 /home/work/bin/IOR -a MPIIO -b 4g -t 4m -i 1 -F -o /gluster/output
結果（Infinband）
Operation Max (MiB) Min (MiB) Mean (MiB) Std Dev Max (OPs) Min (OPs) Mean (OPs) Std Dev Mean (s)Op grep #Tasks tPN reps fPP reord reordoff reordrand seed segcnt blksiz xsize aggsize
——— ——— ——— ———- ——- ——— ——— ———- ——- ——-
write 233.77 233.77 233.77 0.00 58.44 58.44 58.44 0.001261.54440 72 24 1 1 0 1 0 0 1 0 4194304 309237645312 -1 MPIIO EXCEL
read 2829.12 2829.12 2829.12 0.00 707.28 707.28 707.28 0.00 104.24172 72 24 1 1 0 1 0 0 1 0 4194304 309237645312 -1 MPIIO EXCEL

Max Write: 233.77 MiB/sec (245.13 MB/sec)
Max Read: 2829.12 MiB/sec (2966.54 MB/sec)

●fuseは、gluster-fuse
# mpiexec -launcher rsh -f mvapich2host -n 72 /home/work/bin/IOR -a MPIIO -b 4g -t 4m -i 1 -F -o /gluster/output
peration Max (MiB) Min (MiB) Mean (MiB) Std Dev Max (OPs) Min (OPs) Mean (OPs) Std Dev Mean (s)Op grep #Tasks tPN reps fPP reord reordoff reordrand seed segcnt blksiz xsize aggsize
——— ——— ——— ———- ——- ——— ——— ———- ——- ——-
write 262.79 262.79 262.79 0.00 65.70 65.70 65.70 0.001122.22525 72 24 1 1 0 1 0 0 1 0 4194304 309237645312 -1 MPIIO EXCEL
read 2814.13 2814.13 2814.13 0.00 703.53 703.53 703.53 0.00 104.79704 72 24 1 1 0 1 0 0 1 0 4194304 309237645312 -1 MPIIO EXCEL

Max Write: 262.79 MiB/sec (275.56 MB/sec)
Max Read: 2814.13 MiB/sec (2950.82 MB/sec)

Max Writeが12%程度上がった。
fuseはOS標準のfuseよりGlusterからダウンロードしたものを使うのが良い。

■ベンチマーク
———-
Gluster ストライプ型 (ethernet gigabit)
ファイルサーバメモリ72GB
MPIライブラリ mpich2

[work@gluster5 ~]$ mpiexec -launcher rsh -iface eth0 -f mpich2host -n 36 /home/work/bin/IOR -a MPIIO -b 4g -t 4m -i 1 -F -o /gluster/output
IOR-2.10.2: MPI Coordinated Test of Parallel I/O

Run began: Mon Dec 19 12:49:50 2011
Command line used: /home/work/bin/IOR -a MPIIO -b 4g -t 4m -i 1 -F -o /gluster/outputMachine: Linux gluster5

Summary:
api = MPIIO (version=2, subversion=2)
test filename = /gluster/output
access = file-per-process
ordering in a file = sequential offsets
ordering inter file= no tasks offsets
clients = 36 (12 per node)
repetitions = 1
xfersize = 4 MiB
blocksize = 4 GiB
aggregate filesize = 144 GiB

Operation Max (MiB) Min (MiB) Mean (MiB) Std Dev Max (OPs) Min (OPs) Mean (OPs) Std Dev Mean (s)Op grep #Tasks tPN reps fPP reord reordoff reordrand seed segcnt blksiz xsize aggsize
——— ——— ——— ———- ——- ——— ——— ———- ——- ——-
write 203.89 203.89 203.89 0.00 50.97 50.97 50.97 0.00 723.22218 36 12 1 1 0 1 0 0 1 0 4194304 154618822656 -1 MPIIO EXCEL
read 209.22 209.22 209.22 0.00 52.30 52.30 52.30 0.00 704.80554 36 12 1 1 0 1 0 0 1 0 4194304 154618822656 -1 MPIIO EXCEL

Max Write: 203.89 MiB/sec (213.79 MB/sec)
Max Read: 209.22 MiB/sec (219.38 MB/sec)

Run finished: Mon Dec 19 13:13:56 2011

———-
Gluster ストライプ型 (infiniband QDR)
ファイルサーバメモリ72GB
MPIライブラリ mvapich2