Grid Engineとはクラスタコンピューティングにおけるジョブ管理システムを担うミドルウェアです。
ジョブ管理システムでGPUリソース管理は必須要素となっています。
GPUリソース管理できるジョブ管理システムで一般的にLinux利用できそうなものがあるか?
Slurm がよさそうです。
NVIDIA Management Library (NVML) を介してGPUリソースを管理します。
Slurm GPU Management
では Grid Engine は無理なのか?
制限はありますがそうでもなさそうです。
qconfコマンドでリソース作成し ホスト設定でGPUをリソースに割当るようなことをすればできそうです。
次回はそのあたりやってみよう。
つづく