web-dev-qa-db-ja.com

計算ノードへの作業の割り当てを停止するようにSGEに指示するにはどうすればよいですか?

Sun Grid Engineに新しい作業の割り当てを停止させたいという意味で、ノード(またはノードのセット)を「オフライン」としてマークしたいと思います。これは、ノード自体のある種の保守作業のためのものです。ノードは、割り当てられたすべての作業を終了してから、ある種のアイドル(「オフライン」)状態に入る必要があります。私はqconfのドキュメントを探してきましたが、どのハウツーでもこのユースケースを見つけることができません。

5
Rick Reynolds

について検索すると、qmodユーティリティが表示されます。私はの簡単なテストを行いました

qmod -d QUEUENAME.q@MACHINENAME

実際にジョブを実行して試したことはありませんが、これは機能しているようです。 qstat出力が変更され、ノードが無効になっていることが示されます。「d」フラグが表示されます。

qmod -e QUEUENAME.q@MACHINENAME

マシンを再び有効にします。

私たちのクラスターでは、マシンの名前はworker-##-##で、2つの番号はラック番号とランク番号です。 「all.q」と呼ばれる1つのマスターキューのみを実行します。また、クラスター内のマシンは、qstat出力に「.local」サフィックスが付いてリストされます。したがって、上記のコマンドは最終的に

qmod -d [email protected]

マシンをラック9、ランク9のキューイングローテーションから外します。

6
Rick Reynolds