web-dev-qa-db-ja.com

ドレイン状態のslurmノードを「アンドレイン」する方法

sinfoを使用すると、3つのノードがdrain状態にあることが示されます。

PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
all*         up   infinite      3  drain node[10,11,12]

ndrainそのようなノードに使用するコマンドラインはどれですか?

21
elm

アプローチが見つかったら、scontrolインタープリター(コマンドラインにscontrolと入力)を入力してから、

scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME

それから

scontrol: show node node10

他の情報の中で表示する

State=IDLE

更新:これらのノードの一部はDRAIN状態に戻りました。ルートパーティションがいっぱいになったことに気付きました。 show node a10を示したReason=SlurmdSpoolDir is full、したがってUbuntuでSudo apt-get clean 削除する /var/cache/aptコンテンツとgzip圧縮された/var/logファイル。

24
elm

ダウンに設定すると、すべてのジョブが強制終了されます。

代わりにノードをRESUMEに設定します。

12
LiPi

現在ノードでジョブが実行されていない場合:

scontrol update nodename=node10 state=idle

ノードでジョブが実行されている場合:

scontrol update nodename=node10 state=resume
10