web-dev-qa-db-ja.com

パワーフェンシング用のどのSTONITHハードウェアですか?

Corosync/pacemaker/drbdを使用して2ノードの高可用性クラスターをセットアップしたいと思います。そのためには、もちろん、フェンシングが必要です。私が理解している限り、すべてのIPMI/iLO/...ソリューションがその役割を果たしますが、シャーシに電力が供給されている場合に限ります。ノードBの電源が切れた場合、ノードAはノードBに対してSTONITHを使用する可能性がありません。

どのようなハードウェアがこの問題を解決しますか?バッテリーで動作するIPMI/iLO/...ハードウェアを提供する(標準ラック)サーバーはありますか?ネットワークに接続されたUPSを使用する必要がありますか?

5
C-Otto

ILO/IPMIベースのフェンシングを構成してから、たとえば、APC電源スイッチを備えたfence_apcフェンシングエージェントをセカンダリフェンスデバイスとして使用できます。そうすれば、サーバーの電源が切れた場合でも、セカンダリフェンシングエージェントは、クラスターにとって意味のある方法でサーバーをSTONITHすることができます。

説明のように ここ

ノードには複数のフェンスメソッドを含めることができ、各フェンスメソッドには複数のフェンスデバイスを含めることができます。

冗長性/保険のために複数のフェンス方式が設定されています。たとえば、IPMI、iLO、RSA、DRACなど、クラスター内のノードにベースボード管理フェンシング方式を使用している場合があります。これらはすべてネットワーク接続に依存しています。この接続が失敗した場合、フェンシングは発生しません。そのため、バックアップフェンスメソッドとして、電源スイッチなどを使用してノードをフェンスする2番目のフェンシングメソッドを宣言できます。最初の方法でノードのフェンスに失敗した場合は、2番目のフェンス方法が使用されます。

fence_manualsecondaryフェンシングエージェントとして追加することも検討できます。そうすれば、いつでもクラスターを回復できますが、手動で介入すると、そしてもちろん必要です。

4
Petter H

私の知る限り、これに対する標準的なハードウェア(またはソフトウェア)ソリューションはありません。
他の人を撃つことはできませんNode頭の中にない場合は、.

これはさまざまな方法で処理できます-私が提案できるのは Smart PD を使用することです-他のSTONITHテクニックが機能しない場合の最後の手段として、電源コンセントを「オフ」にします。誰かが再び電源を「オン」にするまで、それが戻ってくることを心配する必要があります。 (これは実際には、誰かが誤って電源ケーブルを引っ張るのを防ぐための手段にすぎません...)

同様の解決策は、マネージドスイッチを使用して、マシンが接続されているポートをオフにするか、「フィクサー」にドロップすることもできますVLAN)そこでボックスに接続して準備することができますクラスターに再参加します。


上記の両方のアイデアは、データセンターに電力が供給され接続されていることに依存しています(PDU、スイッチなどがすべて機能している必要があり、インフラストラクチャ機器にコマンドを送信できるように接続が存在している必要があります)。

電力に依存できない場合、従来のソリューションはサーバーを構成することです[〜#〜] not [〜#〜]電源障害後に自動的に電源がオンになります(シャーシの電源を入れてもIPMI/iLOなどは引き続き起動するため、後で手動手順として起動できます。おそらく、ネットワークポートを次のように分離した後です。上記)。
これにより、「不良」ノードがオンラインに戻ることを回避できますが、プロセスに手動(または自動)ステップが追加されます。

問題が接続性であり、電力ではない場合は、はるかに難しい問題があります-切断されたノードは、頭の中で自分自身を撃つ必要があります。 (その問題が、クラスター構成が失敗したメンバーを自動的に再アクティブ化しない理由です。ボックスに障害が発生して戻ってくると、ボックスは部分的にオンラインの状態になり、再参加するように指示されるのを待ちます。これは手動の手順ですが、これは1つの手順です。それはどの頻度でも発生する必要はありません。)

8
voretaq7