ブレードシャーシ障害の確率

Question

私の組織では、ラックサーバーではなく、ブレードサーバーの購入を検討しています。もちろん、テクノロジーベンダーも非常にいい音を出します。私が別のフォーラムで頻繁に読んでいる懸念は、サーバーシャーシがダウンするという理論的な可能性があることです。その結果、すべてのブレードがダウンします。それは共有インフラストラクチャによるものです。

この確率に対する私の反応は、冗長性があり、シャーシが1つではなく2つあることです（もちろん非常にコストがかかります）。

一部の人々（HPベンダーなど）は、多くの冗長性（冗長な電源装置など）が原因でシャーシが故障する可能性が非常に低いことを確信させようとしています。

私の別の懸念は、何かが故障した場合、スペアパーツが必要になる可能性があることです-これは、私たちの場所（エチオピア）では困難です。

ブレードサーバーを管理している経験豊富な管理者に尋ねます。あなたの経験は何ですか。それらは全体としてダウンしますか？そして、失敗するかもしれない賢明な共有インフラストラクチャは何ですか？

その質問は、共有ストレージにまで及ぶ可能性があります。繰り返しになりますが、必要なのは1つではなく2つのストレージユニットです。また、ベンダーは、これは非常に堅固で、障害は発生しないと言っています。

まあ、私はそのような重要なインフラストラクチャが冗長性がなくても非常に信頼できるとは信じられません-しかし、おそらくコアベースの部分（シャーシ、ストレージ... ）

現時点では、HPを検討しています。IBMは高すぎるためです。

ewwhite · Accepted Answer

完全なシャーシ故障の可能性は低いです...

ブレードエンクロージャのfull障害が発生する前に、施設で問題が発生する可能性があります。

私の経験は、主に HP C70 および HP C30 ブレードエンクロージャでの経験です。デルとSupermicroのブレードソリューションも管理しました。ベンダーは少し重要です。しかし、要約すると、HPのギアは優れていて、Dellは優れていて、Supermicroは品質と弾力性に欠けており、設計が不十分でした。 HP側とDell側で障害が発生したことは一度もありません。 Supermicroには深刻な障害があり、プラットフォームを放棄せざるを得ませんでした。 HPとDellでは、完全なシャーシ障害に遭遇したことはありません。

熱イベントがありました。コロケーション施設でエアコンが故障し、気温が115°F/46°Cで10時間送られました。
電力サージとライン障害：A/Bフィードの片側を失います。個別の電源障害。私のブレードセットアップには通常6つの電源があるので、十分な警告と冗長性があります。
個々のブレードサーバーの障害。 1つのサーバーの問題は、エンクロージャー内の他のサーバーには影響しません。
シャーシ内fire...

私はさまざまな環境を見てきましたが、データセンターの理想的な条件や、より粗い場所にインストールするという利点があります。 HP C7000とC3000側では、シャーシが完全にモジュラーであるということを考慮する必要があります。コンポーネントは、ユニット全体に影響するコンポーネント障害の影響を最小限に抑えるように設計されています。

このように考えてください...メインC7000シャーシは、フロント（パッシブ）ミッドプレーンおよびバックプレーンアセンブリで構成されています。構造エンクロージャーは、単にフロントとリアのコンポーネントを一緒に保持し、システムの重量を支えます。ほぼすべての部品を交換できます...私を信じて、私は多くを分解しました。主な冗長性は、ファン/冷却、電源、およびネットワーク管理です。管理プロセッサー（ HPのOnboard Administrator ）は冗長性のためにペアにすることができますが、サーバーはそれらなしで実行できます。

フル実装のエンクロージャ-正面図。下部にある6台の電源装置は、シャーシの深さ全体を実行し、エンクロージャーの背面にあるモジュラー電源バックプレーンアセンブリに接続します。電源モードは構成可能です。 3 + 3またはn + 1。したがって、エンクロージャには間違いなく電源の冗長性があります。

フル実装のエンクロージャ-背面図。背面のバーチャルコネクトネットワーキングモジュールには内部クロスコネクトがあるので、どちらか一方を失っても、サーバーへのネットワーク接続を維持できます。ホットスワップ可能な電源装置が6つ、ホットスワップ可能なファンが10台あります。

空のエンクロージャ-正面図。エンクロージャのこの部分には実際には何もないことに注意してください。すべての接続はモジュラーミッドプレーンにパススルーされます。

Midplane Assemblyが削除されました。下部にあるミッドプレーンアセンブリの6つの電源供給に注意してください。

Midplane Assembly。ここで魔法が起こります。 16の別々のダウンプレーン接続に注意してください。ブレードサーバーごとに1つです。個々のサーバーソケット/ベイが、エンクロージャー全体を殺したり、他のサーバーに影響を与えたりすることなく失敗しました。

電源バックプレーン。標準単相モジュールより3ø小さいユニット。データセンターで配電を変更し、電源バックプレーンを交換して、新しい電力供給方法に対応しました

シャーシコネクタの損傷。この特定のエンクロージャーは、アセンブリ中にドロップされ、リボンコネクタのピンが外れました。これは何日も気付かれず、実行中のブレードシャーシがFIRE ...

これは、ミッドプレーンリボンケーブルの焦げた跡です。これにより、シャーシの温度と環境の監視の一部が制御されました。内のブレードサーバーは問題なく稼働し続けました。影響を受ける部品は、予定されていたダウンタイムの間に私の余暇に交換され、すべて順調でした。

sysadmin1138 · Answer

私は8年間、少数のブレードサーバーを管理してきましたが、システム全体で障害が発生し、多数のブレードがオフラインになってしまいました。電源関連の問題が原因で実際に近づいてきましたが、外部の原因に起因しないシャーシ全体の障害はまだ発生していません。

シャーシが単一障害点を表しているというあなたの観察は正しいですが、最近では大量の冗長性が組み込まれています。私が使用したすべてのブレードシステムには、ブレードへの並列給電と、別々のパスを通る複数のネットワークジャックがあり、ファイバーチャネルの場合、ブレードからラックの背面の光ポートへの複数のパスがあります。シャーシ情報システムでさえ、複数のパスがありました。

適切なネットワークエンジニアリング（冗長NIC使用、ストレージのMPIO））を使用すると、単一の問題のイベントは完全に存続できます。これらのシステムを使用していたとき、次の問題がありました。 1つのブレード（存在する場合）：

ブレードラックで2つの電源装置に障害が発生しました。他の4つには、負荷をサポートするのに十分な冗長性がありました。
三相電源の相を失う。これらの供給は最近ではまれですが、他の2つのフェーズには負荷をサポートするのに十分な容量がありました。
シャーシ間の管理ループの喪失。別の電話でベンダーの技術者がそれに気づく前に、それは何年もの間このようなものでした。
シャーシ間の管理ループが完全に失われます。管理コンソールへのアクセスは失われましたが、サーバーは何も問題がないかのように稼働し続けました。
誰かが誤ってback-of-rackネットワークバックプレーンを再起動しました。そのシャーシのすべてが冗長NICを使用していたため、サービスの中断はありませんでした。すべてのトラフィックが他のバックプレーンに移動しました。

ただし、TomTomのコストに関するポイントは非常に当てはまります。完全なコストパリティを実現するには、ブレードシャーシを完全に搭載する必要があり、ラックバックスイッチなどの特別なものを使用しない可能性があります。ブレードラックは、スペースが限られているため、密度が本当に必要な領域で理にかなっています。

TomTom · Answer

その質問は、共有ストレージにまで及ぶ可能性があります。繰り返しになりますが、必要なのは1つではなく2つのストレージユニットです。また、ベンダーは、これは非常に堅固で、障害は発生しないと言っています。

実は違う。あなたはこれまでのところ意味のある懸念を抱いており、この文はそれらを「目の前の物を読む」に入れます。完全レプリケーションを備えたHAは、ストレージユニットの既知のエンタープライズ機能です。ポイントは、SAN（ストレージユニットは、ブレードシャーシよりもはるかに複雑で、最終的には単なる「愚かな金属」です。一部のバックプレーンを除くブレードシャーシのすべてが交換可能です-すべてのモジュールなどは交換可能であり、個々のブレードが故障することは許されています。

これは、SANが100％稼働しているはずの状態-一貫した状態-とはかなり異なるため、レプリケーションなどの要素があります。

それは言った：あなたの番号を見てください。私はしばらくの間ブレードを購入することを検討しました、そして彼らは決してお金の感覚を作りませんでした。シャーシは高すぎるだけであり、ブレードは通常のコンピューターと比較してそれほど安価ではありません。代わりにSuperMicro Twinアーキテクチャを検討することをお勧めします。

Matt · Answer

私が経験したブレードサーバーは、IBMのものです。これらの特定のものは完全にモジュール式であり、多くの冗長性が組み込まれています。したがって、何かが失敗した場合、PSUやモジュール式スイッチなどのコンポーネントの1つになります。しかし、これらにも冗長性があります。

IBMブレードに関与して以来、私はこれまで完全な障害を見たことはありません。

他のブランドについても、同様の方法で構築されると思います。
ベンダーにも話をして、たくさんの読書をするのは良い考えでしょう。
それは大きな投資です。

mpez0 · Answer

同じエンクロージャーで複数のブレードサーバーの停止につながる障害は、同じラックで複数のサーバーの停止につながる障害に（可能性と原因の点で）匹敵します。

単一障害点を最小限に抑えるための初期設定（2つのseparate AC電源があり、それぞれが負荷全体を処理でき、DC電源などいずれかの半分が負荷全体を処理できること、2つのseparateネットワーク接続、どちらも期待される負荷全体を処理できるなど）、およびシャーシ内のすべてのブレードまたはすべてのブレードを取り出すものの違いラック内の2Uサーバーは非常に小さいです。

abstrask · Answer

私が別のフォーラムで頻繁に読んでいる懸念は、サーバーシャーシがダウンするという理論的な可能性があることです。その結果、すべてのブレードがダウンします。それは共有インフラストラクチャによるものです。

確かに！約5年前、2つのHP Proliant p-Classブレードエンクロージャを管理しているときに、シャーシ全体の問題に何度か遭遇しました。

ブレードサーバーがオフになっていると、オンにできない場合がありました（サーバーがオフになることはあまりありませんが、同じように非常に現実的な問題になりました）。サーバーが突然オフになり、再びオンにすることができなくなりました。最後に、すべてのサーバーをオフにして、再びオンにすることはできませんでした。

私が思い出すと、ほとんどすべての問題は、不良な電源バックプレーンまたはコントローラーバックプレーンに起因していました。私たちはそれらを何度も交換しましたが、私が技術者から受け取った非特定のオフレコメッセージは、この世代のブレードエンクロージャに関する問題の一部を共有しているというものでした。

その当時私は、将来の購入で何か言いたいことがあったとしても、ブレードサーバーのメリットはリスクに値しないと判断しました。

次の雇用主、そして現在の雇用主に早送りしてください。彼らはすでにHP Proliant c-Classエンクロージャーを実行していたので、私のブレードのルークな暖かさはそれほど重要ではありませんでした。私がc-Classエンクロージャーを扱った5年間で、p-Classで行ったような、エンクロージャー全体が故障したような経験は一度もありませんでした。彼らは大きな問題なく実行されています。

（暴風雨が屋根、4階建て、コンピュータルームのシールの小さな穴、ケーブルを介してシャーシに降り注ぐ時間を除いて）