web-dev-qa-db-ja.com

ストレージはいつ高可用性と見なされますか?

次の構成を高可用性として説明している人々をいくつかの場所で読みました。

2台のサーバー(複数のHBAを備えている場合もあります)は、それぞれ複数のSASケーブルを介して1マルチパスI/OをサポートするRAIDエンクロージャーに接続されています。

確かに、RAIDアレイ自体には定義上ある程度の冗長性がありますが、エンクロージャーについてはどうでしょうか。それは失敗しないのでしょうか、それともこれは上記のセットアップにおける単一障害点ですか?

これが初心者の質問なら申し訳ありません。

2
Doraemon

「高可用性」と「単一障害点なし」のIMOには違いがあります。さらに、HAの範囲を考慮する必要があります。ストレージ用のHAであり、アプリ用ではないものがある可能性があります(単一サーバー。愚かな、私は知っていますが、それが起こるのを見てきました)。

稼働時間の要件を把握してから、逆方向に作業してさまざまなコンポーネントに対処する方がおそらく便利です。また、私にとって、HAは単一の場所での可用性をカバーしています。 Business Continuance/DRは、マルチサイト部分に対応します。したがって、両方を組み合わせることができます。各場所にHAがあり、DRが最も高価です。繰り返しになりますが、RTO/RPO要件は設計と決定のプロセスに影響を与えます。

ドラえもん、エンクロージャーで故障している部品について質問します。

エンクロージャー内の部品couldそしてある時点で故障します。ただし、アレイによっては、アレイ内に冗長な部分が存在する場合があります。そのため、IMOがそれほど大きな問題ではないエンクロージャ自体が残ります。 2番目のアレイがある場合、一般的なDCレイアウトは、ストレージアレイをクラスター化する傾向があるため、発火すると、他のアレイに影響を与える可能性があります。

4
Jauder Ho

あなたのサイトに適した実用的な定義

「高可用性」とは、人によってさまざまなことを意味します。キャリアクラスのテレコムシステム用のソフトウェアを作成していたとき、いくつかの冗長性要件がありました。

  • ネットワーク:2つの異なるスイッチを経由するイーサネット上の2つのパス
  • ディスク:襲撃など.
  • 電源:2つの異なる電源サブシステムを経由する冗長電源(これは私たちのキャビネットによって処理されました)

基準は次の質問から導き出されます。

ダウンタイムの原因となるメンテナンス作業はありますか?

  • パワーのアップグレード
  • イーサネットスイッチのアップグレード
  • ディスクの交換

これらの質問や同様の質問があなたの状況にどのように当てはまるかを理解してください。そうすれば、サイトの適切な定義が得られます。

3
Mark Harrison

おそらく、「高可用性」の最良の定義は、稼働時間の見積もりを取得するためにいくつかの計算を実行できることです。 (99.8%、99.999%、何でも。通常は1か月または1年にわたって測定されます)そして、それは顧客へのサービスの可用性の測定値でなければなりません。 「サーバー自体が稼働していた、ネットワークがダウンしていたのは私のせいではない」という測定値はカウントされません。

これはほぼ間違いなく、ファームウェアの更新などを取得したときにサービスを停止するメンテナンスが必要なコンポーネントがないことを意味します。約3ナインを超えると、サーバーの可用性がネットワークや電源などよりも優れている可能性があります(インターネットの広大な範囲で数年ごとに数時間問題が発生しているようです。顧客がインターネット経由であなたに連絡した場合、現実的に4ナインを超えることはありません)

あなたが説明したことに関して:それは良いスタートであり、それは状況次第です。

おおよその可能性の高い順に、失敗しがちなものは次のとおりです。

  1. 人間(「このボタンは何をするの?」)
  2. ソフトウェア(ため息
  3. 可動部分のあるもの(ハードドライブ、ファン)
  4. チップ(主に、他の電子機器の非常に小さなバージョンがあり、ソフトウェアであるファームウェアがあるため)
  5. コンデンサー(これらの悪いバッチについて聞き続けてください)
  6. トランジスタ、抵抗器、その他の電子機器、特に何らかの熱サイクルがある場合

RAIDエンクロージャのシャーシ、バックプレーンなどが非常に単純な場合、99.99%の稼働時間(たとえば、4時間の修理時間と1年に5分の1の確率で障害が発生する)などを保証するのに十分な弾力性がある可能性があります。これは、サイトへのネットワークパスがいくつかあり、適切なUPSインフラストラクチャがある場合でも、ネットワークや電力の可用性よりも優れている可能性があります。

RAIDエンクロージャーは、実際には電子的に2つの別々のユニットであり、各ドライブへの別々のパスがあり(現在、デュアルコネクタードライブは十分に一般的です)、それらと両方のコントローラーに接続された両方のシステムとの間の何らかのハートビートである可能性があります。非冗長部品が単純な金属製の箱と非常に単純な配線である場合、金属製の箱は一般に故障せず、単純な配線は不十分に行われない限り故障する可能性が低いため、ほとんどの規格で「高可用性」と見なされます。

言い換えれば、私たちは知りません。各部品のMTBF定格と平均修理時間はどれくらいですか?

1
freiheit

これは、業界でかなり長い間「高可用性」として使用されており、ストレージマーケティング層の一歩です。次のステップは、2つのディスクアレイ間でブロックレベルのレプリケーションテクノロジーを販売しようとする「ビジネス継続性」です。一部には、ホストOSが2つの間でシームレスに失敗することを可能にするアップセルもあります。

私の意見では、問題のディスクアレイは最大で2つのホストしかサポートしていないように聞こえるので、上記はquite HAではありません。 「真の」HAには、ファイバチャネルまたはiSCSIなどの何らかのストレージエリアネットワーク上のディスクアレイが含まれます。

0
sysadmin1138

すべての場合と同様に、さまざまな程度の高可用性があります。あなたが説明するタイプの高可用性直接接続ストレージは、ほとんどの単一障害点に耐える能力を持っていますが、何かがアレイを殺すと、明らかに失敗します。

アレイレベルでは、可用性を向上させるために追加される機能は、冗長電源、冗長コントローラー(キャッシュ/状態ミラーリング付き)、冗長ファン、冗長IOインターフェイスなどです。これらはすべて、理想的には必要です。ホットスワップ可能であるため、障害に耐えることができます\シャットダウンせずにプロアクティブなメンテナンスを実行できます。

冗長電源のフロントハイエンドシステムには、標準セットアップの一部として独立したスタンバイ電源システムがあり、真に妄想的な場合は、独立したバックアップジェネレータオプションを備えた独立したACグリッドからそれらを供給します。バッテリーでバックアップされたキャッシュ/キャッシュのステージングは​​、実行を維持するために行ったすべてのことで障害が防止されない場合でも、一貫性を確保するために使用されます。

さらに、別のサーバールーム\データセンター\都市にある別のアレイへのレプリケーションを検討する必要があるかもしれません。レプリカへのフェイルオーバーは常に複雑なプロセスであるため、レプリケーションには注意が必要ですが、最も基本的な場合でも、再構築/復元よりもはるかに高速です。

最大の問題は人的ミスである傾向があることは注目に値します。人的エラーに耐えられるようにストレージを設計することは非常に困難です。 SANは、物理エラーと構成エラーを分離するために、デュアル(またはそれ以上)の完全に独立したファブリックを推奨することでこれをある程度回避していますが、アレイレベルでは、そのレベルの復元力は私があまり見たことがありません。

0
Helvick