web-dev-qa-db-ja.com

不揮発性キャッシュRAIDコントローラー:NVCACHE障害に対してどのような保護がありますか?

バッテリーバックアップ(BBU)モデル:

  • adminはBBUでライトバックキャッシュを有効にします
  • 書き込みはRAIDコントローラーのRAM(主なパフォーマンス上の利点)にキャッシュされます
  • バッテリーは、停電(信頼性)が発生した場合に、コミットされていないキャッシュされたデータを保存します

電源が切れて1日以内に戻ってきた場合、データは完全で破損していないはずです。

これの欠点は、バッテリーが切れているか低い場合、OR IT IS IN A RELEARN CYCLE(ドレイン/充電ループでバッテリーの状態)、コントローラーがライトスルーモードに戻り、パフォーマンスが低下します。さらに、再学習サイクルは通常、大規模なトラフィックの最中に発生する場合と発生しない場合があるスケジュールで自動化されるため、手動で無効にする必要があります。懸念がある場合は、手動で営業時間外にスケジュールします。どちらにしても面倒です。

NVキャッシュには、ディスクにコミットされていないデータをフラッシュにコミットするのに十分な電荷を持つコンデンサーがあります。それは、より長い損失の状況でより生き残ることができるだけでなく、バ​​ッテリーの消耗、消耗、または再学習について自分自身を心配する必要はありません。

そのすべてが私には素晴らしいと思います。しかし、私にはあまりよく聞こえないのは、そのフラッシュモジュールに問題がある可能性です。完全にホースで固定されている場合はどうなりますか?部分的にしかホースされていない場合はどうなりますか?端が少し壊れていますか?再学習サイクルは、単純なバッテリーのようなものが故障していることを知ることができますが、フラッシュが機能していることを確認するための同様のプロセスはありますか?私はバッテリー、いぼ、その他すべてをはるかに信頼しています。

カードのRAMが失敗する可能性があり、カード自体が失敗する可能性があることはわかっていますが、これは一般的な領域です。

あなたが推測しなかった場合、ええ、私は衝撃的な量のフラッシュ/ SSD /などを経験しました。失敗:)

6
astrostl

あなたはこれを考えすぎています。

もちろん、これは製造元の特定の実装にわずかに依存しますが、10年間で数千のHP ProLiantサーバーを展開してきたため、数百のRAIDコントローラーのバッテリー障害が発生しました。正常なバッテリーがない場合、突然の停電やシステムクラッシュにより、ある程度のデータが破損することを知って、不良ユニットを交換しました。

近年、フラッシュバックアップライトキャッシュへの移行が見られて嬉しかったです。 HP ProLiantシステムのフラッシュユニットは、コントローラーRAMモジュールに接続する別個のスーパーキャパシターです。故障する可能性があると思います。まだ経験していません。HPSmartArrayRAIDコントローラーバッテリー/スーパーキャップの状態に関係なく、書き込みキャッシュを有効にしておくように設定できます。これは、突然の停電に対する施設の保護を前提としています。アプリケーションの安定性とシステムクラッシュについては引き続き心配する必要があります。

Dell PERCコントローラとその NVCACHE実装 を参照しているように聞こえます。似たようなデザインです。デルは 彼らのガイドブック ...で説明しています.

4.5.1 Non-Volatile Cache
Dell PERC controllers with non-volatile (NV) cache use the standard battery as contained in the Dell 
PERC controllers with a battery back-up unit (BBU). The difference is in battery implementation:

- The battery in the BBU offering retains the data in cache in the event of a power cycle for a 
guaranteed period of 24 hours (typically up to 72 hours).

- The battery in the NV cache offering will transfer the data from cache to flash in the event of 
a power cycle, where the data will be retained for up to ten years.

アプリケーションとストレージアクセスパターンについて考えます。本当に十分な速度で、ディスクに効果的にフラッシュできない量のデータを使用してアレイに書き込んでいますか?アプリケーションはクラッシュまたは突然の再起動から回復できませんか?

アプリケーションの可用性について本当に心配している場合は、施設の電源(正常なUPS +発電機)の保護と、冗長コンポーネント(電源、ファンなど)によるシステムの強化に焦点を当ててください。

編集:

フラッシュバック式書き込みキャッシュを搭載したHP SmartアレイP410 RAIDコントローラーを見ています。フラッシュモジュールと古い外部バッテリー用の ヘルスLED があります(HP機器は再学習サイクルを行いません)。

専用バッテリーマイクロコントローラーは、HP Smart Arrayバッテリーパックを継続的に監視して、バッテリー端子が開いている、バッテリーが部分的に短絡している、充電タイムアウト、過放電状態などの損傷の兆候がないか確認します。

スーパーキャパシタの場合、その状態は監視されますが、LEDインジケータはフラッシュモジュールにあります。 RAMはECCエラー訂正であるため、これも防御の別のレベルです。両方ともSNMPトラップを介してホストサーバーに報告され、診断ユーティリティを介して表示できます。

HPの スマートアレイテクノロジーガイド から。

スーパーキャップサブアセンブリは、直列に構成された2つの35ファラッド2.7Vコンデンサで構成され、最大5.4Vで17ファラッドを提供します。充電器はスーパーキャップを4.8Vに維持し、スーパーキャップの寿命を延ばしながらバックアップ操作を完了するために必要な量の電力を提供します。充電器はスーパーキャップの状態を監視し、FBWCモジュールのLEDインジケーターをアクティブにして、差し迫った障害を警告します。 Super-Capモジュールは、HP BBWCで使用されるHP 650 mAh Pシリーズバッテリーと同じフォームファクターとハウジングを使用します。

これらすべてについての私のポイントは、製造元がフラッシュキャッシュソリューションを機能させるために設計したソリューションであり、古いバッテリーベースのテクノロジーの実行可能な置き換えになることです。適切な監視機能を提供することは彼らの利益になります。

注記として、HPの最新世代のフラッシュモジュールの視覚的インジケータを確認してください。これらのチェックはすべて、コントローラーのアラートおよび診断システムに統合されていることを確認できます。

enter image description here

11
ewwhite

おそらく、RAIDコントローラーのBIOSでテスト中に障害が発生した場合、サーバー自体は起動に失敗します。メインサーバーのBIOSが自身のメモリをチェックするのと同じように、オンボードメモリをチェックします。詳細については、RAIDカードの製造元にお問い合わせください。

1
Bigbio2002