web-dev-qa-db-ja.com

HP DL370 G5 hpacucliは、2台のドライブを予測障害として表示します-1つずつ再構築を試みても安全ですか?

私が持っています:

Openfiler SAN ML370 G5スマートアレイ6400スロット1アレイB論理ドライブ2は、6 x 148GB 10kホットプラグドライブのRAID5アレイであり、680GBにスペアがありません。

先週の金曜日、電源が切れ、このマシンは壁に差し込まれたばかりで、激しく落ちました。それが復旧すると、0-5ドライブのドライブ1と4が赤く点滅する障害ライトに変わりました。アレイガイドのグラフは、「このドライブで予測障害が発生したため、できるだけ早く交換する」ことを示しています。コマンドラインで、hpacucliユーティリティは同じメッセージを報告します。予測障害。アクティビティライトが正常に点滅します。障害チャートは、障害LEDが点灯するまで、ドライブが「故障」していないことを示しています。

このすべての間、そして今では1週間後、システムは稼働し続け、これまでのところユーザーから問題は報告されていません-すべてのESXホスト/ VMはこれを使用していますSANまだ正常に動作しており、手動で作成しましたアレイ上のすべてのバックアップと新しいドライブが今日表示されたので、あまり労力をかけずにいくつかのことを試すことができますが、注意すれば、ドライブを交換して再構築作業を行いたいと思います。

通常、予測エラーが発生した場合は、一度に1つずつ交換し、一度に1つずつ再構築して問題がないことを確認できますが、hpacucliを実行すると、LDで次の出力が得られると思います。

アレイ:Bインターフェイスタイプ:パラレルSCSI未使用スペース:0 MBステータス:OK

  Logical Drive: 2
     Size: 683.6 GB
     Fault Tolerance: RAID 5
     Heads: 255
     Sectors Per Track: 32
     Cylinders: 65535
     Stripe Size: 64 KB
     Status: OK
     Array Accelerator: Enabled
     Parity Initialization Status: Initialization Failed
     Unique Identifier: 600508B100104B39535153303250000F
     Disk Name: /dev/cciss/c0d1
     Mount Points: None
     Logical Drive Label: A01E9878P57820K9SQS02PBE24

したがって、ステータスはOKですが、パリティの初期化が私を驚かせたものです。再構築を成功させるための手順に関するガイダンス、または「とにかくすべてのデータが疑わしいので、不良ドライブを交換し、そこから新しいアレイを作成して、バックアップがあるので復元する」というアドバイスも問題ありません。何があってもリスクだと思います。何かを交換する前に再起動する必要がありますか?

下部に完全なhpacucli出力。

その予測障害がちょうどSMARTエラーが積み重なっている場合、それでもパリティと再構築がありますが、おそらくゆっくりですか?

どんな指導にも感謝します、平和!

---完全なhpacucli ---

アレイ:Bインターフェイスタイプ:パラレルSCSI未使用スペース:0 MBステータス:OK

  Logical Drive: 2
     Size: 683.6 GB
     Fault Tolerance: RAID 5
     Heads: 255
     Sectors Per Track: 32
     Cylinders: 65535
     Stripe Size: 64 KB
     Status: OK
     Array Accelerator: Enabled
     Parity Initialization Status: Initialization Failed
     Unique Identifier: 600508B100104B39535153303250000F
     Disk Name: /dev/cciss/c0d1
     Mount Points: None
     Logical Drive Label: A01E9878P57820K9SQS02PBE24

  physicaldrive 1:0
     SCSI Bus: 1
     SCSI ID: 0
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY83F3Y00007442557Q
     Model: COMPAQ  BD14685A26
  physicaldrive 1:1
     SCSI Bus: 1
     SCSI ID: 1
     Status: Predictive Failure
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY8393700007345XU2M
     Model: COMPAQ  BD14685A26
  physicaldrive 1:2
     SCSI Bus: 1
     SCSI ID: 2
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9NWGY00007524BFV1
     Model: COMPAQ  BD14685A26
  physicaldrive 1:3
     SCSI Bus: 1
     SCSI ID: 3
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9PA1N00007523W3DP
     Model: COMPAQ  BD14685A26
  physicaldrive 1:4
     SCSI Bus: 1
     SCSI ID: 4
     Status: Predictive Failure
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY72WR9000075216UNS
     Model: COMPAQ  BD14685A26
  physicaldrive 1:5
     SCSI Bus: 1
     SCSI ID: 5
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9NT3F000075231R9V
     Model: COMPAQ  BD14685A26
2
bifpowell

100%安全ですか?番号。特にRAID5では、アレイの再構築を伴う操作は完全に安全ではありません。恐らく。

問題は、再構築中に1回の読み取りに失敗すると、ボリューム全体が失敗することです。そして、すでに問題が発生しているドライブを1回含む、2回実行します。

理想的には、このような状況では、システムを本番環境から外し、完全バックアップを作成し、RAIDボリュームを削除し、ディスクを変更し、アレイを再作成して、バックアップを復元する必要があります。

そのアレイで実際にそれほど多くのダウンタイムをとることができない場合は、各ディスクを個別に変更し、再構築が完了するまで毎回待つ必要がありますが、最初に完全バックアップを行わずにそれを行わないでください。再構築中はそのシステムをアクティブに保ち、最後のバックアップ日以降にすべてのデータが失われる可能性があること、およびユーザーの承認を得たことを最初にユーザーに警告するようにしてください(結局のところ、それはユーザーのデータであり、ユーザーが決定する必要があります)彼らがとるリスク:安全だがダウンタイムまたは安全ではないがサービスが中断されない可能性があることを示す)。

2
Stephane

関連データのバックアップをとることができるか、または試みている間に、アレイからデータをコピーします。電源をオフ(ドライブをスピンダウン)してからオンに戻すと、再構築プロセスを実行できるかどうかを確認できます。一度に1枚のディスクを交換してください。 「再構築を待機中」のステータスに注意してください。これが表示された場合は、RAID 5の再構築を続行できないことを意味します(通常、アレイ内の別のドライブでの読み取りエラー)。

パリティの初期化について詳しく説明します ここ および ここ

Background RAID creation 
When you create a RAID 1, RAID 5, or RAID 6 logical drive, the Smart Array controller must build the 
logical drive within the array and initialize the parity before enabling certain advanced performance 
techniques. Parity initialization takes several hours to complete. The time it takes depends on the size of the 
logical drive and the load on the controller. The Smart Array controller creates the logical drive, initializing 
the parity whenever the controller is not busy. While the controller creates the logical drive, you can access 
the storage volume which has full fault tolerance. 

これらのディスクにはどのエンクロージャーを使用していますか? MSA30?

2
ewwhite

DL380 G7 P410i RAID5でもまったく同じ問題が発生し、HPサポートで非常に不快な経験をしました。何が起こっているのかわからず、また嫌がる何人かの人々(インドから)に対処しました。問題をエスカレーションします。参考資料も同様に、このエラー状態の説明が不十分でした。

とにかく、私は問題を解決しました。私の知る限り、「再構築」操作は必ずしも「パリティの初期化」と同じではありません。私の場合、多くの回復された読み取りエラーがある欠陥のあるHDDがありましたが、実際にはアレイによって失敗としてフラグが立てられていませんでした。もちろん、「このディスクを交換すると、パリティが正しく書き込まれていない可能性があるため、論理ドライブに障害が発生しますか?」という質問でした。また、「なぜ****はHP管理エージェントが何か問題を報告していないのですか?」すべてをバックアップし、欠陥のあるディスクを取り出した後も、論理ドライブは実行を続けました。交換用ディスクを挿入すると、論理ドライブのステータスが「リカバリ」に変わりました。リカバリが完了すると、論理ドライブのステータスは「OK」に戻りましたが、パリティの初期化は失敗しました。そもそもどのように起こったのかはわかりませんが、上記のように、欠陥のあるディスクのエラーが原因である可能性があります。

最後に、ACUcliから「ctrlslot = 0logicaldrive 1 modify raid = 5」を実行しました。これにより、パリティの初期化が再開され、最終的に正常に完了しました。

2
derukey