web-dev-qa-db-ja.com

RAIDアレイが再構築されないのはなぜですか?

昨夜、サーバーでドライブが故障したという通知を受けました。今朝、それを交換するために来ました、そして私たちは次のものを得ています。アレイのコントローラー構成レポートは正常で、異常なステータスReady for Rebuildが表示されます。

 ~ # hpacucli controller all show config
Smart Array P400i in Slot 0 (Embedded)    (sn: XXXXXXXX     )
   array A (SAS, Unused Space: 0 MB)
   logicaldrive 1 (341.7 GB, RAID 5, Ready for Rebuild)
   physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS, 72 GB, OK)
   physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS, 72 GB, OK)
   physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS, 72 GB, OK)
   physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS, 146 GB, OK)
   physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SAS, 72 GB, OK)
   physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SAS, 72 GB, OK)

論理ドライブにヒントが表示されますパリティ初期化ステータス:初期化失敗

~ # hpacucli controller slot=0 logicaldrive 1 show 
Smart Array P400i in Slot 0 (Embedded)
   array A
      Logical Drive: 1
         Size: 341.7 GB
         Fault Tolerance: RAID 5
         Heads: 255
         Sectors Per Track: 32
         Cylinders: 65535
         Strip Size: 64 KB
         Full Stripe Size: 320 KB
         Status: Ready for Rebuild
         Array Accelerator: Enabled
         Parity Initialization Status: Initialization Failed
         Unique Identifier: XXXXXXX
         Disk Name: /dev/cciss/c0d0
         Mount Points: /boot 191 MB, / 28.6 GB
         OS Status: LOCKED
         Logical Drive Label: XXXXX     6797

役立つ場合はアレイ構成:

 ~ # /usr/sbin/hpacucli ctrl slot=0 show
Smart Array P400i in Slot 0 (Embedded)
   Bus Interface: PCI
   Slot: 0
   Serial Number: XXXXXXXX     
   Cache Serial Number: XXXXXXXX
   RAID 6 (ADG) Status: Enabled
   Controller Status: OK
   Hardware Revision: B
   Firmware Version: 1.18
   Rebuild Priority: Low
   Expand Priority: Low
   Surface Scan Delay: 15 secs
   Surface Scan Mode: Idle
   Post Prompt Timeout: 0 secs
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Drive Write Cache: Disabled
   Total Cache Size: 256 MB
   Total Cache Memory Available: 208 MB
   No-Battery Write Cache: Disabled
   Cache Backup Power Source: Batteries
   Battery/Capacitor Count: 1
   Battery/Capacitor Status: OK
   SATA NCQ Supported: False

これをデバッグするにはどうすればよいですか?

編集:

個々のドライブはすべて正常に表示されます。

~ # hpacucli controller all show config detail | grep Status
   RAID 6 (ADG) Status: Enabled
   Controller Status: OK
   Cache Status: OK
   Battery/Capacitor Status: OK
      Status: OK
         Status: Ready for Rebuild
         Parity Initialization Status: Initialization Failed
         OS Status: LOCKED
         Status: OK
         Status: OK
         Status: OK
         Status: OK
         Status: OK
         Status: OK

edit2:

私はhpaducliとgrsec(mp-SSHとUbuntuも)の間のいくつかの不利な相互作用をデバッグしていますが、利用可能なhpacucli diag結果があり、論理ドライブステータスフラグに埋め込まれていますRebuild Aborted From Read Error。ここで私を混乱させるのは、再構築中の読み取りエラーが、ドライブの1つに予測可能な障害をマークすることにならないか、悪いことに、再構築を停止させることです。

2
jldugger

Ready for Rebuildは、5または6のようなパリティRAIDレベルを使用している場合は不良ステータスです。これは、アレイ内の別のドライブで読み取りエラーが発生している可能性があることを意味します...別の障害ドライブ。

システムがまだオンラインの場合は、データを回復するか再構築するのが最善の方法です。これに対する適切な修正はなく、デバッグするためにできることは間違いありません。

以下を参照してください。

HP SmartアレイのLUNを強制的に再構築

HP Proliant ML350 G5 SAS HDD

HP SmartArray P400:故障した論理ドライブを修復する方法

そしてもちろん: RAID-5:2つのディスクが同時に故障した?

3
ewwhite

ファームウェアをアップグレードしましたか? P400iコントローラーのv1.8はかなり古いようです。すべてのドライブが正常で、パリティも失敗することは、私にはバグのように思えます。

HPが古いファームウェアを出荷し、アップグレードの固定パリティ初期化の問題(ただし、アレイを最初から再構築する必要がありました)を実行し、パフォーマンスも大幅に向上させたケースがいくつかありました(まったく同じユニットではありませんが、 P440AR)。

2
Tel