web-dev-qa-db-ja.com

3Wareのtw_cliは、「DEGRADED」ディスクと「ECC-ERROR」の意味を教えてください。

3ware 9650SE-16MLカードに悲しいRAIDアレイがあります。私がわからないことは、私が二重ディスク障害(バマー!)を経験したばかりか、これを間違って読んでいるかどうかです。 /c0 show allの関連出力は次のとおりです。

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

そして失敗は(show alarmsから)です:

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

が発生したのはp0が失敗したと思いますので、p1にECCエラーが発生しました(データがなくなっています)。しかし...多分そうではありませんか?再構築後は97%のままですが、このエラーを回避することはできません。

私の知る限り、以前の管理者が定期的な検証をオフにしたため、この状態になりました。これは、ほとんどの人が3Ware RAIDで心配する必要のあることではありません。

更新

数日間それを打った後、私はIgnoreECCビットを実行し、それを再構築しましたが、私のデータはホースされています。残念。

10
Bill Weiss

ECCエラーは、ドライブに少なくとも1つの読み取り不可能なセクターがあることを意味します。ただし、運が良ければ、そのセクターは実際にはそのボリュームにあるファイルシステムによって使用されない可能性があるため、この状態でもアレイからデータをコピーできる場合があります。

再構築中にECCエラーを無視するいくつかのオプションもあります。

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

ただし、これらのオプションを使用すると、不良セクターの影響を受けるRAIDストライプが破損します(この場合、カードが正確に何を行うかわかりません。ストライプ全体がゼロまたはランダムデータに置き換えられる可能性があります)。したがって、「リカバリされた」アレイは実際には検出できない破損を持っている可能性があります(影響を受けるストライプがデータファイルの途中にあった場合)。再構築を試みる前に、配列から他の場所にデータをコピーする方が安全かもしれません(少なくとも、不良領域を読み取ろうとするとエラーが発生するはずです)。

アレイのスケジュールされた検証をセットアップして、読み取り不能なセクターを早期にキャッチする必要があります。そうすることで、不良になり始めたドライブを交換できます。

7
Sergey Vlasov

私は物理ドライブ(p0)がステータスDEGRADEDになるのを経験したことがありませんが、ECC-ERRORドライブまたはDEGRADEDドライブを、

/c0 p1 remove

その後、再スキャンを発行します

/c0 rescan

それらを経由してレイドユニットに戻します

maint rebuild c0 u0 p1

ECC-ERRORで失敗したSATAドライブは、再び失敗するまでに数時間でも復活することができました。

4
ZaphodB

データがなくなっている可能性が非常に高いです。 ECCエラーは、このディスクからの読み取り中に回復不可能なエラーを意味します。

バックアップがない場合は、アレイの現在の状態をダンプしてみることができます。これは、コントローラーがデータを失ったのか、それとも空の領域なのかを知らないために可能になる可能性があります(ファイルシステムに対する洞察が不足しています)。

2
Sven