3Wareのtw_cliは、「DEGRADED」ディスクと「ECC-ERROR」の意味を教えてください。

Question

3ware 9650SE-16MLカードに悲しいRAIDアレイがあります。私がわからないことは、私が二重ディスク障害（バマー！）を経験したばかりか、これを間違って読んでいるかどうかです。 /c0 show allの関連出力は次のとおりです。

Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9 p2 OK u0 931.51 GB 1953525168 5QJ0DW9C p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ

そして失敗は（show alarmsから）です：

Ctl Date Severity Alarm Message ------------------------------------------------------------------------------ c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0 c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0 c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0 c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0 c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0

私が発生したのはp0が失敗したと思いますので、p1にECCエラーが発生しました（データがなくなっています）。しかし...多分そうではありませんか？再構築後は97％のままですが、このエラーを回避することはできません。

私の知る限り、以前の管理者が定期的な検証をオフにしたため、この状態になりました。これは、ほとんどの人が3Ware RAIDで心配する必要のあることではありません。

更新

数日間それを打った後、私はIgnoreECCビットを実行し、それを再構築しましたが、私のデータはホースされています。残念。

Sergey Vlasov · Accepted Answer

ECCエラーは、ドライブに少なくとも1つの読み取り不可能なセクターがあることを意味します。ただし、運が良ければ、そのセクターは実際にはそのボリュームにあるファイルシステムによって使用されない可能性があるため、この状態でもアレイからデータをコピーできる場合があります。

再構築中にECCエラーを無視するいくつかのオプションもあります。

/cx/ux start rebuild disk=p [ignoreECC] /cx/ux set ignoreECC=on|off

ただし、これらのオプションを使用すると、不良セクターの影響を受けるRAIDストライプが破損します（この場合、カードが正確に何を行うかわかりません。ストライプ全体がゼロまたはランダムデータに置き換えられる可能性があります）。したがって、「リカバリされた」アレイは実際には検出できない破損を持っている可能性があります（影響を受けるストライプがデータファイルの途中にあった場合）。再構築を試みる前に、配列から他の場所にデータをコピーする方が安全かもしれません（少なくとも、不良領域を読み取ろうとするとエラーが発生するはずです）。

アレイのスケジュールされた検証をセットアップして、読み取り不能なセクターを早期にキャッチする必要があります。そうすることで、不良になり始めたドライブを交換できます。

ZaphodB · Answer

私は物理ドライブ（p0）がステータスDEGRADEDになるのを経験したことがありませんが、ECC-ERRORドライブまたはDEGRADEDドライブを、

/c0 p1 remove

その後、再スキャンを発行します

/c0 rescan

それらを経由してレイドユニットに戻します

maint rebuild c0 u0 p1

ECC-ERRORで失敗したSATAドライブは、再び失敗するまでに数時間でも復活することができました。

Sven · Answer

データがなくなっている可能性が非常に高いです。 ECCエラーは、このディスクからの読み取り中に回復不可能なエラーを意味します。

バックアップがない場合は、アレイの現在の状態をダンプしてみることができます。これは、コントローラーがデータを失ったのか、それとも空の領域なのかを知らないために可能になる可能性があります（ファイルシステムに対する洞察が不足しています）。