MegaRAIDストレージマネージャーの更新と今では大量のメディアエラー

Question

5年前のサーバーを調べていたところ、MegaRAIDストレージマネージャー（14.08.01）が応答していないように見えました。サーバーは再起動せずに400日ほど実行されています。

再起動したくなかったので、新しいバージョン（17.05.00）をインストールしましたが、問題なく動作しているようです。 MSMを起動するとすぐに、ディスク0で「予期しないセンスの回復されていない読み取りエラー」が検出され始めました。

WDにエクスプレスRMAドライブを注文し、整合性チェックを開始しました。現在、別のドライブでも同じエラーが発生しています（ただし、頻度ははるかに低くなっています）。 RAID 10に4つのドライブと、1つのホットスペアがあります。ドライブの1つに156のメディアエラーがあり、もう1つに10があります。

メディアエラーが最も多いドライブに障害を発生させて、再構築を試みる必要がありますか？

Spooler · Answer

サイレントデータの破損があった場合に備えて、アレイを修復した後にファイルシステムを確認してください。

4ドライブのRAID10では、ドライブ全体が2つ失われる可能性があります。これらのドライブのどれに障害が発生しているかによっては、1ビットがねじ込まれない場合があります。これらのドライブの両方が反対側のRAID1アレイのメンバーであることを確認してください。もしそうなら、あなたはほぼ間違いなく大丈夫です。ホットスペアもあり、ほとんどのコントローラーの「波及効果」スペースとして機能するはずです。ただし、コントローラーがこれを実行するかどうかはわかりませんが、それが何であるかはわかりません。

コントローラがホットスペアをスクラッチスペースまたは緊急スペースとして使用していない場合でも、定期的にパトロール読み取りを実行しているはずです。これにより、これらの問題が検出され、データ領域が再配置された可能性があります。コントローラログは、少なくとも最後の数回のパトロール読み取り中に発生したかどうかを確認するのに適した場所です。ただし、これらのメディアエラーがどれくらい古いかはわかりません。

アダプターに関しては、コントローラーでメーカーの「認定」ドライブを実行していない場合、コントローラーは、メンバーが障害を起こし始めたときにメンバーを排出することについて必ずしもインテリジェントであるとは限りません。通常、メンバーが脱落または報告した場合にのみ、メンバーを排出できます。重大なSMART障害。ただし、ドライブは、全体的なSMARTヘルスレポートをトリガーする前に、かなり長い間故障している可能性があります。

問題がない場合でも、再構築を実行し、整合性チェックとファイルシステムチェックを実行します。実際にファイルシステムレベルの破損が発生している場合は、dmesgにファイルシステムI/Oエラーも表示されます。最悪の場合、バックアップから一部のファイルまたはアレイ全体を復元する必要があります。両方ではなく、一度に1つのディスクを再構築します。最も不規則なディスクを交換することから始めます。