「RAIDコントローラでシングルビットECCエラーが検出されました」とはどういう意味ですか？

Question

Perc H710P RAIDコントローラと4つの3TBドライブが接続されたDell T7600を持っています。過去数か月間、RAIDコントローラーは起動時のエラーを断続的に報告していました：「起動デバイスが見つかりません」、「ベースポートのアダプターが応答していません」、ディスクの欠落または障害が頻繁に報告されています。

その後、RAIDコントローラ、4台のハードドライブ、そして最後にシステムのマザーボードを交換しました。

マザーボードを交換して数回再起動した後、エラーが発生しました

Single bit ECC errors were detected on the RAID controller. Please contact technical support to resolve this issue.

さらに約20回再起動した後、ECCエラーは見られません。システムが完全にアイドル状態にあり、再起動するまで停止しない場合に、ディスクファンが完全に爆発する場合があることを除いて、システムは他の点では問題ないようです。

RAIDコントローラのメモリにECCエラーはありますか？または、RAIDコントローラはシステムメモリにマッピングされ、ECCエラーは本当にシステムメモリにありますか？または、RAIDコントローラにある1GBキャッシュのECCエラーですか？

ewwhite · Accepted Answer

このエラーは、コントローラーのキャッシュモジュールに対応しています。この時点で、おそらくRAMまたは実際のPERCコントローラを交換する必要があります。これは標準の保証作業です。

Jordi Ferran · Answer

RAIDコントローラのメッセージ「シングルビットエラーが検出されました」は単なる情報です。ハードウェアエラーではなく、製造元に修正を要求するための適切な警告でもありません。ほとんどの公的に利用可能なメモリ（RAM）はランダムにエラーを起こします（軍事ハードウェアを除く）。これが受け入れられないコンピューティング環境では、ECCというソリューションが提供されます。シングルビットエラーを検出して元に戻すことが、最も安価で簡単なソリューションだと思います。したがって、重大なエラーは、発生している1ビットを超えるエラーメッセージです。これには、「ChipKill」などの他の手法が必要になる場合があります（ハードウェアボードが信頼されなくなったチップを無効にできるため）。シングルビットエラーメッセージが検出されると、通常、内部ハードウェアカウンター/レジストリの更新がトリガーされます。単に統計を保持するためです。ただし、ハードウェアの交換を正当化するエラーではありません。これが、ECCが構築される理由です。

シングルビットエラーの量は異なる場合があります。私はこのテーマに16年間興味を持っていました。そして、私はその量が指数関数的に増えることに気づきました。この値は、別のパラメーター（システムが稼働している時間（電源オン時間））とのみ相関します。言及に値する2つのしきい値は、18か月（指数曲線の増加）と36か月（2つのビットエラーが発生し始めます）です。他のパラメータが分析されましたが、ブランド、モデル、「安価な/高価な製品」、熱、読み取り/書き込み操作など、相関関係はまったくありません。重要なのは時間だけです（「電源オン時間」）。これは、コンピューティングハードウェアに適用される「計画的陳腐化」戦略の使用を示している場合もあります。したがって、資本主義システムでは、3年ごと、または最大6年ごとに（メンテナンス予算にプラスを加えて）コンピューティングハードウェアを更新する必要があります。

また、ECCの問題に直接関係しないと思われる他のエラーについても触れています（質問）。