web-dev-qa-db-ja.com

「RAIDコントローラでシングルビットECCエラーが検出されました」とはどういう意味ですか?

Perc H710P RAIDコントローラと4つの3TBドライブが接続されたDell T7600を持っています。過去数か月間、RAIDコントローラーは起動時のエラーを断続的に報告していました:「起動デバイスが見つかりません」、「ベースポートのアダプターが応答していません」、ディスクの欠落または障害が頻繁に報告されています。

その後、RAIDコントローラ、4台のハードドライブ、そして最後にシステムのマザーボードを交換しました。

マザーボードを交換して数回再起動した後、エラーが発生しました

Single bit ECC errors were detected on the RAID controller.
Please contact technical support to resolve this issue.

さらに約20回再起動した後、ECCエラーは見られません。システムが完全にアイドル状態にあり、再起動するまで停止しない場合に、ディスクファンが完全に爆発する場合があることを除いて、システムは他の点では問題ないようです。

RAIDコントローラのメモリにECCエラーはありますか?または、RAIDコントローラはシステムメモリにマッピングされ、ECCエラーは本当にシステムメモリにありますか?または、RAIDコントローラにある1GBキャッシュのECCエラーですか?

4
jsp

このエラーは、コントローラーのキャッシュモジュールに対応しています。この時点で、おそらくRAMまたは実際のPERCコントローラを交換する必要があります。これは標準の保証作業です。

5
ewwhite

RAIDコントローラのメッセージ「シングルビットエラーが検出されました」は単なる情報です。ハードウェアエラーではなく、製造元に修正を要求するための適切な警告でもありません。ほとんどの公的に利用可能なメモリ(RAM)はランダムにエラーを起こします(軍事ハードウェアを除く)。これが受け入れられないコンピューティング環境では、ECCというソリューションが提供されます。シングルビットエラーを検出して元に戻すことが、最も安価で簡単なソリューションだと思います。したがって、重大なエラーは、発生している1ビットを超えるエラーメッセージです。これには、「ChipKill」などの他の手法が必要になる場合があります(ハードウェアボードが信頼されなくなったチップを無効にできるため)。シングルビットエラーメッセージが検出されると、通常、内部ハードウェアカウンター/レジストリの更新がトリガーされます。単に統計を保持するためです。ただし、ハードウェアの交換を正当化するエラーではありません。これが、ECCが構築される理由です。

シングルビットエラーの量は異なる場合があります。私はこのテーマに16年間興味を持っていました。そして、私はその量が指数関数的に増えることに気づきました。この値は、別のパラメーター(システムが稼働している時間(電源オン時間))とのみ相関します。言及に値する2つのしきい値は、18か月(指数曲線の増加)と36か月(2つのビットエラーが発生し始めます)です。他のパラメータが分析されましたが、ブランド、モデル、「安価な/高価な製品」、熱、読み取り/書き込み操作など、相関関係はまったくありません。重要なのは時間だけです(「電源オン時間」)。これは、コンピューティングハードウェアに適用される「計画的陳腐化」戦略の使用を示している場合もあります。したがって、資本主義システムでは、3年ごと、または最大6年ごとに(メンテナンス予算にプラスを加えて)コンピューティングハードウェアを更新する必要があります。

また、ECCの問題に直接関係しないと思われる他のエラーについても触れています(質問)。

1
Jordi Ferran