web-dev-qa-db-ja.com

サーバーがランダムに再起動する原因となるECCメモリエラー

Supermicro X10SLM-F/Xeon E3-1271 v3でUbuntuサーバー14.04を実行しています

メモリ:SuperTalent 32GB DDR3 1600 ECC

約4日ごとに、Ubuntuのログに次のように表示されます。

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

この直後、サーバーは「パワーサイクル」方式で再起動します。

BIOSイベントログを見ると、次のようになっています。

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

そしてエラーの説明は:

Single Bit ECC Memory Error

ubuntuのipmitoolはこれを示しています:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

いくつかの質問:

  1. ECCメモリが自己修正している場合、マシンが再起動するのはなぜですか?

  2. おそらく、BIOSの一部の設定が不足しているために、ボックスが自動的に再起動しなくなりますか?

  3. これは明らかにメモリスティックの問題ですか、それともスロットの問題かCPUの問題ですか?

  4. サーバーの再起動を停止する方法は?

アドバイスありがとうございます。

2
Kevin Kelly

修正可能なメモリエラーが発生しても、システムは再起動しないはずです。 ipmitool sel elistを介して追加情報/パターンが表示されますか? BMCウォッチドッグがシステムを再起動し、ipmitool mc watchdog getを介して有効になっているかどうかを確認できます。不良メモリモジュールの場所に関する情報はすでにあるので、交換してください。問題が再発する場合は、メモリスロットに障害がある可能性があります。

X10SLM-F 使用するRAMはテスト済みのリストにありませんRAMモジュール-可能性がある場合は、同等のSupermicroでテストされたものを備えた「問題」システム内のすべてのメモリバーまた、UbuntuバージョンでサポートされているOSのリストを確認してください。

CMOS設定に関連して、SUMキーがインストールされていれば、Supermicro SUMを使用して、すべてのシステムからBIOS設定をダンプし、vimdiff CMOSパラメータが、再起動しないシステムと比較して、定期的に再起動するシステムと異なる場合があるかどうかを確認します。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
1
7y7

これはSupermicroハードウェアであるため、安価であり、Dell、HP、またはIBMの洗練された統合がありません...

ECC RAMはエラー修正ですが、しきい値を超えている可能性があります。問題のDIMMに障害が発生している可能性があり、交換を計画する必要があります。

モジュールをスロットで識別して交換することができます。これは頻繁に発生するため、問題を特定するのは簡単です。

また、この質問の右側にある関連する質問もご覧ください。

0
ewwhite

このボード、rev 1.02でも同じ問題が発生しました。特定の問題があると思います。私は多くのSMボードを購入し、それらは通常かなり良いです。すべてのDIMMが実装されている場合、このボードに問題があると思います。たとえば、Windowsを使用していて、ブルースクリーンが表示されます。

16GB(2スロットのみ)で実行してみてください。問題は解消されると思います。これは解決策ではありませんが、奇妙な動作の診断に役立ちます。私はボードをSMに送り返しさえしました、そして彼らはそれが大丈夫だと言った、多分彼らは4つのDIMMでテストしなかった。

0
user371596