web-dev-qa-db-ja.com

「mce:[ハードウェアエラー]:マシンチェックイベントが記録されました」がsyslogに表示されます。私は何をすべきか?

OSSEC (2.8.1)の最新バージョンをインストールし、メール通知も有効にしました。そして、ハードウェアエラーとmceに関する何かがあると言って、これらの種類の通知を大量に取得しています。

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

それで、これはどういう意味ですか? mceは何の略ですか?そして、この明らかなハードウェアエラーは私が心配する必要があるものですか?


OS情報:

Description:    Ubuntu 14.10
Release:    14.10
19
user364819

機械チェック例外

マシンチェック例外(MCE)は、コンピューターの中央処理装置がハードウェアの問題を検出したときに発生するコンピューターハードウェアエラーの一種です。

コンピューターでハードウェアエラーが発生し、カーネルがイベントをバッファーに記録しました。 mcelogを使用して、マシンチェックイベントを記録および表示できます。 mcelog manpage から:

X86 CPUは、CPUによって検出されたエラーをマシンチェックイベント(MCE)として報告します。これらは、CPUキャッシュ、統合メモリコントローラーによるメインメモリ、フロントサイドバスまたはCPUインターコネクトのデータ転送エラー、またはその他の内部エラーで検出されたデータ破損です。考えられる原因は、宇宙放射線、不安定な電源、冷却の問題、ハードウェアの破損、仕様外のシステムの実行、または不運です。

ほとんどのエラーは、内部エラー修正メカニズムによってCPUによって修正できます。修正されていないエラーにより、マシンチェック例外が発生し、プロセスが強制終了されたり、マシンがパニックに陥ったりする場合があります。通常、少数の修正されたエラーは心配の原因ではありませんが、多数のエラーは将来の障害を示す可能性があります。

修正または回復されたエラーが発生すると、x86カーネルは、/ dev/mcelogデバイスを介して利用可能な内部リングバッファーにMCEを記述するレコードを書き込みます。 mcelogは、/ dev/mcelogからエラーを取得し、それらを人間が読める形式にデコードし、標準出力またはオプションでシステムログに出力します。

クラッシュに気付かなかった場合、おそらくエラーは正常に修正されています。それでも、mcelogをインストールして、そのようなイベントを追跡することをお勧めします。

Sudo apt-get install mcelog

イベントは/var/log/mcelogに記録されます。以下も実行できます。

Sudo mcelog --client

mcelogデーモンのエラーを照会します。

23
Eric Carvalho