web-dev-qa-db-ja.com

ログに記録されたマシンチェックイベント

/ var/log/messagesで、次のエラーが発生しました:

Sep 19 13:18:15 wdc kernel: [2772302.630416] Machine check events logged

その後まもなく、サーバー全体が応答しなくなりました。これは、XenサーバーのDom0のログにあります(Debian Squeezeで最新バージョンを実行しています)。

誰かがこのエラーの意味に光を当てることができますか?新しいハードウェアを注文する必要がありますか?

編集:また、何かがログに記録されたことを意味しているようですが、どこで確認できますか?

3
GoldenNewby

詳細については、ログファイルを確認してください(このログファイルが存在するかどうかは、/ etc/mcelog/mcelog.confでの構成方法によって異なります)。検出された問題の詳細な説明があります。

/var/log/mcelog

または単にコマンドを実行する

mcelog


Mcelogは、x86マシンのカーネルマシンチェックログをデコードしています。 man mcelogから:

X86  CPUs  report  errors  detected by the CPU as machine check events (MCEs).  These
can be data corruption detected in the CPU caches, in main memory by an integrated
memory controller, data transfer errors on the front side bus or CPU interconnect or
other internal errors. Possible causes can be cosmic radiation, instable power
supplies, cooling problems, broken hardware, or bad luck.
Most  errors  can  be  corrected by the CPU by internal error correction mechanisms.
Uncorrected errors cause machine check exceptions which may panic the machine.
When a corrected error happens the x86 kernel writes a record describing the MCE into
a internal ring buffer available through  the  /dev/mcelog device  mcelog retrieves
errors from /dev/mcelog, decodes them into a human readable format and prints them on
the standard output or optionally into the system log.


mcelogとその構成/エラー/トリガーの詳細については、プロジェクトのWebページ McelogプロジェクトのWebページ を参照してください。

8
panaroik

mcelogはDebian10 +(Buster)および buntu 18.04 +で削除されました

機能はrasdaemonに置き換えられました。

2
Firefishy

ログエントリは mcelog によって書き込まれました。そのログファイルは/var/log/mcelog、またはシステムに応じて、syslogまたはsystemdジャーナルにあります。

X86 CPUには、ハードウェアエラー(メモリ、IO、およびCPUハードウェアエラー)を検出し、場合によっては修正する機能があります。 mcelogは、Linuxカーネルが書き込む/dev/mcelogからこれらのエラーを取得します。

システムがクラッシュしたため、ハードウェアの修正が失敗した可能性があります。システムが動作し続ける場合は、自動修正が機能しているようです。

このようなメッセージが表示されることの影響の詳細については、 「mce:[ハードウェアエラー]:ログに記録されたマシンチェックイベント」がsyslogに表示されます。どうすればよいですか? を参照してください。

1
Philipp Claßen