web-dev-qa-db-ja.com

Linuxでハードウェアの問題をトラブルシューティングする方法は?

現時点では問題はありませんが、以前は問題があったため、好奇心が刺激されました...

コンピュータが突然ロックして、Caps Lockが絶え間なく点滅し、再起動する唯一の可能性がある場合、原因のトラブルシューティングをどのように行いますか? Windowsでは、イベントログにいくつかのエラーがあります... Linuxでは、ログに何かが書き込まれる機会がないようで、トラブルシューティングが困難です...

この場合、Linuxを介して問題をどのようにトラブルシューティングしますか?

3
Jack

起動可能なメディアからmemtest86 +を起動してみて、メモリとメモリサブシステムの整合性について何が表示されるかを確認してください。

また、最後に開始されたジョブがCronの/ var/log/syslogまたは/ var/log/messagesに記録される場合があります。

そうでない場合は、この問題を継続的にデバッグするために、psを使用してauditdジョブとcronジョブを設定して、システムアクティビティと継続的に実行されているジョブをログに記録できます。

4
kmarsh

カーネルデバイスは、問題をdmesgに報告します。これは、個別に、またはkern.logに記録される場合もあります。

深刻な問題の場合は、 POST診断ボード を使用できます。

3
mctylr

今日のほとんどのLinuxでは、実際のハードウェアエラーを見つけるためにデコードできるMCEログ(マシンチェック例外)を取得できるはずです( http://freshmeat.net/projects/mcelog/ )。また、毎日使用しているLinuxカーネルを実行するカーネルであるKernel Crash Dumpを実行して、インシデントをキャプチャし、原因をデバッグすることもできます。

2
Sverre Marvik

Kmarshが言うように、ログは最初に確認する場所ですが、重大なHW障害が発生した場合にログがあまり意味をなさない場合は、使用するOSに関係なく、昔ながらの試行錯誤が必要です。 。

ライブCDを実行して、ハードウェアの問題かどうかを判断します。そうでない場合は、ハードウェア障害と誤診されたドライバーの問題である可能性があります。

HWのロックアップはランダムですが、頻繁に発生します。まず、原因を特定するまで、グラフィックカード(オンボードカードまたはバックアップカードを使用)、ネットワークカード、または(ガスプ)モデムを1つずつ削除することから始めます。一度に1つのメモリースティックで実行するか(x2がある場合)、テスト中に他のスティックと交換します。

PSUにも障害が発生している可能性があります。新しいカードを追加するとワットが消費され、PSUの能力が十分でない場合はCPUが不足し、ランダムな障害が発生することがあります。

他に何もリードがない場合は、メインボード(通常、住んでいる湿度に応じて2年以上の場合は腐食)またはCPUである可能性があります。

ソフトウェアを使用してCPU温度を監視します。過熱すると、ロックアップも発生する可能性があります。

運が悪かったので、太陽の下ですべてを試した後、新しいPCの時間かもしれません;)

2
invert

今日では、以前に機能していたセットアップが誤動作し始めたときはいつでも、最初にログなどを読むことすらしません。今日、ドライバーの品質などは非常に優れているため、突然死するバグのほとんどは解決されており、ソフトウェアのバグよりもハードウェアの問題の可能性が高くなっています。そして、最も完璧なコードでさえ、物理的な問題と戦うことはできません。

しばらく前、私のラップトップは奇妙に動作し始めました。映画を見たり、コードをコンパイルしたり、比較的CPUを集中的に使用したりしていると、すべてが突然遅くなりました。ウィンドウの移動には1〜15秒かかりました。 CPU周波数は2GHzから800MHzに低下し、そこにとどまることにしました。アイドル温度でさえ+ 60℃前後でした。時々、すべてがロックされました。

ラップトップ内のほこりを掃除した後、物事は正常に戻りました。アイドル温度+ 35-40C、減速なし。

OK、それは熱とラップトップ内部の過度のほこりのために追跡するのは非常に簡単でした。 :-)

もっとトリッキーなことが出てきたら、私は通常、最初にmemtest86を一晩実行させて、それが結果をもたらすかどうかを確認します。そうでない場合は、cpuburnまたは同様のプログラムを起動して、コンピューターがクラッシュするかどうかを確認します。それでも問題が解決しない場合は、bonnie ++またはiozoneでハードディスクを拷問し、クラッシュするかどうかを確認します。次に、PPRacerの再生などの3Dテストに移ります。

これらすべてのテストの後で制御されたクラッシュを取得できない場合は、さらにあいまいなものを調べることに移ります。おそらくUSBの自動サスペンドが原因ですか?またはさらに奇妙な何か。

あるケースでは、ウェブカメラソフトウェアが起動されるたびにコンピューターがロックアップしました。カーネルパラメータの設定などに多くの時間を費やした後、lsusbは何か恥ずかしいことを明らかにしました。 WebカメラはUSB2.0ポートではなくUSB1.1ポートに接続されていました。カムをUSB2.0ポートに接続した後、動作を開始しました。

0