web-dev-qa-db-ja.com

ハードフリーズにより、物理的なリセットボタンが機能しなくなります

再利用されたPCをサーバーとして実行しています。 2014年の初めに組み立てられ、ギガバイトZ87-HD3にIntel Corei7-4770が搭載されています。 2017年の初めに断続的にフリーズし始めるまで(数週間から数か月ごと)、かなり確実に機能しました。カーネルログはなく、pstoreクラッシュデータやnetconsoleでさえ意味のあるものを生成しませんでした。物理画面が空白で、ネットワークが応答せず、10秒の粒度のメトリックは、CPU、RAMまたはディスクの負荷との相関関係を示していません。すべてのLEDとドライブはまだ実行されていますが、明らかにIOはもうありません。 RAMはテストされ、良好であることが確認されています。偽のセグメンテーション違反や、断続的なハードウェアの問題を示すものはありません。ただ固く凍る。

次に、非常に興味深い部分に移ります。システムがこの状態に入ると、物理的なリセットボタンは完全に機能しなくなります。一度押すと何も起こりません。システムがその状態にないときに100%動作するため、確実に物理的に動作しています。マルチメーターでPSUからの電圧をチェックしましたが、すべて問題ありません。電源ボタンを5秒間押すと、サーバーをリセットできますが、その後は正常に起動します。

ですから、ここで何が起こっているのか、どのハードウェアが原因であるのか、私はほとんど途方に暮れています。ロジックアナライザーがあり、USBスコープにアクセスできましたが、100MSPSを超えるサンプルはないため、実際のバスをプローブできません。何が起こっているのかについての洞察をいただければ幸いです。

6
Lorenz

したがって、多くの戦略的スワッピング(メインボード、PSU、CPU)の後、CPUの不良を確認します(テストシステムで問題が発生し、元のシステムでは問題が発生しなくなりました)。 MCEが起動されたことがないため、非常に予期しない結果になります。通常、ハードロックアップの前にMCEを取得します。

このボードには残念ながらTraceHub/JTAGコネクタがなく、組み込みのUSB3デバッグはHaswellプラットフォームでは利用できないため、実際に何が問題になっているのかわかりません。チップがリセットから解放されない状態になることはほぼ確実です(セルフテストの失敗、電源レールが起動しないなど)。ハスウェルでの FIVR(完全に統合された電圧レギュレータ) の導入に関連している可能性がありますが、それは単なる推測です。

この問題が発生した場合は、CPUである必要はありません。マザーボードやPSU(またはその他の問題)が故障している可能性もあります。完全を期すために、また実際にCPU障害である可能性があることを人々に見てもらうために、これを投稿したかっただけです(ただし、それでもかなり可能性は低いですが)。

1
Lorenz