web-dev-qa-db-ja.com

check_mk IPMIPCMセンサーの読み取りがランダムに失敗する

Check_mk_agentを使用して、IPMIとfreeipmi-toolsがインストールされているサーバーを監視しています。私が見る限り、監視はIPMIセンサー「Temperature_PCH_Temp」によって返された値をランダムに検出しません。

CRITICAL状態が通知をトリガーする結果になるため、これは問題です。中断は1回のチェックでのみ持続し、以下は常に問題ありません。温度はエッジ領域になく、失敗する前と後の読み取り値は、しきい値を超える傾向がある温度を示していません。

この行動の理由は何であり、どのようにそれを防ぐのかについて誰かが考えていますか?

1
Julian Kessel

X9DRD-iF用のSupermicroIPMIのバージョン01.78。あなたはそれをダウンロードすることができます http://www.supermicro.com/about/policies/disclaimer.cfm?url=/support/resources/getfile.aspx?ID=194

1
Julian Kessel

チェックの再試行を構成しているので、一時的な中断があったという理由だけで警告は表示されません。

ところで、Albert Chuは、N/Aが正しく処理されていないことについて正しいと思います。おそらく、システムの最初のインベントリでのみ評価されます。 check_mkメーリングリストにBernhardSchmidtという名前のユーザーによる関連パッチが記載されたメールがあります。

しかし、このスレッドが証明しているように、そのような問題は基本的に常にハードウェアの問題に関連しています:)

0
Florian Heigl

FreeIPMI ipmi-sensor/ipmimonitoringツールは、読み取り値が返されていないセンサーを検出すると、N/Aを報告します。まれですが(そしてvoretaq7が言うように、それはおそらく破壊されたセンサーです)、IPMIセンサーが単に「今あなたのための読みがありません」と言うのは不合理ではありません。

Check_mk_agentスクリプトの内容について話すことができません。「N/A」が重要であると見なされ、そのように報告される可能性があります。

リモートシステム(バストされている場合)が不正な値を返している可能性もあります。これは、-output-sensor-stateが使用されている場合に「CRITICAL」状態につながる可能性があります。

--ignore-not-available-sensorsまたは--ignore-unrecognized-eventsオプションがこの状況で役立つかどうかを確認することをお勧めします。

0
Albert Chu

ハードウェア障害のように聞こえます(IPMIボードの不安定さ、センサーの不良)-ハードウェアベンダーに連絡して問題を報告し、交換品を入手できるかどうかを確認する必要があります。

0
voretaq7