web-dev-qa-db-ja.com

PowerEdgeR905-「ディスクドライブベイのバッテリが故障しました」

最近管理しているPE 905からアラートを受け取りました:I1912 SEL Full。 DRACウェブUIを介してSELを確認したところ、本日は次のメッセージが約50回繰り返されました。

"The disk drive bay battery has failed"

数秒後、同等のトラブルクリアメッセージが続きました(残念ながら、正確な文言をコピーする前に、メッセージがまだ表示されているかどうかを確認するためにSELをクリアしました)。

問題は、ドライブbayにバッテリーが搭載されていることに気付いていなかったことです。 (そうではありませんか?)

ボックス内の唯一のRAIDコントローラーはPERC6/iであり、そのバッテリーは良好であると報告されています。私はnot ROMBエラーを確認しました(またはアラートを受信しませんでした)、またはPERCのバッテリーが不良であることを示すものは何もありません。

言うまでもなく、私はエラーメッセージをグーグルで検索しましたが、私が見つけた最高のものは、日本語のクロスポストされた記事の1つでした。デルによると、G翻訳を介して、作成者はメッセージがRAIDバッテリー障害または差し迫ったコントローラー障害を示している可能性があることを示しているようです。

彼はコントローラーとバッテリーを交換したようで、問題は解決しました。しかし、両方の交換が必要でしたか? (予算が限られているため、このマシンではデルのサービス/サポートを利用できなくなりました)。

このトピックに関する利用可能な投稿は1つだけなので、誰かがこのエラーにもっと光を当てることができるかどうかを知りたいと思います。ログなどを提供させていただきますが、SEL内のそのメッセージを除いてすべてがおかしく見えます。実際、ログをクリアしてから過去1時間以内にエラーが返されていません。

ありがとう!

3
s.co.tt

元のエラーメッセージは新しいメッセージの前身だったようですが、実際にはGoogleで結果が表示されます。静かな夜を過ごした後、システムログに次のメッセージが表示され始めました。

The storage battery has failed.
The storage battery is operating normally.

昨夜のパターンと同じですが、メッセージが異なります。

ESM Log showing error message

A Dell Community wiki page は、エラーの詳細な説明を次のように報告します。

熱の例外が原因で、PERCRAIDコントローラーのバッテリーに障害が発生した可能性があります。

もちろん、局所的な熱の問題である可能性もありますが、システムボードの温度は現在26度と報告されています。 Cなので、システム全体の熱の問題ではありません。

同様の問題がPERC5/iで報告されました Dellのメーリングリストの1つ これは熱的な原因を示していませんが、ファームウェアの不良/古い可能性があります。 (私のf/wは最新です)。

私の場合、SELを再度クリアした後、すべてがコントローラーのバッテリーで良好に表示され、新しいイベントはログに表示されませんでした。 (OpenManage経由で表示)。

コントローラーのバッテリーで学習サイクルを開始しましたが、ほぼ即座にOM内で劣化が報告されました。その後、ログは同じメッセージで再びいっぱいになり始めました。

PERC battery shown as degraded

この新しい情報に基づいて、問題はバッテリーにあるとかなり確信しています。今日、サーバーの場所にたどり着くことができたら、交換する予定です。

私の仮説は、学習サイクルがバッテリーで開始され、バッテリーが不良として報告され始めたのはその時点であったというものです。充電中に加熱された可能性があり、それによって加熱されてから冷却されるときに繰り返しメッセージが表示されました。

私は自分の質問に答えています。これが私の元のエラーメッセージ(検索では英語の結果が得られなかった)を検索する人に役立つことを願っています。

幸い、問題のマシンがSAN=に接続されていて、PERCが書き込み集中型ではないローカルOSボリュームのみを担当しているため、コントローラーのバッテリー不良は問題ではありません。しかし、 、これから取り除くべき1つのことは、書き込みキャッシュに依存していて、同じバッテリータイプを使用する複数のPERCコントローラーがある場合は、少なくとも1つの予備バッテリーを手元に置いておくことです。

更新:科学の名の下に、バッテリーの学習サイクルを完了させました。しばらく時間がかかりましたが、正常に終了し、ESM Log/SELに新しいエラーメッセージは追加されていません。

もちろん、バッテリーはまだ疑わしく、交換されますが、私が説明した症状を経験している人には、学習サイクルを開始することをお勧めします。

3
s.co.tt

バッテリーが約5年前のいくつかのDell-PowerEdgeシステムでも同様の動作が見られました。

私が見たのは、仮想ディスクキャッシュが繰り返しライトバックからライトスルーに切り替わっていることです。

これについてDellサポートに電話したとき、これは十分に充電されていないバッテリーの兆候である可能性があると言われました。 omsaでバッテリーがまだ「OK」と報告されている状態がありますが、それでもレベルは十分に高くありません。これはomsa-command-lineで確認できます。

omconfig storage controller action=exportlog controller=0これによりログファイルが作成されます。

Linuxの場合:/var/log/lsi_DDMM.log(日と月)。これはASCIIファイル(DOS形式)で、バッテリーの詳細が表示されます。

0
Nils