web-dev-qa-db-ja.com

LSI MegaRAID:「PD:-:-:1」との通信中に検出された一時的なエラーはどういう意味ですか?

サーバーでLSIMegaRAID 9260-16iカードを実行していますが、エラーがログに記録され続けます

Controller ID: 0 Transient error detected while communicating with PD: -:-:1

このメッセージについてはどこにも見つかりません(ドキュメント、グーグル、フォーラムなど)。このメッセージはどういう意味ですか?

2
sbrattla

どうやらこのエラーは、使用されているディスクの種類が原因でした。 LSIは私のサポートチケットに次のように応答しました。

sAMSUNG HD103UJは、互換性のあるハードドライブとして認定されていません。エラーとその後のタイムアウトイベントは、RAID機能を目的としていないデスクトップレベルのハードドライブで使用されるエラー報告メカニズムによる通信の問題が原因で発生します。

これが問題であることに気づいていませんでしたが、さらにテストを行った後、これが問題の根本であるに違いないと私は信じています。バックプレーンとSASケーブルを変更しても成功しませんでした。また、OS仮想ディスク(エンタープライズDellディスクを使用)とDATAディスク(デスクトップを使用)の両方で「ストレス」テストを実行しました。 Samsungディスク)およびDATAディスクで「ストレス」テストを実行した場合にのみ、これらのエラーが発生しました。

したがって、この問題を回避する方法は、実際にエンタープライズディスクを購入する以外にないと思います。 LSIがサポートする「WesternDigital®REEnterprise2TB」。ハードウェアを再利用しようとするのはこれだけです。

更新(2013年3月11日)

コントローラは、WDエンタープライズディスクを使用するRAID1とSAMSUNGデスクトップディスクを使用するRAID6の2つのアレイで動作します。今週末、RAID1アレイが劣化しました。ログには、元の投稿で提供されたエラーメッセージが殺到しました。奇妙なことに、RAID1アレイはエンタープライズディスクを使用します。他のアレイのSAMSUNGディスクの1つに問題があり、WDディスクの1つが他のアレイから削除されたというのは本当ですか?それは私には奇妙な行動のように思えます。

更新(2015年5月29日)

この問題に対処してからしばらく経ちました。実際の原因は電源に関係していると思います。 4つのバックプレーンすべてを同じ電源コネクタに接続しました(スプリッタを使用)。 (消費電力の)ピーク時には、十分な電力を供給できなかったため、ディスクが「フォールアウト」していました。これを修正するには、2つの電源コ​​ネクタをそれぞれ2つのバックプレーンに分割します。

2
sbrattla