web-dev-qa-db-ja.com

VMWare vSphereおよびNFSの問題:apd状態の再発

2つの異なるセットアップでVMWarevSphere 5.1とNFSストレージに問題が発生し、NFS共有の「オールパスダウン」状態になります。これは最初は1日に1〜2回発生しましたが、最近では、特にAcronisバックアップジョブの実行時に発生する頻度が高くなっています。

セットアップ1(本番):2つのESXi 5.1ホスト(Essentials Plus)+ストレージとしてNFSを使用するOpenFiler

セットアップ2(ラボ):1つのESXi5.1ホスト+ストレージとしてNFSを備えたUbuntu12.04 LTS

Vmkernel.logの例を次に示します。

2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 248: APD Timer started for ident [987c2dd0-02658e1e]
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 395: Device or filesystem with identifier [987c2dd0-02658e1e] has entered the All Paths Down state.
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 846: APD Start for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4cf28  3
2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4d0e8  3
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 277: APD Timer killed for ident [987c2dd0-02658e1e]
2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 402: Device or filesystem with identifier [987c2dd0-02658e1e] has exited the All Paths Down state.
2013-05-28T08:07:41.281Z cpu1:2049)StorageApdHandler: 902: APD Exit for ident [987c2dd0-02658e1e]!
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4d0e8 again
2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4cf28 again

問題が1日に1〜2回発生する限り、実際には問題ではありませんでしたが、この問題はVMに影響を及ぼします。 VMの速度が低下したり、ハングしたりするため、本番環境のvCenterを介してリセットされます。

私はウェブを広範囲に検索し、フォーラムで質問しましたが、今まで誰も私を助けることができませんでした。ブログ投稿とVMWareKB記事に基づいて、次のNFS設定を試しました。

Net.TcpipHeapSize = 32
Net.TcpipHeapMax = 128
NFS.HartbeatFrequency = 12
NFS.HartbeatMaxFailures = 10
NFS.HartbeatTimeout = 5
NFS.MaxQueueDepth = 64

NFS.MaxQueueDepth = 64の代わりに、NFS.MaxQueueDepth = 32やNFS.MaxQueueDepth = 1などの他の設定をすでに試しました。残念ながら運がありませんでした。

誰かがこの問題について私を助けてくれるといいですね。本当に迷惑です。

すべての助けを事前に感謝します。

[更新]以下のコメントで説明したように、ネットワークの設定は次のとおりです。

本番環境では、NFSトラフィックはID20の別のVLANにバインドされています。HP181024ポートスイッチを使用しています。 OpenFilerシステムは、動的LACPを備えた4つのIntel GbENICでVLANに接続されています。 ESXisには、それぞれ2つのNICを含む2つの静的LACPトランクを使用する4つのIntel GbENICがあります。一方のペアは通常のLANに接続され、もう一方のペアはVLAN 20に接続されます。

そして、これがvSwitchのスクリーンショットです: enter image description here

スイッチ構成: enter image description here

ポート構成: enter image description here

ラボでは、VLANを使用せず、IPサブネットが異なる単一のIntel NICを両側にセットアップします。

2
Bastian N.

ESXiホスト側の静的トランクなしでこれを試すことをお勧めします。彼らはおそらくあなたが期待することをしていない(> 1Gbpsの転送速度)。なしで試して、影響を確認してください... ESXiホスト側で複数のNICを使用してNFSストレージを構成しますが、ストレージユニットからスイッチへのLACPを実行します。

1
ewwhite

私はまったく同じ問題を抱えていました。 MTUを9000に設定し、vmkポートも9000に設定したのは、物理スイッチであることがわかりました。天国で行われた試合のようです。私のスイッチはそれを9000+に設定したかった。必死になって9216(スイッチの最大値)に設定すると、プラスが何であるかわかりません。

0
BBD