web-dev-qa-db-ja.com

NFSの問題により、vSphereESXの資産全体がダウンする

今朝、NFSの問題により、小さなvSphere5.0エステートでホストされているVMの大部分がダウンしたように見える奇妙な問題が発生しました。

インフラストラクチャ自体は、約20のVMを実行する4x IBMHS21ブレードです。ストレージは、Solaris11を実行するD2700シャーシが接続された単一のHPX1600アレイによって提供されます。これには、VMファイルのストレージ用にNFSを介して公開される、いくつかのストレージプールがあります。 MSCS共有ディスクなどのiSCSILUN。通常、これはかなり安定していますが、単一のX1600ですべてのストレージを実行する際の復元力の欠如に感謝しています。

今朝、各ESXホストのログで、グリニッジ標準時0521頃に次のようなエントリがたくさん見られました。

2011-11-30T05:21:54.161Z cpu2:2050)NFSLock: 608: Stop accessing fd 0x41000a4cf9a8  3
2011-11-30T05:21:54.161Z cpu2:2050)NFSLock: 608: Stop accessing fd 0x41000a4dc9e8  3
2011-11-30T05:21:54.161Z cpu2:2050)NFSLock: 608: Stop accessing fd 0x41000a4d3fa8  3
2011-11-30T05:21:54.161Z cpu2:2050)NFSLock: 608: Stop accessing fd 0x41000a4de0a8  3
[....]
2011-11-30T06:16:07.042Z cpu0:2058)WARNING: NFS: 283: Lost connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:17:01.459Z cpu2:4011)NFS: 292: Restored connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:25:17.887Z cpu3:2051)NFSLock: 608: Stop accessing fd 0x41000a4c2b28  3
2011-11-30T06:27:16.063Z cpu3:4011)NFSLock: 568: Start accessing fd 0x41000a4d8928 again
2011-11-30T06:35:30.827Z cpu1:2058)WARNING: NFS: 283: Lost connection to the server 10.13.111.197 mount point /tank/ISO, mounted as 5acdbb3e-410e56e3-0000-000000000000 ("ISO (1)")
2011-11-30T06:36:37.953Z cpu6:2054)NFS: 292: Restored connection to the server 10.13.111.197 mount point /tank/ISO, mounted as 5acdbb3e-410e56e3-0000-000000000000 ("ISO (1)")
2011-11-30T06:40:08.242Z cpu6:2054)NFSLock: 608: Stop accessing fd 0x41000a4c3e68  3
2011-11-30T06:40:34.647Z cpu3:2051)NFSLock: 568: Start accessing fd 0x41000a4d8928 again
2011-11-30T06:44:42.663Z cpu1:2058)WARNING: NFS: 283: Lost connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:44:53.973Z cpu0:4011)NFS: 292: Restored connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:51:28.296Z cpu5:2058)NFSLock: 608: Stop accessing fd 0x41000ae3c528  3
2011-11-30T06:51:44.024Z cpu4:2052)NFSLock: 568: Start accessing fd 0x41000ae3b8e8 again
2011-11-30T06:56:30.758Z cpu4:2058)WARNING: NFS: 283: Lost connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:56:53.389Z cpu7:2055)NFS: 292: Restored connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T07:01:50.350Z cpu6:2054)ScsiDeviceIO: 2316: Cmd(0x41240072bc80) 0x12, CmdSN 0x9803 to dev "naa.600508e000000000505c16815a36c50d" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0.
2011-11-30T07:03:48.449Z cpu3:2051)NFSLock: 608: Stop accessing fd 0x41000ae46b68  3
2011-11-30T07:03:57.318Z cpu4:4009)NFSLock: 568: Start accessing fd 0x41000ae48228 again

(私はPastebinのホストの1つから完全なダンプを置きました: http://Pastebin.com/Vn60wgTt

午前9時にオフィスに着いたとき、さまざまな障害やアラームを確認し、問題のトラブルシューティングを行いました。ほとんどすべてのVMにアクセスできず、ESXホストがそれぞれのVMを「電源オフ」、「電源オン」、または「使用不可」として記述していることが判明しました。VM 「電源オン」と記述されており、pingに到達できない、またはpingに応答していないため、これは嘘である可能性があります。

X1600には、問題が発生したことを示すものはまったくなく、スイッチには接続が失われたことを示すものはありません。 ESXホストを順番に再起動することによってのみ問題を解決することができました。

いくつか質問があります。

  1. いったい何が起こったんだ?
  2. これが一時的なNFS障害である場合、ESXホストが再起動が唯一の回復である状態になったのはなぜですか。
  3. 将来、NFSサーバーが少しゲレンデから外れたときに、回復力を追加するための最良のアプローチは何でしょうか。私は来年の予算を検討していて、別のX1600/D2700 /ディスクを購入する予算がある可能性がありますが、同じミラーディスクのセットアップがこの種の障害を自動的に軽減するのに役立ちますか?

編集(要求された詳細を追加)

要求に応じて詳細を拡張するには:

X1600には12x1TBディスクがミラーペアでtankとしてまとめられており、D2700(ミニSASケーブルで接続)には12x 300GB 10k SASディスクはsastankとしてミラーリングされたペアにまとめられます

zpool status

  pool: rpool
 state: ONLINE
 scan: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        rpool       ONLINE       0     0     0
          c7t0d0s0  ONLINE       0     0     0

errors: No known data errors

  pool: sastank
 state: ONLINE
 scan: scrub repaired 0 in 74h21m with 0 errors on Wed Nov 30 02:51:58 2011
config:

        NAME         STATE     READ WRITE CKSUM
        sastank      ONLINE       0     0     0
          mirror-0   ONLINE       0     0     0
            c7t14d0  ONLINE       0     0     0
            c7t15d0  ONLINE       0     0     0
          mirror-1   ONLINE       0     0     0
            c7t16d0  ONLINE       0     0     0
            c7t17d0  ONLINE       0     0     0
          mirror-2   ONLINE       0     0     0
            c7t18d0  ONLINE       0     0     0
            c7t19d0  ONLINE       0     0     0
          mirror-3   ONLINE       0     0     0
            c7t20d0  ONLINE       0     0     0
            c7t21d0  ONLINE       0     0     0
          mirror-4   ONLINE       0     0     0
            c7t22d0  ONLINE       0     0     0
            c7t23d0  ONLINE       0     0     0
          mirror-5   ONLINE       0     0     0
            c7t24d0  ONLINE       0     0     0
            c7t25d0  ONLINE       0     0     0

errors: No known data errors

  pool: tank
 state: ONLINE
 scan: scrub repaired 0 in 17h28m with 0 errors on Mon Nov 28 17:58:19 2011
config:

        NAME         STATE     READ WRITE CKSUM
        tank         ONLINE       0     0     0
          mirror-0   ONLINE       0     0     0
            c7t1d0   ONLINE       0     0     0
            c7t2d0   ONLINE       0     0     0
          mirror-1   ONLINE       0     0     0
            c7t3d0   ONLINE       0     0     0
            c7t4d0   ONLINE       0     0     0
          mirror-2   ONLINE       0     0     0
            c7t5d0   ONLINE       0     0     0
            c7t6d0   ONLINE       0     0     0
          mirror-3   ONLINE       0     0     0
            c7t8d0   ONLINE       0     0     0
            c7t9d0   ONLINE       0     0     0
          mirror-4   ONLINE       0     0     0
            c7t10d0  ONLINE       0     0     0
            c7t11d0  ONLINE       0     0     0
          mirror-5   ONLINE       0     0     0
            c7t12d0  ONLINE       0     0     0
            c7t13d0  ONLINE       0     0     0

errors: No known data errors

プライマリデータストアのNFSを介して公開されるファイルシステムはsastank/VMStorage

zfs list

NAME                          USED  AVAIL  REFER  MOUNTPOINT
rpool                        45.1G  13.4G  92.5K  /rpool
rpool/ROOT                   2.28G  13.4G    31K  legacy
rpool/ROOT/solaris           2.28G  13.4G  2.19G  /
rpool/dump                   15.0G  13.4G  15.0G  -
rpool/export                 11.9G  13.4G    32K  /export
rpool/export/home            11.9G  13.4G    32K  /export/home
rpool/export/home/andrew     11.9G  13.4G  11.9G  /export/home/andrew
rpool/swap                   15.9G  29.2G   123M  -
sastank                      1.08T   536G    33K  /sastank
sastank/VMStorage            1.01T   536G  1.01T  /sastank/VMStorage
sastank/comstar              71.7G   536G    31K  /sastank/comstar
sastank/comstar/sql_tempdb   6.31G   536G  6.31G  -
sastank/comstar/sql_tx_data  65.4G   536G  65.4G  -
tank                         4.79T   578G    42K  /tank
tank/FTP                      269G   578G   269G  /tank/FTP
tank/ISO                     28.8G   578G  25.9G  /tank/ISO
tank/backupstage             2.64T   578G  2.49T  /tank/backupstage
tank/cifs                     301G   578G   297G  /tank/cifs
tank/comstar                 1.54T   578G    31K  /tank/comstar
tank/comstar/msdtc           1.07G   579G  32.8M  -
tank/comstar/quorum           577M   578G  47.9M  -
tank/comstar/sqldata         1.54T   886G   304G  -
tank/comstar/vsphere_lun     2.09G   580G  22.2M  -
tank/mcs-asset-repository    7.01M   578G  6.99M  /tank/mcs-asset-repository
tank/mscs-quorum               55K   578G    36K  /tank/mscs-quorum
tank/sccm                    16.1G   578G  12.8G  /tank/sccm

ネットワークに関しては、X1600、ブレード、およびスイッチ間のすべての接続は、LACPまたはEtherchannelで結合された2x1Gbitリンクのいずれかです。スイッチは単一のCisco3750です。

ストレージトラフィックはそれ自体で存在しますVLAN VMマシントラフィックから分離されています。

1
growse

ここで重要な情報が不足しているように感じます。ストレージサーバーについて説明してください。 HP X16 は基本的に ProLiant DL180 G6 です。外部で実行しています HP D27 エンクロージャーはSASケーブル接続で接続されています。このセットアップはSolarisを実行しており、ZFSボリュームがESXiに共有されていると想定しています。ノード。開始する場所は次のとおりです。

  • Zpools/filesystemsはどのように構成されていますか?
  • X1600とD2700の両方にディスクベイがあるので、NFSストレージプールはどこにありますか(コントローラーの問題)?
  • Solarisシステムで対応するエラーがありましたか(zpool status -v出力)?
  • NFS共有/トラフィックのネットワークはどの程度回復力がありますか?接着等ですか?
  • ストレージネットワークはLANトラフィック(VLAN、個別のスイッチ)から分離されていますか?
  • NFSのベストプラクティス (ハートビート、タイムアウト、バッファー)を使用してESXiホストを調整しましたか?
1
ewwhite