web-dev-qa-db-ja.com

一部のユーザーに対してのみautofs自動マウントがハングしているNFSv4

マウントされたDRBDパーティションをLinux-HAを使用して自動マウントし、バインドを設定して、NFS経由でディレクトリを共有します。これにより、ユーザーのホームディレクトリのディレクトリが共有されます。

一部のユーザーは正常に動作しますが、ほとんどのユーザーは正常に動作せず、フォルダーのマウントにぶら下がっています。 tcpdumpを実行すると、次のように表示されます。

07:45:16.415649 IP foo.server.com.1002 > nfs.server.com.nfs: . ack 976 win 348
07:45:22.705531 IP foo.server.c.2174542926 > nfs.server.com.nfs: 192 getattr [|nfs]
07:45:22.705643 IP nfs.server.com.nfs > foo.server.com.1002: . ack 1985 win 501
07:45:23.703517 IP nfs.server.com.nfs > foo.server.c.2174542926: reply ok 96 getattr ERROR: Request couldn't be completed in time
07:45:23.703564 IP foo.server.com.1002 > nfs.server.com.nfs: . ack 1072 win 348
07:45:25.053519 IP foo.server.c.2191320142 > nfs.server.com.nfs: 192 getattr [|nfs]
07:45:25.053651 IP nfs.server.com.nfs > foo.server.com.1002: . ack 2177 win 501
07:45:26.051473 IP nfs.server.com.nfs > foo.server.c.2191320142: reply ok 96 getattr ERROR: Request couldn't be completed in time
07:45:26.051522 IP foo.server.com.1002 > nfs.server.com.nfs: . ack 1168 win 348
07:45:31.413431 IP foo.server.c.2208097358 > nfs.server.com.nfs: 160 getattr [|nfs]
07:45:31.413556 IP nfs.server.com.nfs > foo.server.com.1002: . ack 2337 win 501
07:45:32.411393 IP nfs.server.com.nfs > foo.server.c.2208097358: reply ok 76 getattr ERROR: Request couldn't be completed in time

私のauto.masterは次のようになります:

/home/users   /etc/auto.home  --timeout=60

私のauto.home:

*       -fstype=nfs4,rw,nosuid,soft,rsize=8192,wsize=8192  nfs.server.com:/home/&

私の輸出:

/nfs4exports 192.168.0.0/255.255.0.0(rw,no_subtree_check,nohide,no_root_squash,fsid=0)
/nfs4exports/home 192.168.0.0/255.255.0.0(rw,no_subtree_check,nohide,no_root_squash)

私のidmapd.conf:

[General]

Verbosity = 0
Pipefs-Directory = /var/lib/nfs/rpc_pipefs
Domain = bb.int.threatmetrix.com

[Mapping]

Nobody-User = nfsnobody
Nobody-Group = nfsnobody

[Translation]
Method = nsswitch

CentOS 5.4、nfsバージョンを使用しています:

nfs-utils-1.0.9-42.el5 nfs-utils-lib-1.0.8-7.6.el5 nfs4-acl-tools-0.3.3-1.el5

1

これが手がかりであることが判明しました:

rpc.idmapd[5924]: nfsdcb: id '-2' too big!

問題は、デフォルトのnfsnobodyユーザーのuidが4294967294であるということでしたが、64ビットのCentOSシステムでは、この番号を32ビットのコンテキストで解釈しているように見えて悪名高い-2になります。修正は次のとおりです。

  • クライアントとサーバーの両方でnfsnobodyユーザー/グループをuid/gid65534に変更します
  • サーバー上のuid4294967294が所有するファイルをnfsnobodyにchownします

これで問題が解決します

2