web-dev-qa-db-ja.com

ストレージスペースダイレクト:SMBエラー

したがって、これは4ノードのStorage Space Direct(S2D)クラスターであり、1.5年以上使用しても大きな問題はありません。 OSはWindows Server 2016です。

  • すべてのプロファイルでファイアウォールがダウン
  • アンチウイルスがインストールされていない、Windows Defender OFF
  • Active Directoryの委任はそのまま
  • ネットワークインフラストラクチャの変更は報告されていません
  • NICがRDMAを完全にサポートしていないことが判明したため、RDMAは1年前に無効にされました

2日前に、クラスターイベントログに多くのエラーメッセージが表示され、クラスターでホストされているすべてのHyper-V VMのバックアップジョブが失敗しました(VEEAM経由で作成)。

調査により、SMB接続に多くの問題があることがすぐにわかりました

4つのホストのいずれか:

  • ネットワーク内の他のリソースにpingできる
  • 共有フォルダに接続できません
  • NTP同期が失敗するnet time \\serverが失敗する、w32tm /monitorも失敗する)

明らかに、ファイル共有監視も失敗し、ドメインサービスに関するいくつかの問題が報告されます...

ノードを個別に再起動しようとしましたが、再起動後、SMB接続は数分/時間で問題ありません。その後、問題が再び発生します

クラスターへの影響は、ファイル共有監視がオフラインになったことに加えて、ノード間のVMのライブマイグレーションを簡単に実行できないことです(ランダムに成功します)。ただし、クイックマイグレーションは魅力的です。 SMB接続は不可能であるため、VMを別のクラスターまたはスタンドアロンホストに移動できません。

ノードに制御不能な障害が発生した場合、クラスターが不安定になることを恐れています。 VMは安定していますが、バックアップを実行することはできません(エクスポートを実行できます)。

S2DまたはMicrosoftフェールオーバークラスターの役割の問題について聞いたことがありますか?また、クラスター自体とは無関係である可能性もあります...

この問題の根本的な原因を見つけるために何ができますか?

以下は、クラスターの役割、およびSMBCLientのイベントログにあるログのサンプルです。

クラスタコンソールから:

クラスターネットワーク名リソース 'クラスター名'で、このノードでネットワーク名を有効にするときにエラーが発生しました。失敗の理由は、「ログオントークンを取得できません」でした。

エラーコードは「1311」でした。

ネットワーク名リソースをオフラインにしてから再度オンラインにして、再試行できます。

ID 30803のイベント:

ネットワーク接続の確立に失敗しました。

エラー:{デバイスタイムアウト}%hsで指定されたI/O操作は、タイムアウト期間が経過する前に完了しませんでした。

サーバー名:server.domain.com

サーバーアドレス:x.x.x.x:445接続タイプ:Wsk

ガイダンス:これは、SMBではなく、TCP/IPなどの基になるネットワークまたはトランスポートに問題があることを示しています。 TCPポート445、またはiWARP RDMAアダプターを使用するときにTCPポート5445をブロックするファイアウォールも、この問題の原因となる可能性があります。

別のもの、ID 30804:

ネットワーク接続が切断されました。

サーバー名:\ server.domain.comサーバーアドレス:x.x.x.x:445接続タイプ:Wsk

ガイダンス:これは、サーバーへのクライアントの接続が切断されたことを示します。

RDMA over Converged Ethernet(RoCE)アダプターを使用しているときに頻繁に予期しない切断が発生する場合は、ネットワークの構成に誤りがある可能性があります。 RoCEでは、RoCEネットワーク上のすべてのホスト、スイッチ、ルーターに対して優先フロー制御(PFC)を構成する必要があります。 PFCを適切に設定しないと、パケットが失われ、頻繁に切断され、パフォーマンスが低下します。

5
Ob1lan

私は解決策を見つけました、それは愚かなことでした。ホストには、異なるVLANへのネットワークアクセス用にいくつかのNICがありました。 NICの一部は仮想スイッチにマップされ、一部はOSと共有されました( '管理オペレーティングシステムがこのネットワークアダプターを共有することを許可します')。

SMBパケットが誤ったインターフェイス(DMZ)を頻繁に使用していることに気づきましたが、もちろん要求は拒否されました。

SMBトラフィックが使用する間違ったルートを特定するために使用したPowershellコマンド:

Find-NetRoute -RemoteIPAddress x.x.x.x

(x.x.x.xはネットワーク上のリモートリソース)

これは、LANインターフェースではなく、DMZインターフェースを示しています。 DMZ vSwitchの「管理オペレーティングシステムがこのネットワークアダプターを共有できるようにする」を削除すると、問題が解決しました。

この構成では、このクラスターが1.5年間どのようにうまく機能したかはまだわかりません。しかし、まあ、それは今解決され、FSWと他のすべての操作はうまくいきます。

これが役立つことを願っています;)

2
Ob1lan