web-dev-qa-db-ja.com

VMWareスナップショットがタイムアウトする原因は何ですか?

BackupExecとVCBを使用していくつかのVMをバックアップしています。私が理解しているように、ジョブ前のスクリプトはVMのスナップショットを作成し、それらを仮想ディレクトリとしてバックアップサーバーにマウントします。その後、バックアップexecジョブは通常のようにローカルフォルダーをバックアップします。私が抱えている問題は、ジョブ前のスクリプト中に発生し、特定のサーバーのディレクトリがマウントされません。

VIクライアントを見て、最近のアクティビティを見ると、スナップショットが開始されているのに終了していないことがわかります。 15分後にタイムアウトしたように見えるため、サーバーがバックアップされることはありません。

この方法で複数のVMがバックアップされており、他のVMは正常に動作しています。面倒なVMには85GBの仮想ディスクがありますが、動作する別のVMには、ほぼ100GBの仮想ディスクがあります。

VMの場合、スナップショットの作成に時間がかかる可能性があります。VMホストの問題でしょうか? VMホストは非常に強力なサーバーであり、VMゲストは頻繁に使用されません。また、バックアップは営業時間外に実行されるため、そうすべきではありません。サーバーが過負荷になっている場合スナップショットの速度が低下している原因を確認するために使用できるログやツールはありますか?

1
Ken Pespisa

VMWareは、用語snapshotをかなり大まかに使用します。実際にはサーバーのコピーを作成しているわけではありません。既存のディスクファイルへの変更を停止し、変更をデルタファイルにリダイレクトします。スナップショット。

これが意味することは:

  1. あらゆるサイズのサーバー上のスナップショットはほぼ瞬時に実行されます。
  2. スナップショットが残っている限り、デルタファイルは拡大し続けます。おそらく、基盤となるディスク領域をすべて使い果たすまでになります。
  3. 変更のコミット(つまり、スナップショットの削除)には時間がかかる場合があります

VCBプロセスが行うことは、スナップショットを作成し(コピー中にデータが変更されないようにするため)、次にバックアップ用にフリーズしたファイルのクローンを作成することだと思います。これには時間がかかる場合があります。大規模なサーバーでは成功するとおっしゃっていますが、おそらくこれは問題ではありません。

1つの可能性は、independentとマークされた仮想ディスクがある場合です。その場合、これらはsnapshotプロセスによって無視され、場合によってはVCBによっても無視されます。 VCBがドライブをどのようにマウントするかはわかりませんが、おそらくindependentとマークされたドライブが必要ですか?

2
Brent

レイテンシーとSCSI予約についてはすでに言及されており、それらが原因であることがよくあります。

その他の確認事項:

この特定のvmtoolsはVMインストールされ、正しく実行されていますか?VM古いバージョンのvmtoolsを実行していますか?VMwareツールは適切なスナップショットを取得するための鍵ですたとえば、ESX 3.5およびvmwareツールの最新バージョンはVSSをWindows VMのスナップショットプロバイダーとして使用することをサポートしていますが、vmwareツールの更新バージョンはVSSサポートとともにインストールする必要があり、構成する必要があります。

バックアップリソース:この特定のジョブは長期間キューイングされていますか?ディスクステージまたはテープドライブが使用中であり、ジョブがスナップショットステージに長期間留まっている場合、スナップが実際に実行されることはありません。これはあなたの説明を与えられそうにないようですが、一般的にそれはチェックする何かであるかもしれません。

0
damorg

これが発生しているときは、sanのレイテンシを確認してください。別のVMまたはプロセス(SQLサーバージョブ?)が同時にsanにヒットしている可能性があります。

0
Jim B

もう1つは、VMに対するスナップショットがある間は、デフラグが実行されないようにすることです。デルタファイルのサイズが爆発します。

0
Hans Malherbe

同じLUNでいくつのVMをホストしますか?彼らはどれくらい忙しいですか?

ここでは、一部のVMware ESXサーバーがLUNに非常に多くのSCSI予約を配置し、同じLUNを使用する他のESXサーバーがLUNに書き込むことができなくなったという大きな問題が発生しました。ただし、これはログファイルで確認できるはずです。

ESXは、メタデータの更新を実行しなくなると、LUN全体にSCSI予約を設定します。ここで、VCBがLUNのすでに重い負荷にいくらか追加する可能性があります。

公式には、この問題は数か月間修正されていますが、それでも時々問題が発生します。

0
wzzrd