web-dev-qa-db-ja.com

Ubuntu 18.04 VMディスクのクローンを作成すると、単一のESXiがフリーズして強制終了します

了解しました。基本的に、説明したのと同じ状況になりました ここ

違いは次のとおりです。

  • ESXi6.7.0に完全にパッチを適用
  • ローカルSSDおよびHDD

VMは一般的なNextcloudスタック(MySQL、Apache2、PHP)を実行しています。

この問題は、ESXiを現在のパッチレベルにアップグレードした直後に発生しました(1月または2月のパッチだと思います。問題のシステムには他のストレージ関連の変更はありませんでした。頭に浮かぶのはVMは、ghettoVCBとsshベースのバックアップの両方が重複することがあるため、ディスクの負荷が高くなります。

カーネルがストレージアクセスタイムアウトを指すメッセージを発行していることがわかります。また、ESXiで次のようなログメッセージを見つけました。
Lost access to volume UUID (name) due to connectivity issues. Recovery attempt is in progress and outcome will be reported shortly.

しかし、これ以上の報告はありません。

VMとESXiの両方に再び責任を持たせるための唯一の解決策は、ESXiホストのハードリセットです。

私の研究が続くにつれて、私はこの質問を更新します。誰かが何か考えを持っているなら、私はあなたの助けを大いに感謝します!

1
Thorian93

これはばかげて単純でした。データディスクとしてこのVM)によってアクセスされた1台のハードドライブに障害が発生しました。物理的に壊れていましたが、ESXiも管理委員会もそれを認識していませんでした。

TL; DR:HDDに障害が発生しましたが、検出されませんでした。この問題はソフトウェア関連ではありませんでした。

1
Thorian93

ESXiホストとストレージデバイスの間に接続の問題がなく、LUNへのパスの不整合がないかどうかをすでに確認していると仮定すると(場合)、ESXiパッチが原因でドライバの互換性の問題があるようです。

Vmw_ahciドライバーを無効にしようとすることができます:

esxcli system module set --enabled=false --module=vmw_ahci

それでも問題が解決しない場合は、ESXiの以前のパッチに戻すか、初期ドライバーの復元を試みる必要があります(これは非常に難しい場合があります)。

また、vmkernel.log、vobd.log、およびvmksummary.logを確認すると、正確な原因の詳細が明らかになる場合があります。

1
Overmind