web-dev-qa-db-ja.com

Citrixファームのランダムサーバーが突然ブルースクリーンになります(主に0x0000008eおよび0x0000007e)

私はCitrixPresentation Server4.5ファームを担当しています。 11月30日金曜日から、サーバーがランダムにクラッシュし始めました。これまでに80回のクラッシュが発生したため、明らかに私たちにとってますます大きな問題になっています。私はITで12年以上の経験があるので、0と1の違いを知っていますが、これを解読するのに苦労しています。

サーバーのさまざまなグループについて考えられる最近の変更をロールバックしましたが、それでもすべてのグループがクラッシュしているようです。私には、メモリダンプを解釈して原因を見つけるスキルがありません。

  • 誰かが同じまたは同様の問題に遭遇しましたか? -一般的なWindowsの問題である可能性があります
  • WinDbgで「analyze-v」を実行する以外に、メモリダンプを調べて、実際にBSODをトリガーしたものを確認するにはどうすればよいですか。
  • これの底に到達するための提案されたステップはありますか?

どんな助けでも大歓迎です。必要に応じて、カーネルメモリダンプまたはWinDbg出力へのリンクを提供することもできます。

ありがとう!

問題の説明

発生するSTOPエラーの大部分は次のとおりです。

  • x0000008e KERNEL_MODE_EXCEPTION_NOT_HANDLED(50%)
  • x0000007e SYSTEM_THREAD_EXCEPTION_NOT_HANDLED(26%)
  • x0000005 PAGE_FAULT_IN_NONPAGED_AREA(21%)

また、いくつかのx0000000a IRQL_NOT_LESS_OR_EQUAL(3%)も表示されます。

0x0000008eと0x0000007eの両方のバグチェックの場合、例外コードはxc0000005(アクセス違反)です。 WinDbgでダンプファイルを開く場合、すべての0x0000008eおよび0x0000007eのバグチェックについて、ほとんどの詳細はまったく同じです。

x0000008e

  • 例外アドレス:0x808bc9e3
  • トラップフレーム:[varies]
  • FAILURE_BUCKET_ID:x8E_nt!HvpGetCellMapped + 97
  • おそらく(IMAGE_NAME)が原因です:ntkrpamp.exe

x0000007e

  • 例外アドレス:0x808369b6
  • 例外レコードアドレス:0xf70d3be0
  • コンテキストレコードアドレス:0xf70d38dc
  • FAILURE_BUCKET_ID:x7E_nt!MmPurgeSection + 14
  • おそらく原因:memory_corruption

クラッシュの約30%は17:00から19:00の間に発生します。これは、ログオフ中にこれがより頻繁に発生する傾向があると私に信じさせます。しかし、繰り返しになりますが、15:00から17:00の間に発生するのは約15%のみです。

ファームの概要

  • Windows Server 2003 R2SP2上のCitrixPresentation Server 4.5 R06
  • 少なくとも10月の時点で、すべての優先度の高いパッチがインストールされています
  • HP Proliant BL460cG6ブレードサーバーでVMWareESX/vSphere4.1を使用して仮想化
  • 実稼働中の約53台のプレゼンテーションサーバー。3つのサイロに分割されています。影響を受けるのはそのうちの1つだけです。
  • プレゼンテーションサーバーごとに2つのvCPU(5 GHz予約済み)、8 GB RAM(すべて予約済み)
  • 十分な空きディスク容量
  • プリンタードライバーが非常に少ない-承認されていないドライバーを毎晩自動削除
  • 〜1.000ピーク同時ユーザー、これは10:30頃(平日)に到達します
  • セッション数は15:00から19:00の間で着実に減少し、約230になります
3
abstrask

最終的に、PS 4.5ロールアップパック7(以前はセッションの信頼性が失われたため、インストールされませんでした)とR07以降の多数の修正プログラムを適用しました。

さらに、Microsoftが別個のコンポーネントとして放棄したUPHClean 2.0の最新ベータ版(Windowsの新しいバージョンにまだ組み込まれている)を、新しいUPHClean1.6gに置き換えました。

それ以来、農場は安定していますが、大きな変更を加えることなく、すべての地獄が突然失われた理由はまだ謎です。

0
abstrask

HP Printドライバーにダウンしていた古いバージョンのcitrix(PS4)でも同様の問題が発生しました。適切なものを再インストールする前に、ロット全体をクリアする必要がありましたが、青い画面の問題はクリアされたようです。また、「承認されていないドライバーを毎晩自動削除する」ことにも興味があります。承認されていないものを毎晩クリアする場合、そもそもなぜそれらをインストールすることを許可するのですか?それらがcitrixポリシーにインストールされるのを止めることができます。 [印刷]-> [ドライバー]-> [ネイティブプリンタードライバーの自動インストール](自動的にインストールされないように設定)の下にあると考えてください

2
user114106