web-dev-qa-db-ja.com

サーバーをひざまずくハイパースレッディングを説明できるもの

昨年、私は2台の新しいサーバーを委託しましたが、それらのパフォーマンスによって使用できなくなりました。両方のサーバーは、1つのプロセッサを搭載したDellR620サーバーでした。 1つは6コア、もう1つは8コアでした。1つはSLES 11SP3とOracleを備え、もう1つはWindows 2008R2を備えていました。

OSをインストールした瞬間からWindowsサーバーが遅くなりました。起動からアプリの使用まですべてのパフォーマンスが非常に遅いことに絶対にショックを受けましたが、CPU、ディスク、メモリなどのパフォーマンスカウンターに明らかな症状は見られませんでした。速度の遅さは数値化できませんが、10年以上前のマシンにOSをインストールしたかのように説明しました。 BIOS設定をいじり、ハイパースレッディングを無効にすることで、最終的に修正しました。オフにするとすぐにサーバーが離陸しました。パフォーマンスが10倍向上すると推定します。

Linuxサーバーはさらに奇妙でした。これにより、サーバーは最初は3〜4週間非常にうまく機能していました。その後、ある夜、明らかなトリガーなしで、CPU使用率は突然約4%のフラットラインから、20〜60%の異常な上下になりました。あらゆる所に。同時に、Oracleの接続時間は100ミリ秒から500ミリ秒になりました。 Oracleの全体的なパフォーマンスが非常に悪かったため、本番プロセスに影響があり、データベースに大きな負荷をかけていません。 DBAと私は12時間以上を費やしましたが、問題を説明するものは何も見つかりませんでした。 topとGnomeシステムモニターを使用してシステムを調べたところ、CPUトレースは0〜100%の上下で完全に無秩序でした。数回再起動しましたが、起動時間はおそらく通常の2〜3倍でした。必死になってBIOSでHTを無効にしたときに、この問題は最終的に修正されました。魔法。すべてが修正されました。

私の質問は、他の人がこれを経験したことがありますか?私はかなりグーグルで検索していて、パフォーマンスへの影響は良いことも悪いことも比較的小さいと言われていますが、私が見たものとはまったく異なります。私は今、HTを完全に恐れており、新しいビルドでHTを無効にすることをデフォルトにしています。これを引き起こす可能性のある、私が理解していない他の何かがありますか?

これは実際の欠陥のあるハードウェアでしょうか?

編集:shodanshokが以下に提案したように、これは実際には電力プロファイルの問題である可能性があります。 HTを無効にしても、今日も問題が発生しました。 BIOS設定に移動し、「システムプロファイル」の下に省電力設定を見つけました。デフォルトは「ワットあたりのパフォーマンス」でした。 「パフォーマンス」に変更しましたが、問題は再び解消されました。これが最終的な修正であることを確認するのは難しいです。再起動だけで問題が中断された可能性がありますが、これが問題であることに満足しています。しばらくしてからまたフォローアップします。

EDIT2:確認。私はこの問題を少なくともあと2回見ましたが、他の2台のサーバーで見ました。すべての場合において、「システムプロファイル」を「パフォーマンス」に変更することで修正されました。変更を加えた後、どのサーバーでもこの問題が再発することはありません。

1
CactusPCJack

最新のDellサーバーでは、BIOSベースの省電力ロジックが非常に悪いことがわかりました(明らかに壊れていない場合)。これを無効にして、サーバーを最大のパフォーマンスに設定し、省電力をBIOSではなくOSの制御下に置くようにしてください。

次に、ハイパースレッディングを再度有効にしてみてください。

3
shodanshok