web-dev-qa-db-ja.com

サーバーがオンラインになったときの大量のパケット損失

これは buntuサーバー、ssh、書き込みに失敗しました:壊れたパイプ の続きです。問題がssh/ubuntuに限定されているとは思わないので、新しい質問を始めています。

Ubuntuサーバー10.0464ビットがインストールされた2つの新しいサーバー(Dell PowerEdge R715、R210)があります。 2つのJuniperSRX240ファイアウォール/ルーターを備えたCisco3750スイッチのスタックを実行しています。セットアップは基本的にスティック上のルーターであり、3つのVLANがあります。1つは内部、1つはdmz、1つはストレージネットワーク(iSCSI)で、すべて同じスタック上にあります。 Ciscoスタックではレイヤ3スイッチングは行われておらず、DMZは別のスイッチのスタックから完全に分離されています。

この同じネットワーク(およびスタック)には、問題なく何年も実行されている他の約10台のDellPoerEdgeサーバーがあります。それらのほとんどはSLES10またはopenSUSEを実行していますが、1つはUbuntuサーバー10.0464ビットを実行しています。内部VLANに接続するものを除いて、これらの新しいサーバーのすべてのNICを取り外しました。

いずれか(または両方)のマシンを起動して約10分間放置すると、ネットワーク上の他のマシンから最大20%のパケット損失が発生し、問題のあるサーバーから最大40〜50%のパケット損失が発生し始めます。

なぜこれが起こっているのか、または問題のトラブルシューティングに何ができるのかについて誰かが考えていますか?必要に応じてこれらのボックスをワイプしてもかまいません。まだ本番データはありません。

2
cmhobbs

まず、スイッチのログバッファー(または、エクスポート先のsyslogがある場合は、それら)を確認します。

過去に、マルチNIC LinuxマシンがARPに不適切に応答する問題(「予期されたインターフェイス上にない」など)や、スイッチに複数のVLANが接続されているブレードサーバーシャ​​ーシのブレードに関する問題がさらに発生しました。 、ただし、実際のブレードスイッチにVLANを課す(機能する)方法はありません。これは、ログにMAC関連の苦情として表示されるはずです。

2番目のステップとして、新しいサーバーのallインターフェイスでarp_filterを有効にすると、状況は改善されますか?

3
Vatine

同様の問題が発生しましたが、複数のVMが同じMACアドレスで構成されていることが原因でした。新しいものを生成するだけで問題は解決しました。

0
frans