web-dev-qa-db-ja.com

ファイバーチャネルの長距離問題

新鮮な目が必要です。

私たちは、ファイバーチャネルと10GbEが多重化されている15kmの光ファイバー回線を使用しています(パッシブ光CWDM)。 FCの場合、40 kmまでに適した長距離レーザーがあります( Skylane SFCxx0404F0D )。マルチプレクサは、最大を実行できるSFPによって制限されます。 4Gbファイバーチャネル。 FCスイッチはBrocade 5000シリーズです。それぞれの波長は、FCの場合は1550、1570、1590、1610nm、10GbEの場合は1530nmです。

問題は、4GbFCファブリックがほとんど決してクリーンでないことです。時々彼らは彼らに多くのトラフィックでさえしばらくの間です。その後、わずかなトラフィックしかなくても、突然エラー(RX CRC、RXエンコーディング、RXディスパリティなど)が発生する可能性があります。エラーとトラフィックのグラフをいくつか添付しています。エラーは現在、1 Gb /秒のトラフィックの場合、5分あたり50〜100エラーのオーダーです。


光学

これは1つのポートの電力出力をまとめたものです(さまざまなスイッチでsfpshowを使用して収集)

 SITE-A units = uW(マイクロワット)SITE-B 
 **************************** ****************** 
 FAB1 
 SW1 TX 1234.3 RX 49.1 SW3 1550nm(ko)
 RX 95.2 TX 1175.6 
 FAB2 
 SW2 TX 1422.0 RX 104.6 SW4 1610nm(ok)
 RX 54.3 TX 1468.4 

この時点で私が気になるのは、電力レベルの非対称性です。 SW2は1422uWで送信し、SW4は104uWで受信しますが、SW2はSW4信号のみを受信しますが、54uWで同様の元の電力のみです。

SW1-3の逆も同様です。

とにかく、SFPは-18dBm(約20uW)までのRX感度を持っているので、いずれにしてもそれは問題ないはずです...しかし、何もありません。

一部のSFPは、製造元によって誤動作と診断されています(上記の「ko」付きの1550nmのもの)。 1610nmのものは明らかに問題ありません。トラフィックジェネレータを使用してテストされています。専用回線も複数回テストされています。すべて許容範囲内です。私は交換を待っていますが、どういうわけか、明らかに良いものでもZEROエラーが発生しないため、状況が改善されるとは思いません。

以前は、信号を回線に送る前に、関連するアクティブな機器(ある種の4GFCリタイマー)がありました。なぜだかわかりません。問題のためにその機器は削除されたので、現在は次のようになっています。

  • スイッチ内の長距離レーザー
  • (新規)マルチプレクサへの10m LC-SCモノモードケーブル(ファブリックごと)、
  • 専用線
  • 同じことですが、リンクの反対側では逆になります。

FCスイッチ

Brocade portcfgshowからのポート構成は次のとおりです(明らかに両側で同じです)

エリア番号:0 
速度レベル:4G 
フィルワード(アクティブ)0(アイドル-アイドル)
フィルワード(現在)0(アイドル-アイドル)
 AL_PAオフセット13:オフ
トランクポートオン
長距離LS 
 VCリンク初期化オフ
希望距離32 Km 
予約済みバッファ70 
ロックL_Portオフ
ロックG_Portオフ
無効E_Portオフ
ロックE_Portオフ
 ISL R_RDYモードオフ
 RSCN抑制されたオフ
永続的な無効化オフ
 LOS TOV有効化オフ
 NPIV機能オン
 QOS E_Portオフ
ポート自動無効化:オフ
レート制限オフ
 EXポートオフ
ミラーポートオフ
クレジットリカバリオン
 F_ポートバッファオフ
障害遅延: 0(R_A_TOV)
 NPIV PP制限:126 
 CSCTLモード:オフ

2GbFCへのリンクを強制してもエラーは発生しませんが、4GbFCを購入したため、4GbFCが必要です。

error and traffic graphs

もうどこを見ればいいのかわかりません。次に何を試すか、どのように進めるかについてのアイデアはありますか?

4GbFCを確実に動作させることができない場合、8または16で作業している人々は何をするのだろうと思います...「あちこちにいくつかのエラー」が許容できるとは思いません。

ああ、ところで私たちはすべてのメーカー(FCスイッチ、MUX、SFPなど)と連絡を取り合っています。SFPが変更されることを除いて(一部は以前に変更されています)、誰にも手掛かりがありません。ブロケードSAN健康はファブリックは大丈夫だと言っています。MUX、まあ、それはパッシブです、それは単なるプリズムであり、自然は最高です。

暗闇でのショットは?


付録:質問への回答

@ Chopper3:これは、問題を示しているBrocadeの第2世代です。 5000があった前は5100になりました。最初はまだアクティブなMUXがあったので、長距離レーザーを1回レンタルして直接スイッチに接続し、1日のテストを行いましたが、その日はもちろんクリーンでした。でも言ったように、時々それはそのようにきれいです。そして時にはそうではありません。代替スイッチは、SANのみをテスト用に再構築することを意味します。代替SFPは、まさしくそのように手に入れるのは難しいです。

@longneck:回線はレンタルされています。ダークファイバー(9umモノモード)なので、他には誰もいません。確かにスプライスがあります。見に行くことはできませんが、彼らが正しく行われたことを信頼する必要があります。すでに述べたように、ラインはチェックされ、再チェックされています(光学時間領域反射率計を使用)。明らかに高すぎるので、これらすべての機器を自分で持っているわけではありません。

@mdpc:あなたにとって「間違った」タイプのケーブルは何でしょうか?スイッチまで、すべてがモノモードです、はい。コネクタも正しいものです。ええ、私はファイバーが特定の角度などでカットされている緑色のものがあることを知っています。しかし、私たちは私が知っているすべてのものに対して正しいものを持っています。


進捗レポート#1

FabricOS 6.4.1を搭載したBrocade 5100を使用した2つのファブリック(= 2x2スイッチ)と、FabricOS 7.0.2を使用した2つのファブリック(別の2x4スイッチ)がありました。

長距離ISL(各ファブリックに1つ)で、FOS 6.4.1を長距離に設定すると、VC Init設定とその結果の塗りつぶしワードに関する警告が発行されることがわかりました。ただし、これらは警告:FOS 7.0.2には、長距離リンクのVCIおよびフィルワードに変更を加える必要があります

FOS 6.4.1をLS(長距離静的距離)設定に間違ったVCIとフィルワード設定で設定すると、ファブリック全体が動作しなくなります(SCNループでスタックし、fabriclog -s確認すると、他の場所では確認できません。ポートエラーカウンタや増加するものはありません)。

現在、私は、IMHOのより適切な設定を備えた1つのファブリックに打撃を与えています。それはうまくいくようですが、トラフィックの少ないもう1つのファブリックにはまだエラーがあります。

progress1

要するに:

  • MUX(FCリタイマー)のアクティブな部分を削除しました。
  • 長距離SFPを最終機器自体に組み込んでいます。
  • 念のために、エンド機器をMUXの残りのパッシブ部分に接続するための新しいモノモードケーブルを購入しました。
  • 現在、いくつかの長距離構成を試しています。

それはほとんど黒魔術です。発生することはすべて経験に基づくものであり、何かを行う正確な理由を知る手がかりは誰にもないようです。 (「私たちはこれを試しましたが、うまくいきませんでした、そしてそれを試し、うまくいきました。それで私たちはそれにこだわりました。」しかし、誰も本当にその理由を知っているようには見えません。)

私はあなたを更新していきます。


進捗レポート#2

保証対象の生地の1つに新しいレーザーを用意しました。 4GbFCでも超クリーンです。

それらはおよそ2mW(3dBm)で送信していますが、他のものは1.5mW(1.5dBm)しかありませんが、それで十分です。

他のファブリック(レーザーに問題がないように見える)でも、1つまたは2つのCRCがまれにしか発生しません。

実際のRXエラーを生成するsfpshow SFPを使用すると、

ステータス/ Ctrl:0x82 
アラームフラグ[0,1] = 0x5、0x40 
警告フラグ[0,1] = 0x5、0x40 

今私はそれが何を意味するのかを知る必要があります。それが以前あったかどうかわからない。

さて、私は最初の1週間の休暇で頭をきれいにします。 8-)

52
Marki

答えを投稿する必要があると思います。一言で言えばinsistです。

この問題は100%解決されず、CRCエラーが1つ(1つ)ある1つのファブリックが散発的に発生しています。もう一つはきれいです。しかし、私はそれとともに生きることができます。

いずれにしても、CWDMユニットを長期間使用し続けるのではなく、インフラストラクチャが大きく変化するため、来年はパッシブDWDMマルチプレクサーに切り替えます。どうやらDWDMレーザーはCWDMレーザーよりも安価です。ああ、そうだろうし、たぶん私はあなたに尋ねる問題がたくさんあるだろう:-)


更新上記に問題はありません。CWDMを再度購入しました。ただし、特定のアプリケーションのAFAICSでは、CWDMレーザーがないため、DWDMを使用する必要があります。最後に、できる限りメーカーに近づこうとしましたが、ディストリビューターやインテグレーターから購入する場合と比較して、全体の価格は約1/5になりました。


したがって、期待どおりに機能しないソリューションを購入した場合、私は結論付けることができます。技術面では2つのことを行いました

  • mUXのアクティブな部分を削除します(後悔しているとは言えませんが、それが最終的に別のエラーの原因であったかどうかもわかりません)。
  • sFPを徹底的にチェックする

(もちろん、すべての標準的な診断は、一度に1つずつ変更し、何が起こるかを確認するなど、通知する必要はありません。そのため、残念ながら私たちの費用で各ラインやケーブルなどもチェックしました。)

この場合、長い間主張する必要がありましたが、最終的には、製造業者自身が数人といくつかの機器を助けてチェックに役立つレベルに達しました。そしてもちろん、私たちのハードウェアはメンテナンス中であるため、インテグレーターにそれを支払うように依頼しました。したがって、これは技術的な問題と同じくらい商業上の課題でした。

PS。そして、前回の更新で触れたフラグは何も悪いことを示していませんが、それらが正確に何を意味していたか覚えていません。ステートメントを見つけたら、完全を期すために答えを更新します。


結局、フラグは結局何か悪いことを意味しました。ただし、リンクのどちら側がエラーの原因であるかは不明です。したがって、そのペアも変更する必要があります。

ああ、そしてBTW、8GbFC DWDMトランシーバーは8G CWDMと比較して安いだけです;-)最も安価な方法は、CWDM上の4GbFCであり、ISLトランキングを使用します(ライセンスがある場合)。

4
Marki