レジリエンスを向上させる最良の方法は？

Question

私が2010年に計画した主要なプロジェクトの1つは、現在管理しているネットワークの単一障害点（SPOF）の一部を軽減しようとしています。現在、数十台のサーバーを含む単一のデータセンターラックがあります。
ラック内では、冗長性と復元力があり、各サーバーには2つのディスクがあり、1つの障害に耐えることができます。
当社のデータストレージサーバーには3つ以上のディスクがあり、1つの障害に耐えることができます。壊れたハードウェアも迅速に修理/交換します。各サーバーには少なくとも1つの複製されたパートナーがあり、各クラスター（つまり、Web、データベース、ストレージ）から1つまたは2つを失うことに耐えることができます。

インターネット接続は、イーサネットを介した2つの100MBitフィードによってメインのトランジットプロバイダーに提供され、高可用性フェールオーバーペアのCiscoASA5500ファイアウォールのペアに接続します。これは問題ではありません。

私が見ているように、2つの大きなSPOFは次のとおりです。

1）私たちのインターネットは単一のトランジットプロバイダーから来ています。彼らのネットワークがダウンした場合、私たちはインターネットを切断します。キャリアニュートラルなデータセンターにいるので、2番目のIPトランジットを取得するのはかなり簡単です。

2）データセンターの電源に何かが起こった場合、私たちも去っていきます。

理想的には、2つのデータセンターのサーバーが両方とも複数のIPトランジットプロバイダーを介して多様なルートを使用し、BGPを介してアナウンスすることを望んでいます。

2番目のデータセンターでは、2台のCisco 28xxシリーズルーター、2台のASA 5500ファイアウォール、1組のCatalyst 48ポートスイッチ、および1ダースほどのDellサーバーを検討します。プライマリロケーションとほぼ一致します。

経営陣は、このアプローチには莫大な費用がかかり、BGPルートは非常に高価であると主張しています。彼らは2番目の場所を持って喜んでいるように見えますが、BGPはテーブルから外れているようです。

マルチホーミングの最後の見積もりは8万ポンド近くでした。（おそらく彼らは金メッキされたシスコの見積もりを求めていたのでしょう！）

代わりに、管理者は、DNSベースのソリューションでこれに取り組む方がよいと考えています。DNSベースのソリューションでは、ルーティングがステータス稼働時間監視サービス（pingdomなど）によって制御され、DNSレコード（1秒TTL）が別の場所を指すように変更されます。サーバーに障害が発生した場合。

非常に多くの企業がBGPを使用している理由があります。特に、非常に多くのISPなどが実際に短いTTLを無視し、長いTTLに置き換えることを考えると、このDNSソリューションはBGPを削減することはできません。

質問：

1）西ヨーロッパ（アムステルダムなど）または米国東部（DC、VA、NYなど）のいずれかで、優れたキャリアニュートラルデータセンターを推奨できる人はいますか？

2）誰かがこのDNSソリューションを適切に機能させましたか、それとも完全な狂気の場合ですか？

3）マルチホーミング（1つの場所で）の£80,000の見積もりが絶対に過剰に見えると思っているのは私だけですか？

4）BGPが唯一の現実的な解決策であると経営陣を説得できる良い方法はありますか？

長さについてお詫びします。：o）

Alnitak · Accepted Answer

そうですね、DNSは間違いなく答えではありません。マルチホームISPネットワークを運営していて、今では生活のためにDNSを行っている人からそれを受け取ってください。

BGPと追加のトランジットフィードだけ、または必要なCiscoルーターについても、8万ポンドの見積もりは何でしたか？現在リストしている2800は、おそらく完全なルーティングテーブルを実行することができません-グローバルBGP4テーブルには現在200kを超えるルートがあり、lotルーターメモリの。

私が実際にこれを行ってから数年ですが、実際にはトランジットサプライヤからBGPを取得するのに費用がかかることはありません。実際、大規模なサプライヤは、特に100 Mbps以上を使用している場合、サービスの一部としてBGPを提供することを期待しています。。

また、現在のメインデータセンターはどこにありますか？必ずしも大規模な多様性は必要ありません。私のネットワークには元々ロンドンに2つのDCがありました。1つは市内に、もう1つはドックランズに約10km離れています。これは、ほとんどの自然災害を除外するのに十分な距離です。

ロンドンに両方のサイトがある場合、市内の多くのデータセンター間で安価なイーサネットリンクを提供している企業が多数あります。最もよく評価されているものの1つは Datahop -サイト間で1Gbpsのリンクを年間約4,000ポンドで実行します。

同様に、バックアップサイトの場合、緊急時に2番目のトランジットリンクのみを使用したい場合は、Cogentなどから1 Mbpspcmあたり5ポンドというばかげた低価格を見てきました。私はそれらをプライマリーとしては使用しませんが、最後の手段としてそれらを検討する価値があります。

womble · Answer

私の以前の雇用主は、エクイニクスのニュージャージー州の施設の1つにいます。私が彼らのために働いていたとき、彼らはそれに十分満足しているようでした。それを超えて、申し訳ありませんが、私は世界のその地域ではあまり何もしていません。
DNSフェイルオーバーは最悪です。ご存知のように、DNS TTLを無視するプロバイダーは十分に存在するため、DNSフェイルオーバーが最初に発生したときに管理の胸焼けを引き起こします。
はい、それはBGPマルチホーミングにとって法外な金額です。
あなたの経営者の心理を知らなければ、私はあまり具体的に提案することはできません。 BGPの愚かな見積もりを見つけて、完全に冗長な機能を使用するのに実際にかかる費用を思い出させてください。特に、すべてが静止していることを確認するために定期的なフェイルオーバーテストを行う必要がある場合は、明らかに思っているよりもはるかに多くなります。正しく動作しています。

また、障害のシナリオと確率、およびそれらのいずれかが発生した場合に実際にかかる費用について、いくつかの賢明な分析を行います。停電のために数年ごとに数時間のダウンタイムが発生することは、冗長な設備よりもはるかに少ないことが判明する可能性があります。多くの場合、経営陣（または技術者）は、経済的に意味のない「冗長性」を実行します。

最後に、ほとんどの停止は実際には人間が引き起こしたものであり、サイトをフェイルオーバーし、その余分な複雑さはすべて、それらを減らすのではなく、可能性を増加する可能性があることを忘れないでください。

Chopper3 · Answer

ほんの少しの簡単な考え。

キットを2つのラックに分割し、それぞれがPDUの同じフェーズからの異なるスプリアスから電力を供給されます。
PDUにUPSがない場合は、UPSを各ラックに配置します。
BGPを介したグローバルロードバランシングを検討してください。これが、アクティブ-アクティブマルチサイト関連の処理方法です。
Telehouse（telehouse.net）について考えてみましょう。西ヨーロッパと米国東部に拠点があり、中立で高く評価されています。

MauritzMeier · Answer

シンプルで優れたソリューション：中規模のeコマースサイトでは、フェイルオーバーにZoneedit DNSを使用し、トランザクションテストにAlertFoxを使用しています。切り替え時に1〜3分のヒックアップを除外すると、p今年の時間は100％でした。費用：Zoneeditの場合は20ドル/年（？）、AlertFoxPRO3の場合は月額199ドル。さらに、2つの専用サーバー。