web-dev-qa-db-ja.com

HW / SW設計:2 Petabyte of storage

免責事項はい私はあなたに私のためにシステムを設計するように頼んでいます:)

私は、約10 TB /日、保持期間180日)を保存するシステムを設計する必要があります。

私の最初のアプローチは、GlusterFSを使用して、次のようなHWセットアップを使用することです。

シングルNode:

データを保持できるネットストレージ(ローカルディスクでのレプリケーションやRAIDなし)を取得するには、9つのノードが必要です。

長所:

  • 棚のない単一のサーバーから始めることができます
  • 単一のサーバーにシェルフを追加して成長します(またはサーバーを追加します。最初にノードを追加するか、最初にシェルフを追加するか、または両方を組み合わせて、スケーリングするかどうかを検討します)
  • 「無限に」スケーリングします(「無限」の特定の定義の場合)

短所:

  • 一般的に:拡張の最終段階に達した後、これが実行可能なセットアップになるかどうかを実際に確認する方法がわかりません(推定1.8 PB)

実際の優先方向はありません。GlusterFSを使用した経験があります。4TBシステム(分散、複製、4ノード))がすでにGlusterFSを使用しています。

このセットアップがHadoop/Gluster/Netapp/EMC/Hitachi/EveryoneElseを実行するかどうかに大きな違いはないと確信していますが、ユースケースは(drumroll)です:

ls -ltr | grep 'something' | xargs grep somethingelse

はい、それは怖いです。私は人々にそのデータに対して実際に分析ジョブを実行するように説得しようとしましたが、それは起こらないようです。 (OK、それほど悪くはありませんが、それらの人々は、いくつかの「分析」システムで単純なsshセッションを使用して、手動でいくつかのディレクトリに移動し、いくつかのファイルを再帰的に調べて、データがどこにあるかを判断しますOKかどうか、私が書いた今はさらに悪いように聞こえます

私はどんなアイデアにもオープンです。社内で「大容量ストレージ」を実行している人がいます(たとえば、1つのバックアップシステムには2PBがあります)。すでに機能しているものは何でも使用したいと思います。しかし、私は彼らが正しいことをしていることも証明する必要があります(これは政治的なことだと聞かないでください。私のデータをストレージチームに信頼します。なぜ私が仕事を複製しなければならないのかわかりません)

データに対して実際に分析を実行する方法の問題について考えることは、明らかに範囲外です。

数え切れないほどの会議があり、Splunkから社内で開発された分析ジョブ(Map/Reduceシステムの有無にかかわらず)まですべてを取り上げました。それに興味はありません。人々が気にするのは:

  • 10TB /日
  • データを180日間保持する
  • 高可用性を実現します(まだ完全には定義されていませんが、99.9、99.99に沿ったものです...)
5
Martin M.

さて、あなたは予算について言及しませんでした...だから今これを購入してください。その規模のデータは、おそらくその分野での経験を持つチームの手に委ねられるべきです。サポートがあり、誰かが怒鳴るのはいいことです:)

http://www.racktopsystems.com/products/brickstor-superscalar/

http://www.racktopsystems.com/products/brickstor-superscalar/tech-specs/

4 x Storage Heads BrickStor Foundation Units
10 x BrickStor Bricks (36 x 3.5″ Bay JBOD)
2 x 16-port SAS switch
1 x pullout rackmount KVM
1 x 48U Rack
1 x 10Gb Network Switch (24 x 10Gb non-Blocking)
NexentaStor Plug-ins:VMDC, WORM, HA-cluster or Simple-HA
Onsite installation 5-days
24/7/365 day email and phone support
Onsite Support

あなたが説明するアプリケーションは実際にはクラスター化されたストレージの領域にないように思われるので(ユースケースを考えると)、ZFSを使用してください。 無限のスケーラビリティが得られます。圧縮の一部をストレージシステムにオフロードする機会があり、それについてすべての友達に伝えることができます:)

それ以上に、L2ARCキャッシング(SSDを使用)は、SSD速度での分析にホットデータを利用できるようにします。

編集:別のZFSベースのソリューション- http://www.aberdeeninc.com/abcatg/petarack.htm


また、RedHatは現在スケールアウトストレージ業界に属しています。

参照: http://www.redhat.com/products/storage/storage-software/

5
ewwhite

MDMarraがこれにはSplunkが必要だと言っているように、私は大規模なユーザーでありファンです。あなたが話しているのと非常によく似たボリュームで、すぐにその量のストレージの近くで購入する必要がなくなり、すべての複雑さが軽減されます。 1つのまともなサイズのサーバー(おそらく最大150〜200 TB)は、Splunkと一緒に使用すれば機能します。オンザフライのインデックス作成はこの種のことには最適であり、検索機能は自分で管理するものをはるかに上回ります。もちろん無料ではありませんが、他には何も考えていません。

2
Chopper3