web-dev-qa-db-ja.com

分散ファイルシステム:GridFS対GlusterFS対Ceph対HekaFSベンチマーク

現在、優れた分散ファイルシステムを探しています。

そうすべき:

  • オープンソースになる
  • 水平方向にスケーラブルである(レプリケーションとシャーディング)
  • 単一障害点がない
  • フットプリントが比較的小さい

私の意見では、4つの最も有望な候補者がいます。

ファイルシステムは、主にメディアファイル(画像と音声)に使用されます。非常に小さいファイルと中サイズのファイル(1 KB-10 MB)があります。ファイルの量は約数百万である必要があります。

performanceCPU-loadmemory-consumptionに関するベンチマークはありますかおよびスケーラビリティ?これらまたは他の分散ファイルシステムを使用した経験は何ですか?

41
Alp

あなたのリストが非常に正しいかどうかはわかりません。ファイルシステムの意味に依存します。

オペレーティングシステムにマウント可能で、POSIX呼び出しを使用してファイルの読み取りと書き込みを行うアプリケーションで使用できるファイルシステムを意味する場合、GridFSは実際には適格ではありません。 MongoDBがBSON形式のオブジェクトを保存する方法です。これは、ファイルシステムではなく オブジェクトシステム です。

プロジェクト を作成して GridFSをマウント可能 にしますが、パスは使用できますが、GridFSには階層ディレクトリなどの概念がないため、少し奇妙です。また、gridfs-Fuseでの分散書き込みがどのようになるかわかりません。

GlusterFSとCephは同等であり、分散された複製可能なマウント可能なファイルシステムです。 ここの2つの比較を読む (および 比較のフォローアップ更新 )ができますが、ベンチマークは少し偏った人によって行われることに留意してください。 このトピックに関する議論 もご覧ください。

HekaFSに関しては、クラウドコンピューティング用にセットアップされたGlusterFSであり、暗号化とマルチテナンシー、および管理UIが追加されています。

27
sockets-to-me

Cephを11か月間使用した後、私はそれがひどくひどいという結論に達しましたので、避けることをお勧めします。 XtreemFSRozoFSおよびQuantcastFSを試しましたが、どちらも十分ではありませんでした。

私は心からお勧めしますLizardFSのフォーク 今独自の MooseFSLizardFSは、データの整合性、監視、およびほとんど依存関係のない優れたパフォーマンスを備えています。


2019 update:状況が変化し、LizardFSはもうアクティブに維持されていません。
MooseFS はこれまでよりも強力で、ほとんどのLizardFSバグがありません。 MooseFSは適切に管理されており、LizardFSよりも高速です。

RozoFS は成熟しており、おそらく試してみる価値があります。
GfarmFS にはニッチがありますが、今日はほとんどのアプリケーションにMooseFSを選択していました。

14
Onlyjob

OrangeFS、誰か?

私はHPC DFSを探していて、この議論をここで見つけました: http://forums.gentoo.org/viewtopic-t-901744-start-0.html

たくさんの良いデータと比較:)

いくつかの話の後、OPはOrangeFSを決定し、「OrangeFS。クォータもファイルロックもサポートしていません(ただし、すべてのI/O操作はアトミックであり、ロックなしで一貫性が保たれます)。」さらに、これは一般的なファイルストレージ指向のシステムではありませんが、ROMIOサポートを含むパラレルI/Oを対象としたHPC専用システムです。すべてのテストはストライプデータ配布に対して行われました。とにかく、glusterfsでさえ、一般的なuid/gidベースのクォータではなく、LVMのようにディレクトリサイズの制限をサポートしていますb)複数のアクティブなメタデータサーバーがサポートされ、安定しています。小さなファイルと大きなファイルには大きな違いはありませんc)大きなデータチャンクでの優れたパフォーマンス(dd bs = 1M)。ローカルハードドライブの合計によって制限されます(各ノードもデータサーバーとして参加することを忘れないでください)および利用可能なネットワーク帯域幅CPUそのような負荷での消費はまともであり、クライアントノードではシングルコアの約50%、他のデータサーバーノードでは約10%です。 d)小さなファイルの大きなセットでの公正なパフォーマンス。テストのために、Linuxカーネル3.1を解凍しました。比較のためにOrangeFS(調整されたパラメーターを使用)で5分、NFSv4(調整済み)でほぼ2分かかりました。 CPU負荷は、クライアントではシングルコアの約50%(もちろん、コア間で実際に分散されます)、各ノードでは約数パーセントです。 e)ROMIOのサポートMPI I/O API。これはMPI PVFS2/OrangeFSパラレル入出力の使用を許可するアプリケーションに最適です。 f)特別なファイル(ソケット、fifo、ブロックデバイス)のサポートがないため、/ homeとして安全に使用できないため、そのタスクにNFSv4を使用して、ユーザーにクォータ制限の小さなホームスペースを提供します。とにかくファイルシステムは特殊ファイルをサポートしていません。」

2
Raul Kist

私が投稿した他のシステムについては知りませんが、3 PHPローカルストレージとGlusterFSのCMS/Frameworksを比較し、生のベンチマークよりも実際のテストで優れているかどうかを確認しました。残念ながらありません。

http://blog.lavoie.sl/2013/12/glusterfs-performance-on-different-frameworks.html

1
sebastien