web-dev-qa-db-ja.com

長期間のクラウドストレージ用に冗長アーカイブを作成するためのグッドプラクティス

写真、ドキュメント、その他の重要なもののデジタルアーカイブを作成して、クラウド(Amazon Glacierなど)に保存したいと考えています。アーカイブごとに1年、それぞれ最大10ギガバイトが望ましい。ストレージとネットワーク転送のエラーが何も壊さないようにしたいので、確実なリカバリデータのオーバーヘッドを含めたいと思います。

ここに推奨されるベストプラクティスとツールはありますか?リカバリデータを使用したRAR?各ファイルのチェックサムをアーカイブと一緒に保存する価値はありますか?他に何か提案はありますか?

3
Tomek Z.

バックアップに追加のリカバリデータを含める場合は、 Parchive -タイプのソリューションを使用できます。生成する冗長性/リカバリデータの量と、それを分割する方法(ある場合)を指定します。この方法を使用する利点は、選択した実際のバックアップおよびストレージ方法に依存しないことです。 Zip、tar、Windowsバックアップなど、ファイルを生成するものを使用して、Parchiveツールを介してそれらをフィードし、追加の回復ファイルを生成できます。

Amazon GlacierサービスとS3サービスの両方にファイルチェックサムを生成する機能があるため、ファイルをアップロードしたら、ローカルチェックサムとリモートチェックサムを比較して、ファイルがエラーなしで転送されたことを確認できます。

さらに、これはAmazonがこのトピックに関して言わなければならないことです:

耐久性– Amazon Glacierは、アーカイブの年間平均耐久性が99.999999999%になるように設計されています。このサービスは、複数の施設および各施設内の複数のデバイスにデータを冗長的に保存します。耐久性を高めるために、Amazon Glacierは、アーカイブのアップロードでSUCCESSを返す前に、複数の施設にまたがってデータを同期的に保存します。面倒なデータ検証と手動修復が必要になる可能性がある従来のシステムとは異なり、Glacierは定期的で体系的なデータ整合性チェックを実行し、自動的に自己回復するように構築されています。

つまり、1年間でファイルのいずれかがpoofになる確率は0.00000000001(1e-11)しかないということです。言い換えると、氷河に1,000億個のファイルを1年間保存すると、そのうちの1つが失われることが予想されます。

追加の保証が必要な場合は、データを複数の氷河地域または別の地域のまったく異なるサービスプロバイダーにアップロードすることを検討してください。

2
Mxx

古いPAR形式の代替手段があります: DVDisaster 、DARおよび pyFileFixity (私が開発した)。ただし、クラウドサービスにはもちろん、データを保存するための独自のシステムが必要です。クラウドサービスが提供するストレージスペースでは、データの破損率が非常に高くなるため、いずれの場合も安全である必要があります。

0
gaborous

一般に、記憶媒体の信頼性を完全に信頼していない場合は、独自の修復可能な冗長性を導入する必要があります。

これを行うためのブルートフォースで迅速かつ汚い方法は、単にすべてを2回アップロードすることです。あなたはおそらくそれをしたくないでしょう。

これは関係しますが、ファイルを小さなブロックに分割し、 QuickPar などのツールを使用して「par2」ファイルを作成する場合。 ( これがチュートリアルです )ファイルが見つからない場合は回復できると思います。これは通常、Usenetを介して転送および「取得」されるバイナリファイルの信頼性を高めるために使用されます(実際にはそうするように設計されていません)が、このレベルの冗長性が必要な場所であればどこでも使用できます。

0
LawrenceC