大きな類似ファイルを大量に保存するためのスペース効率の良い方法

Question

〜1 GBのファイルがたくさんあります（データベースダンプファイル、定期的に取得）。現在、すべてを1つのディレクトリに保存しており、各ファイルはgzipで圧縮されています。ディスク容量が不足しているため、古いディスクを引き続き保存したいと考えています。より多くのディスクを購入するという問題にお金を投じるという明白な解決策を無視して、これらをスペース効率の良い方法で保存する方法はありますか？

各ファイルはデータベースダンプファイルであり、30分ごとに取得されるため、重複するコンテンツが多数存在するはずです。これを簡単にするプログラム/プロセスはありますか？新しいファイルシステムを試したくありません。私はgitとgit-repackで遊んでいますが、それは多くのメモリを使用します。もう少し簡単なものはありますか？

Joe H. · Answer

今後、データベースの増分バックアップを取ることもできますが、復元に時間がかかり、監査が必要な場合からポイントインタイム復元を実行するのははるかに複雑です。

あなたが今30分ごとにフルを取ることができるとあなたが言うように、あなたは30分ごとにインクリメンタルとフルの両方をとることができ、おそらく6時間か24時間、そして長期間のインクリメンタルを保つだけです。（理論的には、回復速度が必要な場合は、最新のものが必要になるため、災害復旧シナリオになる可能性があります）。

増分バックアップやその他のバックアップ戦略について質問がある場合は、データベーススタック交換を試してください。

Dana the Sane · Answer

増分バックアップに加えて、古いバックアップをニアラインアーカイブストレージに移動することもできます。これには、テープ、外付けハードドライブ、光メディア（警告付き）などの組み合わせが含まれる場合があります。

私の経験では、作業中のバックアップに便利にアクセスできれば十分です。バックアップへのより高速なアクセスが必要な場合は、ハードウェアを追加購入するか、取得手順の一部を自動化して処理を高速化できます。

dtoubelis · Answer

データには重複情報がたくさんあるはずなので、重複排除ファイルの保存を検討できます。ただし、著名なベンダーのハードウェアソリューションを使用する場合は、追加のディスクのコストよりもはるかにコストがかかります。幸いなことに、いくつかのオープンソースイニシアチブがあり、そのうちの1つは Opendedup です。他にもいくつかありますが、それらに関する情報は手元にありません。

もう1つの方法は、ある種の重複排除をすでに使用しているバックアップソフトウェア/サービスを使用することです。現在、Asigraソフトウェアに基づくソリューションを使用しており、VMware仮想マシンイメージ全体を毎日バックアップしており、毎日30日間の保持で1:10のデータ削減を実現しています。