web-dev-qa-db-ja.com

オフライン表示のためにWebサイト全体をどのようにアーカイブしますか?

実際に、asp.net Webサイトの静的/アーカイブコピーを顧客向けに何度も作成しています。これまで WebZip を使用しましたが、クラッシュ、ダウンロードされたページが正しく再リンクされないなどの無限の問題がありました。

基本的に、asp.net Webサイト上のすべての静的コピー(ページ、画像、ドキュメント、CSSなど)をクロールおよびダウンロードし、ダウンロードしたページを処理して、インターネットに接続せずにローカルで閲覧できるアプリケーションが必要です(削除)リンク内の絶対URLなど)。ばか証明が多ければ多いほど良い。これはかなり一般的で(比較的)単純なプロセスのように思えますが、他のアプリケーションをいくつか試してみましたが、本当に感銘を受けませんでした

誰かが推奨するアーカイブソフトウェアを持っていますか?誰もが共有する本当に簡単なプロセスを持っていますか?

53
jskunkle

Windowsでは、 HTTrack を見ることができます。ダウンロードの速度を設定できるように非常に構成可能です。しかし、あなたはただそれをウェブサイトに向けて、設定なしでそれを実行することもできます。

私の経験では、それは本当に良いツールであり、うまく機能しています。 HTTrackで気に入っている点は次のとおりです。

  • オープンソースライセンス
  • 停止したダウンロードを再開します
  • 既存のアーカイブを更新できます
  • ダウンロード時に攻撃的でないように設定して、帯域幅とサイトの帯域幅を浪費しないようにすることができます。
38
Jesse Dearing

wget を使用できます。

wget -m -k -K -E http://url/of/web/site
65
chuckg

Wayback Machine Downloader by hartator はシンプルで高速です。

Rubyを介してインストールし、目的のドメインと Internet Archive のオプションのタイムスタンプを使用して実行します。

Sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
6
jtheletter

OSXでは Blue Crab を使用し、Windowsでは WebCopier を使用します。

4
Syntax

wget -r -k

...そして残りのオプションを調査します。これらのガイドラインに従っていることを願っています: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html すべてのリソースGETリクエストで安全です。

2
Joel Hoffman

OS Xユーザーの場合、sitesuckerアプリケーションが見つかりました here リンクをたどる深さ以外は何も設定しなくてもうまく機能します。

1
user1011743

顧客がコンプライアンスの問題のためにアーカイブしている場合、コンテンツを認証できるようにする必要があります。リストされたオプションは単純な表示には適していますが、法的に認められていません。その場合、タイムスタンプとデジタル署名を探しています。あなたがそれを自分でやっているなら、はるかに複雑です。 PageFreezer などのサービスをお勧めします。

1
Dieghito

私はただ使用します:wget -m <url>

1
Aram Verstegen

HTTrackを数年間使用しています。すべてのページ間リンクなどをうまく処理します。私の唯一の不満は、サブサイトに限定してそれを維持する良い方法を見つけられなかったことです。たとえば、アーカイブしたいサイトwww.foo.com/steveがある場合、www.foo.com/roweへのリンクをたどって、それもアーカイブします。それ以外の場合は素晴らしいです。高度な設定と信頼性。

0
Steve Rowe