web-dev-qa-db-ja.com

wgetを使用して、オフラインブラウジング用の適切なレイアウトでWebサイトをコピーする

これは、すべての画像とcssファイルを含むWebサイトをダウンロードして、元のレイアウトと同じレイアウトにする適切な方法ですが、_-K --backup-converted_および_-E --adjust-extension_オプションが必要な理由がわかりません。

Webサイトが更新された後、Webサイトのバックアップ/ダウンロードしたコピーを更新するにはどうすればよいですか?ダウンロードと同じですか?

_wget -mpHkKEb -t 1 -e robots=off -U 'Mozilla/5.0 (X11; Ubuntu;
Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0' http://www.example.com
_
  • –m (--mirror):ミラーリングに適したオプションをオンにします(無限の再帰的ダウンロードとタイムスタンプ)。

  • -p (--page-requisites):特定のHTMLページを正しく表示するために必要なすべてのファイルをダウンロードします。これには、インライン化された画像、サウンド、参照されたスタイルシートなどが含まれます。

  • -H (--span-hosts):再帰的取得を行うときにホスト間のスパンを有効にします。

  • –k (--convert-links):ダウンロード後、ドキュメント内のリンクをローカルで表示できるように変換します。

  • -K (--backup-converted):ファイルを変換するときは、.origサフィックスを付けて元のバージョンをバックアップします。 -Nの動作に影響します。

  • -E (--adjust-extension):ファイルの最後に適切な拡張子を追加します。

  • -b (--background):起動直後にバックグラウンドに移動します。 -oで出力ファイルが指定されていない場合、出力はwget-logにリダイレクトされます。

  • -e (--execute):コマンドを実行します(robots = off)。

  • -t number (--tries=number):試行回数をnumberに設定します。

  • -U (--user-agent):HTTPサーバーへのエージェント文字列として識別します。一部のサーバーでは、デフォルトのユーザーエージェントを送信すると、再帰的なダウンロードが永久に禁止される場合があります。

4
Arturo
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://example.org

iveは過去にこれを使用しました

from wgetを使用してサイトのオフラインミラーを作成する

さまざまなフラグの説明:

  • --mirror –(とりわけ)ダウンロードを再帰的にします。
  • --convert-links –すべてのリンク(CSSスタイルシートなどにも)を相対に変換するため、オフラインでの表示に適しています。
  • --adjust-extension –コンテンツタイプに応じて、ファイル名(htmlまたはcss)に適切な拡張子を追加します。
  • --page-requisites –ページをオフラインで適切に表示するために必要なCSSスタイルシートや画像などをダウンロードします。
  • --no-parent –再帰するときは、親ディレクトリに昇格しないでください。ダウンロードをサイトの一部のみに制限するのに役立ちます。
1
Chronophylos