web-dev-qa-db-ja.com

Webサイトの一部のみをミラーリングする方法は?

Webサイトのセクション(ルートの下のフォルダーパス)をミラー化するwgetを取得できません-Webサイトのホームページからのみ機能するようです。

私は多くのオプションを試しました-ここに1つの例があります

wget -rkp -l3 -np  http://somewebsite/subpath/down/here/

そのURLの下のコンテンツリンクのみをミラーリングする必要がありますが、そのパスにないすべてのページアセットもダウンロードする必要があります。

ホームページ(/)しかし、私はそれをサブフォルダに適用できません。

48
sub

使用 --mirror-m)および--no-parent-np)オプション、およびこの例のようないくつかのクールなオプション:

wget --mirror --page-requisites --adjust-extension --no-parent --convert-links
     --directory-prefix=sousers http://stackoverflow.com/users
83
Attilio

私は通常使用します:

wget -m -np -p $url
17
ninjalj

当初からこの目的にははるかに優れているように思えたので、ミラーを達成するためにpavukを使用します。次のようなものを使用できます。

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \
               -norobots -dont_limit_inlines -dont_leave_dir \
               http://www.example.com/some_directory/ >OUT 2>ERR
2
TMS

Archivebox.ioをチェックしてください。これは、ウェブサイトのローカルで静的な、閲覧可能なHTMLクローンを作成するオープンソースの自己ホスト型ツールです(HTML、JS、メディアファイル、PDF、スクリーンショット、静的アセットなどを保存します)。

デフォルトでは、指定したURLのみがアーカイブされますが、--depth=nすぐにフラグを設定すると、指定されたURLからリンクを再帰的にアーカイブできます。

0
Nick Sweeting