wgetを使用してWebサイトからすべてのファイル（HTML以外）をダウンロードする方法

Question

wgetを使用してWebサイトからすべてのファイルを取得する方法

HTML、PHP、ASPなどのWebページファイル以外のすべてのファイルが必要です。

Zsolt Botykai · Accepted Answer

特定のファイル拡張子をフィルタリングするには：

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

あるいは、あなたが長いオプション名を好むならば：

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

これはサイトをミラーリングしますが、jpgまたはpdf拡張子のないファイルは自動的に削除されます。

izilotti · Answer

これで全体というWebサイトがダウンロードされました。

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

Jesse · Answer

wget -m -p -E -k -K -np http://site/path/

manページこれらのオプションが何をするのか教えてくれます。

wgetはリンクをたどるだけです。もしインデックスページからファイルへのリンクがなければ、wgetはその存在を知らないのでダウンロードしません。すなわち。すべてのファイルがWebページまたはディレクトリインデックスにリンクされていると便利です。

Steve Bennett · Answer

私は OmekaのテーマページからリンクされているZipファイルをダウンロードしようとしていました - かなり似たようなタスク。これは私のために働いた：

wget -A Zip -r -l 1 -nd http://omeka.org/add-ons/themes/

-k、-K、-Eなどのオプションを使用したすべての回答は、ローカルページを作成するためのHTMLページの書き換え、.phpファイルの名前変更などに関する質問としては、実際にはよく理解できていません。関係ありません。

文字通りすべてのファイルを取得するには除く .html etc：

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

kenorb · Answer

あなたが試すことができます：

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

また追加することができます：

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,Zip,rar

特定の拡張子を受け入れる、または特定の拡張子のみを拒否する

-R html,htm,asp,php

または特定の分野を除外するには

-X "search*,forum*"

ロボット用にファイルが無視されている場合（検索エンジンなど）、-e robots=offも追加する必要があります。

Suneel Kumar · Answer

これを試して。それはいつも私のために働きます

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

Abdalla Mohamed Aly Ibrahim · Answer

wget -m -A * -pk -e robots=off www.mysite.com/

これはすべての種類のファイルをローカルにダウンロードし、htmlファイルからそれらを指すでしょう、そしてそれはrobotsファイルを無視します

ebinx · Answer

Windowsシステムではwgetを取得するために

Carlo Carandang · Answer

これは私のために働く：

wget -r -np http://yoursite.com/path/