web-dev-qa-db-ja.com

Wget:ファイルを選択的かつ再帰的にダウンロードしますか?

wget、サブフォルダー、index.htmlに関する質問。

私が「travels /」フォルダ内にいるとします。これは「website.com」にあります:「website.com/travels/」。

フォルダー「travels /」には、多くのファイルと他の(サブ)フォルダーが含まれています:「website.com/travels/list.doc」、「website.com/travels/cover.png」、「website.com/travels/[1990 ] America/"、" website.com/travels/[1994] Japan/"など...

すべてのサブフォルダにある「.mov」と「.jpg」のみをダウンロードするにはどうすればよいですか? 「travels /」からファイルを選択したくない(例:「website.com/travels/list.doc」ではない)

サブフォルダーから「index.html」のみをダウンロードし、他のコンテンツはダウンロードできないwgetコマンド(Unix&Linux Exchangeでは、何が議論だったか覚えていません)を見つけました。インデックスファイルのみをダウンロードする理由

5
T. Caio

このコマンドは、特定のWebサイトから画像と動画のみをダウンロードします。

wget -nd -r -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"

wget man によると:

-nd prevents the creation of a directory hierarchy (i.e. no directories).

-r enables recursive retrieval. See Recursive Download for more information.

-P sets the directory prefix where all files and directories are saved to.

-A sets a whitelist for retrieving only certain file types. Strings and patterns are accepted, and both can be used in a comma separated list (as seen above). See Types of Files for more information.

サブフォルダーをダウンロードする場合は、--no-parentフラグを使用する必要があります。これは次のコマンドに似ています。

wget -r -l1 --no-parent -P /save/location -A jpeg,jpg,bmp,gif,png,mov "http://www.somedomain.com"

-r: recursive retrieving
-l1: sets the maximum recursion depth to be 1
--no-parent: does not ascend to the parent; only downloads from the specified subdirectory and downwards hierarchy

Index.html Webページについて。フラグ-Aがコマンドwgetに含まれると除外されます。このフラグは、wgetが特定のタイプのファイルをダウンロードするように強制するためです。つまり、htmlが、ダウンロードされる承認済みファイルのリストに含まれていない場合(つまり、フラグA)の場合、ダウンロードされず、wgetがターミナルに次のメッセージを出力します。

Removing /save/location/default.htm since it should be rejected.

wgetは、特定のタイプのファイルをダウンロードできます。 (jpg、jpeg、png、mov、avi、mpegなど...)これらのファイルがwgetに提供されるURLリンクに存在する場合:

これから.Zipファイルと.chdファイルをダウンロードしたいとしましょう website

このリンクには、フォルダーと.Zipファイルがあります(最後までスクロールしてください)。ここで、次のコマンドを実行するとします。

wget -r --no-parent -P /save/location -A chd,Zip "https://archive.org/download/MAME0.139_MAME2010_Reference_Set_ROMs_CHDs_Samples/roms/"

このコマンドは、.Zipファイルをダウンロードすると同時に、.chdファイル用の空のフォルダーを作成します。

.chdファイルをダウンロードするには、空のフォルダーの名前を抽出し、それらのフォルダー名を実際のURLに変換する必要があります。次に、関心のあるすべてのURLをテキストファイルfile.txtに入れ、最後にこのテキストファイルを次のようにwgetにフィードします。

wget -r --no-parent -P /save/location -A chd,Zip -i file.txt

前のコマンドはすべてのchdファイルを見つけます。

7
user88036