web-dev-qa-db-ja.com

wgetを使用してhtmlファイルをダウンロードしましたが、ファイル内の画像はどこに保存されていますか?

Firefoxの読み込みが非常に遅いため、wgetを使用してHTMLファイルを保存することにしました。次のコマンドを使用しました。

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

ファイルはホームフォルダーに保存されていますが、画像の保存場所がわかりません。Ankiで使用する必要があります。

画像はどこに保存されますか?

13
Registered User

ここでは--page-requisitesの代わりに-p(略して-r)を使用することを好みます。ページを表示するために必要なすべてのものをダウンロードしますが、他のページはダウンロードしません。欲しいファイルの種類。

実際に私は通常のようなものを使用しています

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

これの意味は:

  • -E:HTMLファイルであるが、末尾が.htmlまたは類似したものでない場合は、.htmlをファイル名に追加します
  • -H:他のホストからファイルをダウンロードする
  • -k:ダウンロード後、ダウンロードされたファイルを指すようにリンクを変換します
  • -p:オフラインで適切に表示するためにページに必要なものをすべてダウンロードします
32
Florian Diesch

-rパラメーターを使用すると、wgetが画像を含むフォルダー全体をダウンロードできるようになります。

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
2
vegard torvund

画像ファイルも個別にダウンロードする

このコマンドで開始できると思います。

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

画像を保存する場所と、必要なファイルの種類を指定できます。画像をダウンロードする方が簡単かもしれません。

ソース

-rは、再帰的な取得を有効にします。詳細については、再帰ダウンロードを参照してください。

-Pは、すべてのファイルとディレクトリが保存されるディレクトリプレフィックスを設定します。

-Aは、特定のファイルタイプのみを取得するためのホワイトリストを設定します。文字列とパターンが受け入れられ、両方をコンマ区切りリストで使用できます(上記参照)。詳細については、ファイルの種類を参照してください。

フォルダーから画像ファイルをコピーする

WebサイトがPNG画像ファイルを使用していることに気付きました。それらをフォルダからコピーするだけです。これは、Webページを保存したフォルダーで実行する必要があります。

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;
2
don.joey

ページのHTMLファイル内の画像はURLとして書き込まれるため、Wgetはページ内の画像ではなく、ページのHTMLファイルをダウンロードするだけです。必要な処理を行うには、-R(再帰)、-Aオプション、画像ファイルの接尾辞、--no-parentオプションを使用して、昇順しないようにし、--levelオプションと1

具体的にはwget -R -A .jpg,.png,.gif --no-parent --level <url>

さらに良いことに、ほとんどのブラウザ オフライン表示用にページを保存するメソッドがあります

1
Ramchandra Apte