web-dev-qa-db-ja.com

ウェブサイト全体をスクレイプする

企業のWebサイト全体をスクレイプしてダウンロードするプログラムの推奨事項を探しています。

このサイトは、動作を停止したCMSによって強化されており、それを修正するのは高価であり、ウェブサイトを再開発することができます。

ですから、ウェブサイト全体をプレーンなhtml/css /画像コンテンツとして取得し、新しいサイトが登場するまで必要に応じてマイナーアップデートを行いたいと思います。

お勧めはありますか?

41
Dale Fraser

HTTrack を検討してください。無料で使いやすいオフラインブラウザーユーティリティです。

これにより、インターネットからローカルディレクトリにWorld Wide Webサイトをダウンロードし、すべてのディレクトリを再帰的に構築し、HTML、画像、およびその他のファイルをサーバーからコンピューターに取得できます。

23
p.campbell
wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains website.org \
     --no-parent \
         www.website.com

詳細については、こちらをご覧ください こちら

58

上記のどれも、私が必要とするもの(サイト全体とすべてのアセット)を正確に得るものではありませんでした。これはうまくいきました。

まず、 this チュートリアルに従って、OSXでwgetを取得します。

次にこれを実行します

wget --recursive --html-extension --page-requisites --convert-links http://website.com
32
Tyler McGinnis

最良の方法は、@ Abhijeet Rastogiの回答で示唆されているように、wgetでそれを削ることです。あなたが慣れていないなら、Blackwidowはまともなスクレーパーです。過去に使用しました。 http://www.sbl.net/

0
seanbreeden