robots.txtで禁止される：スクレイピー

Question

https://www.netflix.com のようなウェブサイトをクロールしている間、robots.txtによって禁止されています：https://www.netflix.com/>

エラー：応答がダウンロードされませんでした： https://www.netflix.com/

Rafael Almeida · Accepted Answer

2016-05-11にリリースされた新しいバージョン（scrapy 1.1）では、クロールの前に最初にrobots.txtをダウンロードします。この動作を変更するには、settings.py with ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

ROBOTSTXT_OBEY=False

Ketan Patel · Answer

最初に確認する必要があるのは、リクエスト内のユーザーエージェントを変更することです。そうしないと、デフォルトのユーザーエージェントが確実にブロックされます。