web-dev-qa-db-ja.com

robots.txtで禁止される:スクレイピー

https://www.netflix.com のようなウェブサイトをクロールしている間、robots.txtによって禁止されています:https://www.netflix.com/>

エラー:応答がダウンロードされませんでした: https://www.netflix.com/

43
deepak kumar

2016-05-11にリリースされた新しいバージョン(scrapy 1.1)では、クロールの前に最初にrobots.txtをダウンロードします。この動作を変更するには、settings.py with ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

リリースノート

110
Rafael Almeida

最初に確認する必要があるのは、リクエスト内のユーザーエージェントを変更することです。そうしないと、デフォルトのユーザーエージェントが確実にブロックされます。

1
Ketan Patel