web-dev-qa-db-ja.com

amazonaws.comを禁止するのは良い考えですか

サイトは、Amazonec2でホストされている匿名ボットによってクロールされます。このロボットはrobots.txtを尊重せず、ウェブサーバーに高い負荷をかけるため、リクエストのリバースIPが「amazonaws.com」で終了するかどうかのチェックを追加しました。サーバーはすぐに403ページを返します。

これで問題は解決しましたが、他の問題を引き起こす可能性がありますか? ec2は一部の「優れた」ボットに使用される可能性があり、これによりボットのアクセスに問題が発生します。そのような問題の例を挙げていただけますか?

3
valodzka

AmazonEC2はホスティングプラットフォームです。彼らは人々がホストするものを直接制御しません。 * .amazonaws.comドメイン全体をブロックすると、EC2を使用してホストされているサービスへのアクセスが停止します。最近はかなり多いです。

5
George Hewitt

この同様の質問を確認してください。ユーザーエージェントが.htaccessファイルで直接ブロックする方法を示しています。これは、robots.txtのルールに従わないロボットに適しています...

httpd.confのユーザーエージェント文字列によるブロックは効果的ではありません

そして、それをhttpd.confファイルOR a.htaccess。

幸運を。

1
U4iK_HaZe