web-dev-qa-db-ja.com

ランダムデータを含むジャンクURLのリクエストでのGooglebotフラッディングサーバー

GoogleBotで問題が発生しています。存在しないランダムなURLを要求し続けます。アクセスしようとしています:www.example.com/index.php/{TOKEN}

{TOKEN}は本当にランダムで、どこから来たのかわかりません。ホームページに301リダイレクトすることで、ページが存在しないと応答しようとしています(これが良いアイデアかどうかはわかりません)。

これは、大量の要求であるため、サーバーが過負荷になっています。これを停止するにはどうすればよいですか?

アクセスログ:

example.com 66.249.64.28 - - [21/Feb/2018:12:13:48 -0300] "GET /index.php/66t-2nkznwh_91f4690bjij1wbgziq- HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"

  • "私は何をすべきか"。即時のアクションとして、Webサーバー構成(.htaccessなど)にルールを設定して、404で応答します。 404は、サーバー上の有効なパスとして/index.phpがない場合です。ドンは少なくともあなたのインタプリタからの負荷を落とすでしょう(私はそれがPHPだと思います)。
  • 次に、そのようなパスのインデックス作成を禁止するルールをrobots.txtに入れます。 GoogleがこれらのURIをクロールするのを完全に停止し、それらにクロール予算を費やすのを停止する必要があります。
  • その後、これらのURIのいずれかを使用して、サイトへのリンクを検索します。誰が知っているか、多分それはそれらのリンクがGoogleから来ている理由を見つけるのに役立つでしょう。それがあなた自身のサイトだとしたらどうでしょう?

それだけだと思う​​。

PS 301は私が思うに良い考えではありません。私の経験から、ボットは、リダイレクトがまだ存在することを確認するために時々戻ってきます。私はそれがあなたが望むものではないと思います。さらに、404は、定義ごとによりよく適合します。

存在しないランダムなURL

1
George

Googlebotは、サイト上のURLをクロールします。URLは存在せず、コンテンツがなく、どのページからもリンクされていません。調査によると、Googleはウェブサイトの検索バーに単語を入力し、検索結果をクロールしているようです。

ウェブマスターコンソールで、Googlebotがサイトに行うクロールリクエストを制限できます。

このページをホームページにリダイレクトする301がGoogleによるサイトのクロールに役立たないと思われる場合は、そのページでヘッダーのステータスを403禁止に設定できます。これにより、Googlebotがそこに行くことができなくなる可能性があります。特定のディレクトリにある場合は、robots.txtでロボットを禁止することもできます。

0
Michael d