robots.txtを無視するGrapeshotクローラー

Question

Grapeshot と呼ばれるクローラーに出くわした人はいますか？彼らは私たちのウェブサイトで同じページを繰り返し叩いています。以前のコンテンツ広告キャンペーンに基づいて、広告関連のキーワードを探していると思います。奇妙なことに、興味のあるページでこのようなキャンペーンを実行したことはありません。AdSenseを実行しているページは数ページしかないのですが、これがGrapeshotを惹きつけたのでしょうか。

Robots.txtに次の宣言を追加しましたが、彼らはそれを尊重していないようです。

User-agent: grapeshot Disallow: /

この迷惑なクローラーをブロックする方法についてのアイデアはありますか？ IISでIPルールを設定するのが最善の方法だと思い始めていますか？

Zistoloen · Accepted Answer

いくつかのボットはrobots.txt宣言に従いません。サーバーでユーザーエージェントをブロックし、403 Forbidden HTTP responseを返す必要があります。

IISでは、サーバーでユーザーエージェントをブロックできます。 moz.comで次の手順を実行できます。
http://moz.com/ugc/blocking-bots-based-on-useragent

ここでは手順が長すぎるので説明しませんでした。

unor · Answer

Grapeshotクローラーは、サイトで文書化であるため、robots.txtを尊重する必要があります。

Robots.txtファイルを使用すると、サイトの一部またはすべてからGrapeshot Crawlerをブロックできます[…]

多分それはあなたのサイトを訪れる本当のGrapeshotクローラーではないでしょうか？ IPアドレスを確認：

Grapeshotクローラーは、Grapeshotが所有するIPアドレス範囲からのリクエストによって識別できます。リクエストがスプーフィングされている疑いがある場合は、適切なwhoisツールまたはルックアップサービスを使用して、まず適切なRIPEデータベースに対してリクエストのIPアドレスを確認する必要があります。一般に、表示される有効なアドレスは、89.145.95.0〜89.145.95.255（89.145.95.0/24）のアドレス範囲のみです。執筆時点で、Grapeshotクローラーに使用されているアドレスは89.145.95.2、89.145.95.41、89.145.95.42のみです。

それが実際のクローラーであり、数日与えた場合（クローラーは変更されたrobots.txtに気付く）、クローラーサポートに連絡する必要があります。