web-dev-qa-db-ja.com

robots.txtを無視するGrapeshotクローラー

Grapeshot と呼ばれるクローラーに出くわした人はいますか?彼らは私たちのウェブサイトで同じページを繰り返し叩いています。以前のコンテンツ広告キャンペーンに基づいて、広告関連のキーワードを探していると思います。奇妙なことに、興味のあるページでこのようなキャンペーンを実行したことはありません。AdSenseを実行しているページは数ページしかないのですが、これがGrapeshotを惹きつけたのでしょうか。

Robots.txtに次の宣言を追加しましたが、彼らはそれを尊重していないようです。

User-agent: grapeshot
Disallow: /

この迷惑なクローラーをブロックする方法についてのアイデアはありますか? IISでIPルールを設定するのが最善の方法だと思い始めていますか?

4
QFDev

いくつかのボットはrobots.txt宣言に従いません。サーバーでユーザーエージェントをブロックし、403 Forbidden HTTP responseを返す必要があります。

IISでは、サーバーでユーザーエージェントをブロックできます。 moz.comで次の手順を実行できます。
http://moz.com/ugc/blocking-bots-based-on-useragent

ここでは手順が長すぎるので説明しませんでした。

3
Zistoloen

Grapeshotクローラーは、サイトで 文書化 であるため、robots.txtを尊重する必要があります。

Robots.txtファイルを使用すると、サイトの一部またはすべてからGrapeshot Crawlerをブロックできます[…]

多分それはあなたのサイトを訪れる本当のGrapeshotクローラーではないでしょうか? IPアドレスを確認

Grapeshotクローラーは、Grapeshotが所有するIPアドレス範囲からのリクエストによって識別できます。リクエストがスプーフィングされている疑いがある場合は、適切なwhoisツールまたはルックアップサービスを使用して、まず適切なRIPEデータベースに対してリクエストのIPアドレスを確認する必要があります。一般に、表示される有効なアドレスは、89.145.95.0〜89.145.95.255(89.145.95.0/24)のアドレス範囲のみです。執筆時点で、Grapeshotクローラーに使用されているアドレスは89.145.95.2、89.145.95.41、89.145.95.42のみです。

それが実際のクローラーであり、数日与えた場合(クローラーは変更されたrobots.txtに気付く)、 クローラーサポートに連絡 する必要があります。

3
unor