web-dev-qa-db-ja.com

「回避策」パラメーターを使用して多数のURLを取得するGooglebot

Webサイトの特定のページは、IIS6ログに次のようなエントリを生成し続けます。

2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707368055555 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707277777777 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707347222222 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707291666666 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707263888888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707326388888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707437500000 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707451388888 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707340277777 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:34 W3SVC943830190 10.20.101.146 GET /abc workaround=407707270833333 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707381944444 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707284722222 80 - 66.249.85.65 - 200 0 0
2011-08-16 00:53:35 W3SVC943830190 10.20.101.146 GET /abc workaround=407707201388888 80 - 66.249.85.65 - 200 0 0

逆引きDNSルックアップを行うと、これらの呼び出しを行うこれらのIPアドレスはGooglebotのようです。この行の "workaround ="はどういう意味ですか?

特定のページでのみ "workaround ="呼び出しが行われているようです。この例のように、数秒以内に複数回呼び出されることもあります。これの原因は何ですか、どのように防ぐことができますか?

この特定のページは、jQueryを介してサードパーティサービスにAJAX呼び出しを行い、呼び出しの急増を報告しているため、このボット呼び出しが問題であると考えています。

1
LordHits

「回避策」の意味が正確にはわかりません。サードパーティのAJAXが、返されるデータにその文字列を含めている可能性があります。 GoogleはHTMLまたはJavaScriptコンテンツのいずれかでそれを見つけ、それをクロールする必要があるURLのように見えると判断するかもしれません。

Googlebotがサイト上のこれらのURLをクロールしないようにするには、これをrobots.txtファイルに追加します。

User-Agent: Googlebot
Disallow: /*workaround=

AJAXもクロールすべきではないようです。その場合、サードパーティのサイトはtheir robots.txtに何かを追加する必要があるかもしれません。 AJAXを呼び出すJavaScriptコードをrobots.txtに入れて、Googlebotが認識できないようにすることもできます。

User-Agent: Googlebot
Disallow: /js/call-third-party-ajax.js
2