GoogleがWebサイトからバイナリをダウンロードし、帯域幅を使用しているのはなぜですか？

Question

2014年8月中旬以降、いくつかのGoogleサーバーが、週に1回、私のWebサイトにすべての（非常に）大きなバイナリファイルをダウンロードしています。 IPはすべてGoogleが所有するものとして表示され、google-proxy-66-249-88-199.google.comのようになります。これらはGETリクエストであり、サーバートラフィックに大きな影響を与えています。

これ以前は、これらのGoogleプロキシIPからのトラフィックは見られなかったため、これは比較的新しいもののようです。他のGoogle IPからのあらゆる種類のトラフィックが表示されます。それらはすべてgooglebotとHEADリクエストのみです。

これらのファイルのすべてがGoogleによってほぼ毎週ダウンロードされていることを除いて、これについて心配することはありません。使用される帯域幅が過剰になり始めています。

これらのファイルの多くはWindows実行可能ファイルであるため、おそらくGoogleがそれらをダウンロードしてマルウェアスキャンを実行していると推測しています。たとえそうだとしても、それは毎週本当に必要なのでしょうか？

これまでの11月のGoogleプロキシIPからのトラフィックの例：

google-proxy-64-233-172-95.google.com: 8.09 GB google-proxy-66-102-6-104.google.com: 7.50 GB google-proxy-66-249-83-245.google.com: 3.35 GB google-proxy-66-249-84-131.google.com: 1.54 GB google-proxy-66-249-83-131.google.com: 4.98 GB google-proxy-66-249-83-239.google.com: 2.48 GB google-proxy-66-249-88-203.google.com: 2.94 GB google-proxy-66-249-88-201.google.com: 2.58 GB google-proxy-66-249-88-199.google.com: 4.89 GB

更新＃1：問題のファイルが既にサイトのrobots.txtファイルにあることを忘れていました。 robots.txt構成が正常に機能していることを訴えるために、Google Webmaster Toolsのrobots.txtテスターも使用しました。これは、Adsbot-Googleを除くすべてのGoogleボットに対してファイルが確実にブロックされていることを示しています。それがどちらのことなのか分かりません。そして、Googleでいくつかのファイルを検索しましたが、検索結果に表示されません。

更新＃2：例：11月17日午前5時12分から5時18分の間、約6つのIP（すべてgoogle-proxy）が問題のすべてのバイナリファイルでGETを行いました。合計。 11月4日午後2時9分から午後2時15分の間、これらの同じIPは基本的に同じことを行いました。

更新＃3：この時点では、これらは有効なGoogle IPですが、Googleのプロキシサービスの一部であり、Googleのウェブクロールシステムの一部ではないことは明らかです。これらはプロキシアドレスであるため、GET要求が実際に発信されている場所、または1か所から発信されているかどうかを判断する方法はありません。 GETの散発的な性質に基づいて、悪意のあることは何も起きていないようです。 Googleのプロキシサービスを使用しているときにすべてのバイナリをダウンロードすることを決定した誰かがいる可能性があります。残念ながら、そのサービスは完全に文書化されていないように見えますが、助けにはなりません。サイト管理者の観点からすると、プロキシはかなり面倒です。正当な用途があるため、ブロックしたくありません。しかし、それらは誤用されることもあります。

nunorbatista · Answer

この質問に対していくつかの調査を行ったところ、次のような興味深いシンが見つかりました。

1。それは偽のクローラーですか？ -> https://stackoverflow.com/questions/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249 -81-131-google-c

ユーザーからの結論：

これらの「クローラー」はクローラーではありませんが、Google検索エンジンで使用されるライブWebサイトプレビューの一部です。

私はこれを試して、プレビューで自分のWebサイトの1つを表示しました。そうです、blockedIPメッセージを受信しました。

ユーザーがWebサイトのプレビューを表示できるようにするには、これらの「クローラー」を受け入れる必要があります。

他の人が言ったように、「そのURLのルートドメインはgoogle.comであり、簡単に偽装することはできません」。

結論：これらのボットまたはクローラーを信頼でき、Google検索でプレビューを表示するために使用されます。

ライブプレビューがファイルをダウンロードしていないことがわかっているので、質問2にジャンプしましょう。

2。 Googleサービスの一部ですか？ -> このGoogleプロキシは偽のクローラーですか：google-proxy-66-249-81-131.google.com?

結論：

一部の人々は、Googleサービス（Google翻訳、Googleモバイルなど）を使用して（ブロックされた）Webサイト（学校など）にアクセスするだけでなく、DOS攻撃や同様のアクティビティにも使用していると思います。

これについての私の推測は上記と同じです。翻訳者など、誰かがGoogleサービスを使用してファイルにアクセスしようとしています。

あなたが言うように、ファイルが既にrobots.txtによってブロックされている場合、これは手動のリクエストにしかできません。

編集：OPコメントに広範囲に対処するには：

クローラーはrobots.txtを無視できますか？はい。ここに list がありますが、Googleはそれをしないと思います。つまり、Googleプロキシを使用する他のボットになる可能性があります。

悪いボットになりえますか？はい、そのために私はお勧めします：

.htaccessの禁止：

 RewriteCond %{REMOTE_Host} ^209.133.111..* [OR] RewriteCond %{HTTP_USER_AGENT} Spider [OR] RewriteCond %{HTTP_USER_AGENT} Slurp RewriteRule ^.*$ X.html [L]

このコードは、IPまたはユーザーエージェントを禁止できます。

または、Spider Trapを使用します- here

これは手動でのリクエストであると考えています。