web-dev-qa-db-ja.com

Google IPアドレスからのBingbotリクエスト

サーバーへの疑わしいリクエストがありますが、

74.125.186.46 - - [24/Aug/2014:23:24:11 -0500] "GET <url> HTTP/1.1" 200 16912 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
74.125.187.193 - - [24/Aug/2014:23:24:12 -0500] "GET <url> HTTP/1.1" 200 20119 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

示されているように、ユーザーエージェントはbingbotであることを示しています。しかし、IPアドレス(74.125.186.46および74.125.187.193)のwhoisデータは、Googleサーバーからのものであることを示しています。

それは、Google、Bing、またはその他のコンテンツスクレイパーですか?

4
JITHIN JOSE

他の人が述べたように、 実際のGooglebots を確認できますが、これはGooglebotのIPアドレスではありません。

私はこれらのリクエストについてチームに再確認しましたが、それらは PageSpeedサービス であるようです。これはWebサイトのキャッシュ/プロキシとして機能します。 BingやGoogleなどの検索エンジンがそのようなURLをクロールする場合、サービスは必要に応じてそれらのリクエストをWebサイトに転送します。そのため、これらのリクエストは最初は別の場所から発信されていたとしても、Google IPアドレスから送信されているように見えます。

1
John Mueller

あなたが述べたように、これらはGoogleのIPアドレスです。ただし、これは検索エンジンの一部であることを意味するものではありません。 Googleは最近ビジネスを拡大しており、GoogleのIPアドレスを使用して行われていることのすべてが、私たちが慣れ親しんできた標準を満たしていない。残念ながら。

これらのIPアドレスの逆PTRレコードはありません。関連付けられたドメイン名は私にもっと教えてくれるでしょう。

データベースで両方のIPアドレスを検索しました。 74.125.186.46しか見つかりませんでした。このIPアドレスから疑わしいものは何もなく、最後にアクセスしたのは2012年です。

しかし、私はこれらを見つけました:

https://www.projecthoneypot.org/ip_74.125.187.19

-そして-

https://www.projecthoneypot.org/ip_74.125.186.46

これらのIPアドレスにはさまざまなエージェント名があり、コンテンツスパマーIPアドレスとしてタグ付けされていることがわかります。ただし、おそらくこれが新しいことを意味するbingボットエージェント名は表示されません。

どうしてこれなの?

ドメイン名がなければ、具体的に何が起こったのかを伝えることはできませんが、これを伝えることができます。

Google Codeは、スパイダーとデータマイニングに使用されています。 Nerdydata.comは、たとえばGoogle Codeを使用しています。

また、Googleは現在、ウェブホスティングを提供しています。これらのホストされたサイトから、スパイダーおよびデータマイニングアクティビティと一致するアクセス権を持っています。同様に、私はGoogle Host IPからのハッカー活動を見てきました。

ある時点で、GoogleはIPアドレスの大きなプールを作成し、すべてのIPアドレスを1e100.netサブドメインにリバースすることを決定しました。アイデアは、あらゆるIPアドレスとコンピューターを、必要に応じてさまざまな目的に迅速かつ動的に割り当てることができるというものでした。これにより、検索エンジンのIPアドレスが他の目的に使用され、ブロックまたはホワイトリストに登録できないため、混乱が追加されました。 Googleは、IPアドレスをブロックしてはならず、リクエストごとにドメイン名をチェックすることで、アクセスが実際にGoogleからのものであることを検証する必要があると述べました。ただし、これはWebサーバーに簡単に設定できるチェックではなく、確かにネイティブ機能ではなく、Googleの前に必要ではなかったことがわかっています。残念。

残っているのは、ARIN as Googleにリストされている多くの巨大なIPアドレスの割り当てです。これは人々を混乱させ、ドメイン名がなければ悪行の原因となる部門(より良い用語の欠如)を調査することはほとんど不可能です。

現在、Googleはホスティングとともにドメイン名登録ビジネスを行っています。これはせいぜい利益相反だと思う。確かに、これらは私がサインオフしたであろうビジネスベンチャーではありません。多様性は一つのことですが、コアビジネスモデルに固執することは別です。 Googleは、特にスパムデキシング、データマイニング、コンテンツの検出を回避するために、登録、IPアドレス、ホストなどを変更するホストサイトと常に対立しているという点で、敵(それ自体)に隠れているようです盗難は順調です。

データベースで、これらのIPアドレス範囲がgooglebot.com、google.com、および1e100.netサブドメインに割り当てられているのを見つけました。これは、それらが現在検索エンジンで使用されていることを意味するのではなく、過去に使用したことを意味します。検索エンジンのIP割り当てがあなたに打撃を与える可能性は低いですが、明日には割り当てられる可能性があります。

もっとお話しできればと思います。

重要だと思われる場合は、これらのIPアドレスをブロックします。それ以外の場合は、Googleが起きた混乱に目覚めることを期待して、この質問をGoogleフォーラムに投稿することを検討してください。おそらく彼らは彼らのポリシーを少し再考する必要があります。実際には、おそらくそれについてはありません!

3
closetnoc

PTRレコードを使用して、すべてのGoogleクローラーを確認できます。

参照: Googlebotの検証

これは非常に正確だと思います。 Googleは現在、他の多くのサービスと同様にホスティングサービスも提供しているため、Googleの検索エージェントではない、Googleが割り当てたIP範囲からのリクエストが簡単にあります。

Google User Agents の良いリストもあります。

1
jeffatrackaid