web-dev-qa-db-ja.com

Baiduspiderのクロール頻度を遅くすることは可能ですか?

Baiduクモのクロール頻度については、多くのことが行われています。本当です: "バイススパイダーはクレイジーにクロールします。"

私は一緒に働いているサイトでこの現象を経験しました。少なくとも1つの例では、BaiduがGoogleの約0.1%のトラフィックを配信しているという事実にもかかわらず、BaiduspiderがGooglebotとほぼ同じ頻度でクロールすることを発見しました。

サイトへのアクセスをできるだけ少なくしたいのですが(いつか成長するのでしょうか?)、サーバーにこのような重い負荷をかけることは正当化できません。

上記のリンクされた質問に対する受け入れられた答えは、 Baidu Webmaster Tools がクロールレートを制限する機会を提供することを示唆していますが、その(中国語のみの)ワームの缶を開くことをheしています。

BWTでBaiduspiderのクロール速度を制限した経験はありますか?この負荷を制限する別の方法はありますか?

17
samthebrand

すばらしい質問です。バイドゥのクモは悪名高く攻撃的であり、サーバーからリソースを奪う可能性があるため、多くのウェブマスターが興味を持っているかもしれません...

BaiduのWeb Searchニュースで示されているように、- Baiduスパイダーはクロール遅延通知設定をサポートしていません であり、代わりに、Baidu Webmaster Toolsプラットフォームでサイトを登録および検証する必要があります こちら そのサイトで。これは、Baiduで直接クロール頻度を制御する唯一のオプションのようです。

問題は、他のスパムボットがBaiduのユーザーエージェント( here 2番以下にリストされている)を使用して、FAQの here 4番以下にあるようにサイトをスパイダーしていることです。 Baiduのクロールレートが遅いと、すべてが解決しない場合があります。

したがって、BaiduのWebmaster Toolsを使用することに決めた場合、 Bots vs Browsers Database のようなリソースを使用して、ユーザーエージェントとそれらに関連付けられていることが知られているIPを比較することも賢明かもしれませんDNS逆引き参照を使用する

他の唯一のオプションは、すべてのBaiduユーザーエージェントをブロックして、Baiduからの潜在的なトラフィックを犠牲にするか、Apacheの mod_qos などを使用して過剰なリクエストを制限することです。

  • ロケーション/リソース(URL)または仮想ホストへの同時リクエストの最大数。
  • URLに対する1秒あたりの最大許容リクエスト数や1秒あたりのダウンロードされたキロバイトの最大/最小などの帯域幅の制限。
  • 1秒あたりのリクエストイベントの数を制限します(特別なリクエスト条件)。
  • また、制限なしまたは制限なしでWebサーバーにアクセスする可能性のある非常に重要な人物(VIP)を「検出」できます。
  • 不正な操作を拒否するための一般的な要求行とヘッダーフィルター。ボディデータの制限とフィルタリングを要求します(mod_parpが必要です)。
  • TCP接続レベルの制限、たとえば、単一のIPソースアドレスまたは動的なキープアライブ制御から許可される接続の最大数。
  • サーバーがフリーTCP接続を使い果たした場合、既知のIPアドレスを優先します。

ロードが遅く、翻訳の問題がある(英語版もありません)Baidu Webmaster Toolsで報告された経験はありません。それは役立つかもしれませんが、もちろん意見に基づいています。

11
dan

これに関する多くの調査と実験の後、私はついに弾丸を噛み締めて、Baidu Webmaster Toolsアカウントを設定しました。別のウィンドウでGoogle翻訳を使用すると、非常に簡単に使用できます。通常のブラウザモードではキャプチャできないボタンから中国語のテキストをコピーアンドペーストできるようにするには、firebugをアクティブにする必要があります。

設定が完了したら、クロールデータが表示されるまで数日待つ必要があります。その後、クロールレートをカスタマイズできます。このURLでアクセスできるはずの「圧力」というセクションに表示されます。
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
バイドゥウェブマスターツールのアカウント設定があり、ウェブサイトのURLを問題のウェブサイトのアカウントに関連付けている場合のみ、このURLを使用できることに注意してください。ここには、現在のクロールレートが中央にあるスライダーが表示されます(私の場合、1日あたり12676リクエストです。クロールレートを下げるには、左にスライドします。

それが実際にあなたの要求を尊重するかどうかはまだわかりません。次のような警告が表示されます。 「デフォルトのサイトのバイドゥクロールレートを使用することをお勧めします。ウェブサイトのクロールに問題がある場合にのみ、このツールを使用して調整します。サイトの通常のクロールを維持するため、バイドゥはクロールレートの調整を実際のサイトの条件により、リクエストに応じて調整することを保証できません。」

5
user35703