web-dev-qa-db-ja.com

検索エンジンボット-大量のヒット

各セッションの開始時に、Webサイトでユーザーエージェント文字列の追跡を開始しました。今月のデータを見ると、検索エンジンボットが頻繁に登場しています。

Mozilla/5.0(互換性; Baiduspider/2.0; + http://www.baidu.com/search/spider.html

2011年9月1日から2011年9月13日まで、このユーザーエージェントからの2090ヒットを記録しました。他の検索エンジンから、私ははるかに少ないヒット数を追跡​​しています...

Mozilla/5.0(互換性; Yahoo!Slurp; http://help.yahoo.com/help/us/ysearch/Slurp )-353

Mozilla/5.0(互換性; Googlebot/2.1; + http://www.google.com/bot.html )-175

Mozilla/5.0(互換性; bingbot/2.0; + http://www.bing.com/bingbot.htm )-110

www.baidu.comはGoogleの中国語版のようです。ボットを抑制する方法はありますか?彼らが私たちにインデックスを付けてもかまいません...実際、私たちにはサイトを利用しているアジアの人口が多いので、それはおそらく良いことですが、彼らはもっとたくさんやっているようです。

1
Justin808

ボットを抑制したいのですが、[〜#〜]なぜ[〜#〜]これを実行したいかわからないようです。
パフォーマンスに影響がありますか?トラフィックが帯域幅または転送しきい値を超えていますか?

「理由だけで」ボットをスロットリングするのは労力の無駄です-それがあなたを傷つけないのであれば、私はあなたがそれを放っておくことを提案します。

問題が発生している場合は、 sitemaps.xml を使用してボットがクロールする頻度を制限するか、 robots.txtディレクティブ を使用してクロール速度を制限する手順を実行できます。これらは両方とも無視できることに注意してください。これにより、Apache mod_rewriteルールを使用してユーザーエージェントをブロックするオプションのみが残ります。これにより、インデックスが作成されなくなります...

2
voretaq7

私は昨日同様の質問に対するこの応答を書きました: httpd.confのユーザーエージェント文字列によるブロックは効果的ではありません

これは基本的にこれを言います:

特定のユーザーエージェント(ロボット)がインデックスを作成したくない場合は、[これらの]手順に従ってください。ロボットにインデックスを付けたくない場合は、[those2]の手順に従ってください。

Httpd.confファイル、または簡単な場合は.htaccessファイルのいずれかを使用し、いくつかの書き換えルールを設定します。お役に立てば幸いです。彼らがあなたにインデックスを付けることができる回数を制限することに関しては、あなたは(グーグルのように)あなたがウェブサイトを所有していることを証明し、そして彼らの「ウェブマスターツール」に行きそして非常に遅いインデックスレートを選択する必要があるでしょう。しかし、ここに私の入力があります:

<2-cents>
Unless the bots slow your server down, let it be. They don't hurt unless they are "bad bots" and access sensitive data.
</2-cents>

幸運を。

0
U4iK_HaZe