web-dev-qa-db-ja.com

すべてのロボットとそのドメインをフィルタリングする良い方法はありますか?

私は自分のWebサイトのボットフィルターにもっと取り組んでいますが、決して完全ではありません。

これまでのところ、私は主なものを持っています:

Google、Yahoo、MSN、Baidu、Amazon、その他いくつか...

現在、フィルターを使用して、参照URL、既存のドメイン、既知のブラウザーと非ブラウザーユーザーエージェントを比較しています。

ヒットがボットから来ているかどうかを検出する他の優れた手法はありますか?

3
Talvi Watia

ヒットがボットから来ているかどうかを検出する他の優れた手法はありますか?

狩りをしているボットの種類によって異なります-悪意のあるボットを隔離するためのヒントを次に示します。

  • 存在しない(またはアクセスが制限されている)管理スクリプト、電子メールスクリプトなどのヒットを探します
  • サイトコンテンツのほぼ瞬時の取得を探します
  • フィードで繰り返しヒットを探します(特に、コンテンツがスクレイパーサイトで使用されていることがわかっている場合)

また、 ser-agent.org をチェックアウトすることもできます。いくつかのより不明瞭な検索ボットエージェントについては、 検索エンジンクローラーユーザーエージェントのリストはどこにありますかおよびそのドメイン名? 数日前にDevによって開始されたスレッド。

1
danlefree