web-dev-qa-db-ja.com

ロボットを無視し、Nofollowがハニーポットに入らないようにする「良い」ボットを維持するには?

クローラーをジャンクデータで満たすように設計された自己生成ハニーポットがあります。適切な「条約」とヘッダーで保護されているため、優れたボットの99%は離れています。今日では、SEMrushが何千ものページのゴミデータを見つけたようです。

理論的には、サイトをスニッフィングしようとする競合他社に統計情報を歪ませるため、これは素晴らしいことですが、実際にはSEMrushを使用しています。 SEMrushなどの便利なバッドボットがこのハニーポットにcい込むのを防ぐにはどうすればよいですか? robots.txtとnofollowは効果がないようです。設定方法は次のとおりです。

  • ハニーポットファイルの名前はwp-admin(Wordpress)であるため、何かがヒットすることはありません(WPは使用しません)
  • Robots.txtは、すべてのトラフィックがURL example.com/wp-adminにアクセスしてはならないと述べています
  • すべてのページで、非インデックスの非UIディスプレイ:noindex/nofollowを含むnoneリンクがexample.com/wp-adminを指している
  • ハニーポットがロードされると、403禁止されたHTTPヘッダーがクライアントに設定されます
  • ハニーポットでは、nofollow/noindexのメタヘッダーが含まれます
  • ハニーポットがロードされた後、特定のものをブロックするCSSオーバーレイがあり、そこにいる人間にこれが何であるかを説明します。

それでは、SEMrushまたはそのような他のツールが蜂蜜に掛からないようにするにはどうすればよいですか?

2
dhaupin

Apache Webサーバーを使用している場合、。htaccess設定を使用して、ユーザーエージェントによってホワイトリストに登録し、正規のボットが「ターピット」に到達するのを防ぐことができます。

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} SEMrush [NC]
RewriteRule .* - [F,L]
1
richhallstoke