web-dev-qa-db-ja.com

サイトからボットをブロックする必要がありますか?

私のログは、多くの場合、東ヨーロッパと中国からのボット訪問者でいっぱいです。ボットは、Ahrefs、Seznam、LSSRocketCrawler、Yandex、Sogouなどとして識別されます。私のサイトからこれらのボットをブロックする必要がありますか?

サイトへのトラフィックを増やすために正当な目的を持つのはどれですか?それらの多くはSEOです。

ボットが大量に到着してから、何かあればlessトラフィックが表示されます。

これらはすべてユーザーエージェントでボットであることを認めているため、これらをブロックするのはそれほど難しくありません。

12
Frank E

ボットをブロックできますが、それはあなたのウェブサイトに何を望むかによって異なります。

特定の検索エンジンでインデックス登録されたWebサイトを表示したくない場合は、検索エンジンボットをブロックできます。
例: Yandex はロシア語の検索エンジンです。あなたのビジネスがロシアをターゲットにしていない場合、そのボットをブロックできます。

Web分析ソリューションを使用したくない場合は、SEOボットをブロックできます。
例: Ahrefs はWeb分析ソリューションです。このWeb分析ソリューションを使用しない場合、そのボットをブロックできます。

ボットをブロックする理由:

  • webサイトにアクセスするロボットが少なくなり、実際の訪問者に起因する帯域幅が増えます
  • マルウェアボットに対して安全である
  • ログサイズ

ボットをブロックしない理由:

  • 検索エンジンボットなどのボットは、Webサイトにインデックスを付けることでトラフィックを増やすことができます。

robotstxt.orgのFAQ を読むと、ボットの詳細を確認できます。

ブロックする複数のロボットを決定する場合は、 このWebサイトrobots.txt からインスピレーションを得ることができます。

注意してください、一部のボットはrobots.txt、詳細情報 ここ を無視できます。

結論:インターネットロボット機能を検索して、ブロックすることが有用かどうかを判断できます。

7
Zistoloen

ボットをブロックしようとすると、リソースを解放してログをクリーンアップするのに役立ちますが、robots.txtに注意し、ページでメタタグを使用することも重要ですnoindexは、実際にサイトにアクセスするボットを停止しません。彼らはまだサイトを時々クロールして、ロボットから拒否されたものが削除されたかどうかを確認できます。多くのボットはユーザーエージェントさえ使用せず、標準ユーザーエージェントを使用します。私が言及しているボットは、通常、検索エンジンから見つけた一般的なボットではなく、バックリンクをスキャンするSEO収集ボットです。

ボットをブロックするのではなく、訪問者をカウントするときにこれらのボットを考慮に入れる必要があります。しばらくの間サイトを積極的に監視した後、ボットである大まかな数字を確立します。ほとんどの人はユニークな訪問を気にしますが、これはボットが絶えず戻ってくるため、ボットを排除します。この日と時代には、これらのボットを処理できるサーバー、共有ホスティングがたくさんあるので、インデックスに登録したくないページ以外に、これらのタイプのボットをブロックする理由はわかりません。もちろん、有害なボットもありますが、これらは確かにユーザーエージェントを使用しません;)。

個人的には、ロボットをブロックすることはそれほど多くのリソースを使用しないため時間の無駄だと思います。SEOロボットはサイトをPR0ページにリストするので役立ちます。もちろん、PageRankが増加し、罰せられないように自動化されます彼らによって。

ログの問題

特定のリクエストを除外できる適切なログビューアを使用する必要があります。これにより、ログを確認するときに簡単になります。優れた視聴者は、通常の訪問や404などの多くのことを除外できます。

4
Simon Hayter