web-dev-qa-db-ja.com

どのボットが本当にサイトに入れる価値があるのでしょうか?

多数のボットを作成し、サイトをクロールする大量のランダムなボットを見たので、ウェブマスターとして、どのボットが本当にサイトに入れる価値があるのだろうか?

私の最初の考えは、サイトにボットを許可すると、実際のトラフィックがサイトにもたらされる可能性があるということです。サイトに実際のトラフィックを送信していることが知られていないボットを許可する理由はありますか?

11
blunders

通常のボットの領域内では、それはすべてあなたが感謝するものに依存し、あなただけがそれを決めることができます。もちろん、Google、Bing/MSN/Yahoo!、Baidu、Yandexもあります。これらは主要な検索エンジンです。さまざまなSEOおよびバックリンクサイトもあります。正しいか間違っているか、いくつかの大きなサイトが私のサイトにアクセスすることを許可しますが、一般的に、それらは役に立たないサイトです。 robots.txtだけでなく、ドメイン名とIPアドレスによってarchive.orgをブロックしています。これは、robots.txtを無視するからです!これはあなたが感じを得るために必要なものです。エージェント名にだまされないでください。多くの場合、彼らは悪い人々によって偽造されています。現在、バイドゥであると主張するソースから何千ものページリクエストを受け取っていますが、そうではありません。ドメイン名とIPアドレスブロックによってこれらのスパイダーを知り、そのレベルでそれらに対処することを学びます。良いものはrobots.txtに従います。

ただし、ステルスボット、不正ボット、スクレーパーなどが多数存在するため、ログ分析を頻繁に検索してブロックする必要があることに注意してください。この5uck5!しかし、それは行われなければなりません。最近の彼らからの最大の脅威は、サイトへの低品質リンクです。今年実装した私の更新されたアンチボットセキュリティコードは、7700の低品質リンクを自動的にドロップしました。もちろん、私のコードにはまだ作業が必要ですが、要点はわかります。悪いボットはまだサイトの可能性を盗みます。

あなたはそれのこつを得る前に長くはないでしょう。

11
closetnoc

検索エンジンがほとんどトラフィックを送信していない間に、Baiduボットがサーバーの速度を低下させる問題がありました。これらのボットはrobots.txtファイルを尊重しないため、Baiduボットをブロックするには、以下をhtccessファイルに貼り付けます。

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

また、Baiduとは異なりrobots.txtファイルを尊重しているため、Bing/Microsoftスパイダーのクロールが速すぎるという問題もありました。

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
1
Chaoley