web-dev-qa-db-ja.com

MJ12Botを(私のサイトの一般的な訪問者として)ブロックする必要が本当にありますか?

正当な検索エンジンが自分のサイトにアクセスできるようにすることはすべて目的ですが、名刺スタイルのWebサイトでは、他のすべてのリクエストがMJ12Botから来ることに気付きました。彼らは実際に人間の訪問者を送り返さないので、彼らが生成するノイズについては非常に失望しています。

% cut -f12- -d" " constantine.su.access.log | sort | uniq -c | fgrep -i -e bot -e spider | sort -nr | head
 421 "Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)"
  69 "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
  64 "woobot/1.1"
  62 "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
  61 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
  39 "Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)"
  30 "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
  14 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"
  13 "woobot/2.0"
  12 "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

MJ12Botの野望を鎮める方法はありますか(20倍など)?または、分散された性質のためMJ12botプロジェクト、寄生虫としてそれらを完全にブロックする必要がありますか?

6
cnst

MJ12botはrobots.txt標準に準拠しています。ボットがWebサイトのクロールを防止するようにするには、次のテキストをrobots.txtに追加します。

User-agent: MJ12bot
Disallow: /
2
Sjoerd Linders

別の回答に対するあなたのコメントから、MJ12Botは1時間に1回未満(25日間で421回)サイトにアクセスしています。最善のことは、心配しないことです。クロール遅延がそれほど大きいクローラーに従うことはないため、クロール遅延は役に立ちません。

2
Greg Lindahl

MJ12Botの野望を鎮める方法はありますか

MJ12Bot 伝えられるところによると、robots.txtおよび(非標準の)Crawl-Delayディレクティブに従います。

MJ12botの速度を下げるにはどうすればよいですか?

Robots.txtファイルに次のコードを追加すると、ボットの速度を簡単に下げることができます。

User-Agent: MJ12bot
Crawl-Delay: 5

Crawl-Delayは整数である必要があり、リクエスト間の待機秒数を示します。 MJ12botは、サイトへのリクエスト間で最大20秒の遅延を行います-ただし、可能性は低いですが、サイトがまだ複数のMJ12botから同時にクロールされました。クロール遅延を大きくすると、サイトへの影響を最小限に抑えることができます。

参照:
http://mj12bot.com/

2
MrWhite