web-dev-qa-db-ja.com

arxiv.orgアンチボットの「検索と破棄」は実際に何をしますか?

lanl.arxiv.org 数学および科学的プレプリントサービス(旧称 xxx.lanl.gov )には、robots.txtを無視するボットに対する厳格なポリシーがあります。 ロボットは注意してください 。そのページには、「ここをクリックして、サイトに対して自動化された「シークアンドデストロイ」を開始する」というラベルの付いたリンクがあります。これは、 robots.txt によって禁止されていますが、おそらく動作が悪いロボットです。それに続き、結果を刈り取ります。質問、実際の結果は何ですか?私は実際にそのリンクをクリックしてそれが何をするのかを見る勇気を持ったことがありません。効果的かつ合法的なことを彼らは何ができるでしょうか?

2
Brian Campbell

[DNSの逆引き結果]:arxiv.orgに投稿されたガイドラインに違反して動作しているロボットとして識別されました。

この決定に誤りがある場合は、www-admin @ arxiv.orgに報告して、問題を調査できるようにしてください。

Scanning, Initialized:

10 minutes to Trinity...
9 minutes to Trinity...
8 minutes to Trinity...
7 minutes to Trinity...
6 minutes to Trinity...
5 minutes to Trinity...
4 minutes to Trinity...
3 minutes to Trinity...
2 minutes to Trinity...
1 minute to Trinity...

グラウンドゼロ。ごきげんよう。

連絡先

だから...それは非常にナイーブなボットの時間を10分無駄にするページです。悪意のあるボットと戦うにはおそらく役に立たないでしょうが、ひどく書かれたサイトスクレイパーに直面したときに帯域幅を節約するかもしれません。

4
Shog9

少し回転する以外の影響はありません。ほとんどのブラウザ(およびおそらくそのサーバー)は、少し経つとタイムアウトします。彼らはおそらく、ボットよりもこれで自分自身にもっと害を及ぼすだけです。

0
Daniel A. White