web-dev-qa-db-ja.com

「Bytespider」ユーザーエージェントとは何ですか?

ユーザーエージェント文字列の例:

Mozilla/5.0(Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012)AppleWebKit/537.36(KHTML、like Gecko)Chrome/56.0.1511.1269 Mobile Safari/537.36; Bytespider

Mozilla/5.0(iPhone; CPU iPhone OS 11_0 like Mac OS X)AppleWebKit/537.36(KHTML、like Gecko)Chrome/44.0.7997.1233 Mobile Safari/537.36;バイトスパイダー

8
Gokula Kannan

私たちは同じことを見ていました-かなり小さなAndroid/iOSユーザーエージェントのセットで、すべてBytespiderで終わり、すべてがrobots.txtファイルを無視しています。私たちのプラットフォームエンジニアの1人は、クラスターでDNS逆引き参照を行うという優れたアイデアを持っていました。

結果-これは https://bytedance.com/ のようです

彼らがrobots.txtファイルを尊重しないことを考えると、私はそれらをブロック飼料と見なすでしょう。

4
James

私のウェブサイトでも同様です。毎秒、存在しないページに対してGETリクエストを発行します。 bytespiderがユーザーエージェント文字列にあり、ファイアウォールでIPアドレスをブロックしているときに403 HTTPステータスコードを返すことに頼りました(サーバーログに基づいて定期的に追加します) 。リクエストの大部分は、中国およびシンガポールのISPとCloudflareが所有するIPアドレスから発行されます。

サンプルリクエスト:

172.69.22.98 - - [30/Sep/2019:13:16:10 +0000] "GET /CloudHD/interview-of-riyaz-14-bestfriend-secret-reveals-with-proof-yaari-hai/ZVRmSmlTQlFaRDQ.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.5653.1247 Mobile Safari/537.36; Bytespider"
172.68.142.101 - - [30/Sep/2019:13:18:12 +0000] "GET /CloudHD/hot-desi-girl-big-boob-s-in-blouse-nude-selfie/WmVzSi1SOEtXTjg.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.8372.1186 Mobile Safari/537.36; Bytespider"

ご想像のとおり、私のWebサイトでは、これらにリモートで類似したパスも利用できません。ボットは/ robots.txtを読み取ろうとしたことさえないので、このメソッドでブロックする意味はありません。

Semrushボット は、/ robots.txtでブロックするまでほぼ同じように動作しました。したがって、Bytespiderは、ブロックされて悪いプレスを受けたくない場合に、それ自体を表示するものである可能性があります。

2
Jakub Alba