web-dev-qa-db-ja.com

URLから文字を削除すると、BingBotが非常に多くの404エラーを引き起こすのはなぜですか?

ForceRecrawl の問題が解消されてから、Bingはいくつかの新しいトレンドで戻ってきました。

多くのURLで最後の文字、またはいくつかの文字、その他の有線推測URLが欠落しています。私も 1つだけ ではないようです。

私はこれらのURLを他のボットから取得しておらず、リンクチェッカーを定期的に自分のサイトで実行して、無効なリンクをチェックしているため、ページからアクセスしていません。 Bing(およびおそらくすべてのボット)が少なくとも1つのリファラーをリクエストヘッダーに含めて、リンクの取得元を知らせてくれることを願っています(複数の参照があるかもしれませんが、1つあればいいスタートです)。

また、Bingのインデックス作成戦略を理解するのに苦労しており、Googleがインデックス登録するページ数の約25%をインデックス登録してから、突然ページの半分を捨てて、ゆっくりと再構築を開始します。

BingはURLを変更して、URLを通常のナビゲーションメカニズムから収集する代わりに「推測」することでページに移動できるかどうかを確認しようとしていますか?たぶん、彼らはJavascriptメニューの解析をマスターできないでしょうか?わかりませんが、彼らは何かおかしなことをしています!

少し話題から外れていますが、ニースの陰謀説です。「Ezooms/1.0」と呼ばれる別のボットがあります。これは、URLで見つけたダッシュの後ろにスペースを追加します。 (URLの最初のダッシュの後は常にだと思います)。パターンを比較すると、これらの2つのボットは同じ開発者によって作成されたと思われます(ただし、謎のEzoomsにはユーザーエージェント文字列にgmailアドレスが追加されています)。

6
Louis Somers

Bing Webmaster Tools を見たことがありますか?

それらにサインアップすることができ、ドメインを申請するプロセスはGoogleウェブマスターツールと同じです。

これにより、404へのリンクを含むクロール統計の完全なリストを取得できます。

コンテンツを削除した場合、以前に知っていたページを要求していないため、リンクが0個表示されることに注意してください。

もう1つの可能性は、これらのリンクがページ上のスクリプトからのものであるということです。JavaScriptで広告呼び出しのリンクを作成しているサイトで問題が発生しました。ボットは、ソースでこの部分的なURLを見つけて、それを追跡しようとします。

3