web-dev-qa-db-ja.com

GooglebotとMediapartners-Googleはrobots.txtによってブロックされたURLをクロールしているのはなぜですか?

Robots.txtのURLの一部をブロックしました。私のウェブサイトからブロックされたURLにアクセスする方法はないと思います。しかし、robots.txtからURLをブロックしたものはすべてログに記録されており、Googleボットによってクロールされています。また、「Google bot」が最初のリクエストをトリガーし、その後に「Mediapartners-Google」が続いていることも確認しました。しかし、Googlebotが他のリークからクロールするのか、「Mediapartners-Google」からクロールするのかは明確ではありません。

そして、「Mediapartners-Google」と「Google bot」の関係と違いを知りたいです。

1
nagababu thota

あなたはあなたのウェブサイトからロックされたURLにアクセスする方法がないと言いますか?私はあなたがあなた自身のウェブサイトからそれらのURLを指すリンクがないことを意味していると推測しています。だからそれは私が仮定するものです。

Robots.txtでURLまたはウェブサイトの一部をブロックしても、実際にはクロールされないという保証はありません。 robots.txtファイルのdisallowディレクティブが無視される状況があります。通常は、非表示にするURLを指す外部リンク(バックリンク)があるためです。 GoogleがURLのインデックスを作成しないようにする場合は、X-Robots-Tag HTTPヘッダーを使用する必要があります。その場合、robots.txtファイルのdisallowディレクティブを削除する必要があります。削除しないと、競合が発生する可能性があります。これについては、Google Search Consoleのヘルプセクションをご覧ください。 https://support.google.com/webmasters/answer/7424835?hl=ja#h12

Googleボットは、Webサイトをクロールし、インデックスに使用されるデータを取得するGoogleの「通常の」ボットです。 Mediapartners-Googleは、Google AdSenseまたはGoogle Mobile Adsenseのボットであり、URLをクロールして、ページ上のコンテンツを理解し、関連する広告を訪問者に表示します。これについては、次のサイトで読むことができます。 http://www.botreports.com/user-agent/mediapartners-google.shtml

2