web-dev-qa-db-ja.com

Googleにrobots.txtの更新を促す必要がある

私の古いrobots.txtは

User-agent: *
Disallow: /

新しいサイトマップのアップロードをブロックし、robots.txtを手動で取得するのをブロックしています。私は何をすべきかわかりません。

1
user220297

robots.txtはキャッシュされ、1日以内にGoogleによって自動的に更新されるため、時間の経過によりこれがソートされます。

キャッシュrobots.txtリクエストは通常​​最大1日間キャッシュされますが、キャッシュされたバージョンの更新が不可能な場合(たとえば、タイムアウトや5xxエラーなど)、より長くキャッシュされる場合があります。キャッシュされた応答は、異なるクローラーによって共有される場合があります。 Googleは、max-age Cache-Control HTTPヘッダーに基づいてキャッシュの有効期間を増減する場合があります。

https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=it

1
user29671

Googlebotは、ウェブサーバー上の他のほとんどのファイルよりもrobots.txtを頻繁に再取得します。通常、24時間以内に待機する必要があります。 Googleのドキュメントから

通常、robots.txtリクエストは最大1日間キャッシュされますが、キャッシュされたバージョンの更新が不可能な場合(たとえば、タイムアウトや5xxエラーなど)、より長くキャッシュされる場合があります。キャッシュされた応答は、異なるクローラーによって共有される場合があります。 Googleは、max-age Cache-Control HTTPヘッダーに基づいてキャッシュの有効期間を増減する場合があります。

古いrobots.txtファイルが、新しいrobots.txtファイルを手動で取得することをブロックしていると言ったときの意味がわかりません。 robots.txtを取得するために、ロボットはrobots.txtに従いません。ファイルにDisallow: /robots.txt行を挿入する場合でも、ロボットはrobots.txtファイルを定期的に取得します。 robots.txtを使用してボットがrobots.txtをチェックするのを防ぐ方法はありません。

Googlebotにページをすぐにダウンロードさせる1つの方法は、 Googleウェブマスターツール (「クロール」メニューにある)で「Fetch as Google」機能を使用することです。この機能を使用して、Googlebotに新しいrobots.txtファイルをすぐに取得させることができます。

ウェブマスターツールには、現在のrobots.txtファイルが何であるかを示す「ブロックされたURL」機能(「クロール」メニューにもあります)があり、どのURLがブロックされているかをテストできます。そのツールでrobots.txtファイルを変更して、変更が期待するURLをブロックおよびブロック解除することを確認できます。

1